Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Những người cung cấp nội tạng để hiến tặng đôi khi tìm kiếm sự giúp đỡ của một chuyên gia tư vấn y tế đặc biệt. Các chuyên gia tư vấn này hỗ trợ bệnh nhân trong tất cả các khía cạnh của phẫu thuật, với mục tiêu giảm khả năng xảy ra các biến chứng trong quá trình phẫu thuật và phục hồi. Bệnh nhân có thể chọn chuyên gia tư vấn một phần dựa trên tỷ lệ biến chứng trước đây của khách hàng của chuyên gia tư vấn

Trong nghiên cứu tình huống về chuyên gia tư vấn y tế, tham số là \(p,\) xác suất xảy ra biến chứng thực sự đối với khách hàng của chuyên gia tư vấn y tế. Không có lý do gì để tin rằng \(p\) chính xác là \(\hat{p} = 3/62,\) nhưng cũng không có lý do gì để tin rằng \(p\) khác xa \(\hat . \) Bằng cách lấy mẫu có thay thế từ tập dữ liệu (một quy trình được gọi là bootstrapping), tính biến thiên của các giá trị \(\hat{p}\) có thể được tính gần đúng

Hầu hết các thủ tục suy luận được đề cập trong văn bản này đều dựa trên cơ sở định lượng một tập dữ liệu sẽ khác với tập dữ liệu khác như thế nào khi cả hai đều được lấy từ cùng một dân số. Việc lấy các mẫu lặp đi lặp lại từ cùng một quần thể là vô nghĩa bởi vì nếu bạn có đủ phương tiện để lấy nhiều mẫu hơn, cỡ mẫu lớn hơn sẽ có lợi cho bạn hơn là đánh giá riêng rẽ hai mẫu có cùng kích thước chính xác. Thay vào đó, chúng tôi đo lường cách các mẫu hoạt động theo ước tính của dân số

Hình cho thấy cách ước tính dân số ban đầu chưa biết bằng cách sử dụng mẫu để tính gần đúng tỷ lệ thành công và thất bại (trong trường hợp của chúng tôi, tỷ lệ biến chứng và không biến chứng đối với nhà tư vấn y tế)

Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Hình 7. 1. Dân số chưa biết được ước tính bằng cách sử dụng dữ liệu mẫu được quan sát. Lưu ý rằng chúng ta có thể sử dụng mẫu để tạo dân số ước tính hoặc khởi động để lấy mẫu. Số liệu quan sát được gồm 3 viên bi đỏ và 4 viên bi trắng nên ước lượng quần thể chứa 3/7 viên bi đỏ và 4/7 viên bi trắng

Bằng cách lấy mẫu lặp đi lặp lại từ dân số ước tính, có thể quan sát thấy sự thay đổi từ mẫu này sang mẫu khác. Trong hình, các mẫu bootstrap lặp lại rõ ràng là khác nhau và khác với quần thể ban đầu. Hãy nhớ lại rằng các mẫu bootstrap được lấy từ cùng một quần thể (ước tính) và do đó, sự khác biệt hoàn toàn là do sự biến đổi tự nhiên trong quy trình lấy mẫu

Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Hình 7. 2. Lấy mẫu Bootstrap cung cấp thước đo độ biến thiên của mẫu đối với mẫu. Lưu ý rằng chúng tôi đang lấy mẫu từ dân số ước tính được tạo từ dữ liệu được quan sát

Bằng cách tóm tắt từng mẫu bootstrap (ở đây, sử dụng tỷ lệ mẫu), chúng tôi thấy trực tiếp sự thay đổi của tỷ lệ mẫu, \(\hat{p},\) từ mẫu này sang mẫu khác. Phân phối \(\hat{p}_{boot}\) cho kịch bản ví dụ được hiển thị trong Hình và phân phối bootstrap đầy đủ cho dữ liệu tư vấn y tế được hiển thị trong Hình

Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Hình 7. 3. Tỷ lệ bootstrap được ước tính cho từng mẫu bootstrap. Kết quả phân phối bootstrap (dotplot) cung cấp thước đo về tỷ lệ thay đổi như thế nào từ mẫu này sang mẫu khác

Hóa ra trong thực tế, máy tính rất khó hoạt động với dân số vô hạn (với tỷ lệ phân chia giống như trong mẫu). Tuy nhiên, có một phương pháp vật lý và tính toán tạo ra phân phối bootstrap tương đương của tỷ lệ mẫu theo cách tính toán hiệu quả

Coi dữ liệu quan sát được là một túi bi có 3 viên thành công (màu đỏ) và 4 viên không đạt (màu trắng). Bằng cách lấy các viên bi ra khỏi túi có thay thế, chúng tôi mô tả chính xác quy trình lấy mẫu giống như đã được thực hiện với dân số ước tính lớn vô hạn

Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Hình 7. 4. Việc lấy lại các mẫu lặp đi lặp lại từ dữ liệu mẫu cũng giống như quá trình tạo ra một ước tính lớn vô hạn về dân số. Việc lấy mẫu lại trực tiếp từ mẫu sẽ khả thi hơn về mặt tính toán. Lưu ý rằng việc lấy mẫu lại hiện được thực hiện với sự thay thế (nghĩa là mẫu ban đầu không bao giờ thay đổi) để mẫu ban đầu và dân số giả định ước tính là tương đương

Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Hình 7. 5. So sánh quá trình lấy mẫu từ dân số vô hạn ước tính và lấy mẫu lại bằng thay thế từ mẫu ban đầu. Lưu ý rằng biểu đồ chấm của tỷ lệ khởi động giống nhau vì quá trình ước tính số liệu thống kê là tương đương

Nếu chúng tôi áp dụng quy trình lấy mẫu bootstrap cho ví dụ về nhà tư vấn y tế, chúng tôi coi mỗi khách hàng là một trong những viên bi trong túi. Có 59 viên bi trắng (không biến) và 3 viên bi đỏ (có biến). Nếu chúng ta chọn 62 viên bi ra khỏi túi (mỗi lần một viên thay thế) và tính toán tỷ lệ bệnh nhân mô phỏng bị biến chứng, \(\hat{p}_{boot},\) thì tỷ lệ “bootstrap” này đại diện cho một

Trong một mô phỏng của 62 bệnh nhân, chúng tôi dự kiến ​​sẽ có bao nhiêu người bị biến chứng?

Một mô phỏng không đủ để hiểu được sự thay đổi từ tỷ lệ bootstrap này sang tỷ lệ bootstrap khác, vì vậy chúng tôi lặp lại mô phỏng 10.000 lần bằng máy tính

Hình cho thấy sự phân phối từ 10.000 mô phỏng bootstrap. Tỷ lệ bootstrapped thay đổi từ khoảng 0 đến 11. 3%. Sự thay đổi trong tỷ lệ bootstrapped khiến chúng tôi tin rằng xác suất phức tạp thực sự (tham số, \(p\)) có khả năng rơi vào khoảng từ 0 đến 11. 3%, vì những con số này chiếm 95% giá trị được lấy mẫu lại của bootstrap

Phạm vi của các giá trị cho tỷ lệ thực được gọi là khoảng tin cậy phần trăm bootstrap và chúng ta sẽ gặp lại nó trong một vài phần và chương tiếp theo

Làm cách nào bạn có thể tính toán khoảng tin cậy 95% bằng bootstrap?

Hình 7. 6. Dữ liệu tư vấn y tế ban đầu được khởi động 10.000 lần. Mỗi mô phỏng tạo một mẫu từ dữ liệu gốc trong đó xác suất xảy ra biến chứng là \(\hat{p} = 3/62. \) Bootstrap 2. Tỷ lệ phần trăm 5 là 0 và 97. 5 phần trăm là 0. 113. Kết quả là. chúng tôi tin tưởng rằng, trong dân số, xác suất thực sự của một biến chứng là từ 0% đến 11. 3%

Tuyên bố ban đầu là tỷ lệ biến chứng thực sự của chuyên gia tư vấn thấp hơn tỷ lệ quốc gia là 10%. Ước tính khoảng từ 0 đến 11. 3% cho xác suất biến chứng thật chứng tỏ bác sĩ tư vấn phẫu thuật có tỷ lệ biến chứng thấp hơn trung bình cả nước?


Không. Vì khoảng thời gian trùng lặp 10%, nên có thể công việc của chuyên gia tư vấn có nguy cơ biến chứng thấp hơn hoặc có thể công việc của chuyên gia tư vấn có rủi ro cao hơn (i. e. , lớn hơn 10%) biến chứng. Ngoài ra, như đã đề cập trước đây, vì đây là nghiên cứu quan sát nên ngay cả khi có thể đo lường được mối liên quan, không có bằng chứng nào cho thấy công việc của chuyên gia tư vấn là nguyên nhân dẫn đến tỷ lệ biến chứng (cao hơn hoặc thấp hơn)

Làm cách nào để tính khoảng tin cậy từ bootstrap?

Tính toán δ* = x* − x cho mỗi mẫu bootstrap (x là giá trị trung bình của dữ liệu gốc), sắp xếp chúng từ nhỏ nhất đến lớn nhất. Chọn δ. 1 là phân vị thứ 90, δ. 9 là phân vị thứ 10 của danh sách đã sắp xếp của δ*, cung cấp khoảng tin cậy 80% cho [x−δ.

Bạn sẽ sử dụng phần trăm nào cho khoảng tin cậy bootstrap 95%?

Khoảng thời gian bootstrap phân vị chỉ là khoảng giữa các phân vị 100×(α2) và 100×(1-α2) của phân phối ước tính θ thu được từ lấy mẫu lại, trong đó θ đại diện cho một tham số quan tâm và α là . g. , α = 0. 05 cho 95% TCTD) (Efron, 1982).

Khoảng tin cậy bootstrap cho bạn biết điều gì?

Mức chênh lệch trong các ước tính bootstrap này cho chúng ta biết (xấp xỉ) mức độ ảnh hưởng của lỗi ngẫu nhiên trong mẫu ban đầu đối với sự thay đổi trong ước tínhˆθ. The approximation improves as n increases. Suppose we want to set a 95% confidence interval on θ, the true parameter value for the real population f.