Khi nào tôi nên sử dụng số liệu thống kê bootstrap?

Ước tính điểm rất hữu ích để ước tính các tham số chưa biết nhưng để suy luận về một tham số chưa biết, chúng ta cần ước tính khoảng. Khoảng tin cậy dựa trên thông tin từ phân phối lấy mẫu, bao gồm sai số chuẩn

Điều gì xảy ra nếu bản phân phối cơ bản không được biết?

Nếu chúng tôi có dữ liệu mẫu, thì chúng tôi có thể sử dụng các phương pháp bootstrap để xây dựng phân phối lấy mẫu bootstrap để xây dựng khoảng tin cậy

Bootstrapping là một chủ đề đã được nghiên cứu rộng rãi cho nhiều tham số dân số khác nhau và nhiều tình huống khác nhau. Có bootstrap tham số, bootstrap không tham số, bootstrap có trọng số, v.v. Chúng tôi chỉ giới thiệu những điều cơ bản của phương pháp bootstrap. Để giới thiệu tất cả các chủ đề sẽ là cả một lớp học

BootstrappingBootstrapping là một quy trình lấy mẫu lại sử dụng dữ liệu từ một mẫu để tạo phân phối lấy mẫu bằng cách lấy liên tục các mẫu ngẫu nhiên từ mẫu đã biết, có thay thế

Hãy chỉ ra cách tạo một mẫu bootstrap cho trung vị. Gọi trung vị mẫu là \(M\)

Các bước để tạo một mẫu bootstrap

  1. Thay quần thể bằng mẫu
  2. Mẫu với lần thay thế \(B\). \(B\) phải lớn, giả sử 1000
  3. Tính trung bình mẫu mỗi lần, \(M_i\)
  4. Có được phân phối gần đúng của trung bình mẫu

Nếu chúng ta có phân phối gần đúng, chúng ta có thể ước tính sai số chuẩn của trung vị mẫu bằng cách tìm độ lệch chuẩn của \(M_1,. ,M_B\)

Lấy mẫu với sự thay thế là quan trọng. Nếu chúng tôi không lấy mẫu thay thế, chúng tôi sẽ luôn nhận được trung vị mẫu giống như giá trị quan sát được. Mẫu chúng tôi lấy từ lấy mẫu từ dữ liệu có thay thế được gọi là mẫu bootstrap

Khi chúng tôi tìm thấy mẫu bootstrap, chúng tôi có thể tạo khoảng tin cậy. Ví dụ: đối với khoảng tin cậy 90%, chúng tôi sẽ tìm phần trăm thứ 5 và phần trăm thứ 95 của mẫu bootstrap

Bạn có thể tạo một mẫu bootstrap để tìm phân phối lấy mẫu gần đúng của bất kỳ thống kê nào, không chỉ trung bình. Các bước sẽ giống nhau ngoại trừ bạn sẽ tính toán thống kê thích hợp thay vì trung bình

Một mẫu bootstrap là một mẫu nhỏ hơn được “bootstrapped” từ một mẫu lớn hơn. Bootstrapping là một loại lấy mẫu lại trong đó một số lượng lớn các mẫu nhỏ hơn có cùng kích thước được rút ra nhiều lần, với sự thay thế, từ một mẫu ban đầu.

Ví dụ: giả sử mẫu của bạn được tạo thành từ mười số. 49, 34, 21, 18, 10, 8, 6, 5, 2, 1. Bạn rút ngẫu nhiên ba số 5, 1, 49. Sau đó, bạn thay các số đó vào mẫu và vẽ lại ba số. Lặp lại quá trình vẽ x số B lần. Thông thường, các mẫu ban đầu lớn hơn nhiều so với ví dụ đơn giản này và B có thể lên tới hàng nghìn. Sau một số lượng lớn các lần lặp lại, số liệu thống kê bootstrap được biên dịch thành bản phân phối bootstrap. Bạn đang thay thế các số của mình trở lại nồi, vì vậy các mẫu lại của bạn có thể lặp lại cùng một mục nhiều lần (e. g. 49 có thể xuất hiện hàng chục lần trong hàng chục mẫu lại)

Bootstrapping dựa trên quy luật số lượng lớn, quy định rằng nếu bạn lấy mẫu lặp đi lặp lại, dữ liệu của bạn sẽ gần đúng với dữ liệu dân số thực. Điều này hoạt động, có lẽ đáng ngạc nhiên, ngay cả khi bạn đang sử dụng một mẫu duy nhất để tạo dữ liệu

  • Một mẫu bootstrap theo kinh nghiệm được rút ra từ các quan sát
  • Một mẫu bootstrap tham số được rút ra từ một phân phối tham số hóa (e. g. phân phối chuẩn)

Tại sao lấy mẫu lại?

Lý tưởng nhất là bạn muốn lấy các mẫu lớn, không lặp lại từ một tổng thể để tạo phân phối lấy mẫu cho một thống kê. Tuy nhiên, bạn có thể bị giới hạn trong một mẫu vì lý do tài chính hoặc thời gian. Phương pháp mẫu đơn này có thể đóng vai trò là một quần thể nhỏ, từ đó các mẫu nhỏ lặp đi lặp lại được rút ra với sự thay thế lặp đi lặp lại. Cùng với việc tiết kiệm thời gian và tiền bạc, các mẫu khởi động có thể là các xấp xỉ khá tốt cho các tham số dân số


Chạy thủ tục

Bootstrapping thường được thực hiện với phần mềm (e. g. Stata hoặc với gói R Bootstrap);

  1. Lấy mẫu lại tập dữ liệu x lần,
  2. Tìm một thống kê tóm tắt (được gọi là thống kê bootstrap) cho mỗi x mẫu,
  3. Ước tính lỗi tiêu chuẩn cho thống kê bootstrap bằng cách sử dụng độ lệch chuẩn của phân phối bootstrap

ký hiệu

  • Số lượng mẫu bootstrap có thể được biểu thị bằng B (e. g. nếu bạn lấy mẫu lại 10 lần thì B = 10)
  • Một mẫu bootstrap được xác định bằng ký hiệu "sao". x*1, x2*,…x*n. Điều này tương tự như ký hiệu cho dữ liệu mẫu, theo truyền thống được ký hiệu là. x1, x2,…xn
  • Một ngôi sao bên cạnh một thống kê, chẳng hạn như s* hoặc x̄* cho biết thống kê đã được tính toán bằng cách lấy mẫu lại. Một thống kê bootstrap đôi khi được ký hiệu bằng chữ T, trong đó T*b sẽ là thống kê mẫu bootstrap thứ B T

Phương pháp phần trăm Bootstrap

Phương pháp phần trăm bootstrap là một cách để tính khoảng tin cậy cho các mẫu bootstrap

Với phương pháp đơn giản, một tỷ lệ nhất định (e. g. 5% hoặc 10%) được cắt bớt từ phần dưới và phần trên của thống kê mẫu (e. g. trung bình hoặc độ lệch chuẩn). Số bạn cắt phụ thuộc vào khoảng tin cậy mà bạn đang tìm kiếm. Ví dụ: khoảng tin cậy 90% sẽ tạo ra mức cắt 100% – 90% = 10% (i. e. 5% từ cả hai đầu). Hoặc, nói một cách khác (kỹ thuật hơn một chút), bạn có thể nhận được khoảng tin cậy 90% bằng cách lấy các lượng tử 5% giới hạn dưới và 95% giới hạn trên của bản sao B T1, T2,…TB

Một phương pháp phức tạp hơn là phương pháp BCa của Efron (xem DiCiccio và Efron, 1993), viết tắt của Bias-sửa chữa và tăng tốc. Cùng với việc điều chỉnh độ lệch, nó cũng điều chỉnh độ lệch trong mô hình. Các biến thể khác bao gồm phần mở rộng Bayesian của Rubin và phương pháp ABC của DiCiccio và Efron

Phạm vi được cắt bớt cho thống kê này là khoảng tin cậy cho tham số dân số quan tâm

Tham khảo.
DiCiccio, T. J. và Efron B. (1996) Khoảng tin cậy Bootstrap. Khoa học thống kê, 11, 189-228.
Efron, B. và Tibshirani, R. (1993) Giới thiệu về Bootstrap. Chapman và Hall, New York, Luân Đôn.
Rubin, D (1981). Trình khởi động Bayesian. Biên niên sử thống kê 9 130–134.

GHI CHÚ NÀY NHƯ.
Stephanie Glen. "Mẫu Bootstrap. Định nghĩa, Ví dụ" Từ StatisticsHowTo. com. Thống kê cơ bản cho phần còn lại của chúng tôi. https. //www. thống kê. com/bootstrap-sample/

--------------------------------------- . 30 phút đầu tiên của bạn với gia sư Chegg là miễn phí.



Need help with a homework or test question? With Chegg Study, you can get step-by-step solutions to your questions from an expert in the field. Your first 30 minutes with a Chegg tutor is free!

Mục đích của lấy mẫu bootstrap là gì?

“Bootstrapping là một quy trình thống kê lấy mẫu lại một tập dữ liệu để tạo nhiều mẫu mô phỏng. Quá trình này cho phép tính toán các lỗi tiêu chuẩn, khoảng tin cậy và kiểm tra giả thuyết ,” theo một bài đăng trên số liệu thống kê khởi động từ nhà thống kê Jim Forst.

Khi nào bạn không nên sử dụng bootstrapping?

Nó không thực hiện hiệu chỉnh sai lệch, v.v. Không có cách chữa trị cho cỡ mẫu nhỏ. Bootstrap rất mạnh, nhưng nó không phải là ma thuật — nó chỉ có thể hoạt động với thông tin có sẵn trong mẫu ban đầu. Nếu các mẫu không đại diện cho toàn bộ tổng thể thì bootstrap sẽ không chính xác lắm.