Tại sao bootstrapping lại sử dụng số liệu thống kê?

Thường không thể đo lường mọi thành viên của quần thể để tìm ra các thuộc tính của quần thể. Thay vào đó, chúng tôi sử dụng dữ liệu được lấy mẫu ngẫu nhiên từ tổng thể và Suy luận thống kê để ước tính các thuộc tính này. Ghi chú. Dân số ở đây không nhất thiết có nghĩa là một nhóm người, nó có thể có nghĩa là một nhóm đối tượng, số lượng hoặc sự kiện, v.v.  

Giả sử chúng ta có một bộ sưu tập lớn các quả bóng màu và chúng tôi muốn thử suy luận một thống kê chẳng hạn như giá trị trung bình của đường kính của các quả bóng bằng cách sử dụng một mẫu gồm chín quả bóng. Nếu chúng ta lấy giá trị trung bình của mẫu này và sau đó lấy một mẫu chín quả bóng mới, chúng ta sẽ mong đợi rằng các giá trị trung bình sẽ khác nhau. Hơn nữa, nếu chúng tôi lấy nhiều mẫu mới, chúng tôi sẽ bắt đầu có được phân phối của phương tiện mẫu được gọi là phân phối lấy mẫu. Phân phối lấy mẫu là một điều quan trọng cần xem xét vì nó đưa ra ý tưởng về khả năng giá trị trung bình chúng ta nhận được cho một mẫu nhất định có thể xảy ra như thế nào đối với dân số.  

Trong thực tế, chúng ta sẽ chỉ lấy một trung bình mẫu duy nhất nhưng chúng ta có thể coi đó là một trong nhiều trung bình mẫu mà chúng ta có thể có. Trong nhiều trường hợp, phân phối lấy mẫu của các phương tiện dự kiến ​​sẽ có dạng gần giống như phân phối chuẩn với giá trị trung bình bằng giá trị trung bình của tổng thể. Điều này được chứng minh bởi Định lý giới hạn trung tâm. Trong trường hợp này, có thể biết được trung bình của mẫu sẽ khác bao nhiêu so với trung bình của dân số thực bằng cách sử dụng các kết quả lý thuyết tiêu chuẩn để tính toán một đại lượng được gọi là sai số chuẩn

Nhưng chúng ta có thể làm gì khi dự kiến ​​phân phối lấy mẫu không giống phân phối chuẩn như trường hợp của các thống kê quan tâm khác nhau, chẳng hạn như trung vị hoặc khi chúng ta không thể giả định rằng phân phối lấy mẫu sẽ bình thường. Trong trường hợp này, chúng tôi có thể sử dụng một kỹ thuật được gọi là Bootstrapping, trong đó chúng tôi lấy mẫu lại dữ liệu được lấy mẫu nhiều lần để tạo phân phối lấy mẫu cho một thống kê nhất định mà từ đó chúng tôi có thể tính toán sai số chuẩn cho thống kê đó.  

 

KHỞI ĐỘNG

Hãy quay lại ví dụ về các quả bóng màu để chứng minh cách bootstrapping có thể được sử dụng để tạo phân phối lấy mẫu cho đường kính trung bình của các quả bóng. Hãy tưởng tượng chúng ta có tập dữ liệu được lấy mẫu ban đầu dưới dạng một tập hợp các quả bóng vật lý trong lọ thủy tinh. Để tạo một bộ dữ liệu bootstrap, hãy tưởng tượng lấy ngẫu nhiên một quả bóng ra khỏi lọ, ghi lại đường kính của nó rồi đặt nó trở lại. Quá trình chọn bóng này được lặp lại cho đến khi bạn ghi lại một tập hợp các quả bóng có cùng kích thước với mẫu ban đầu. Tập hợp này có thể bao gồm các quan sát lặp đi lặp lại về cùng một quả bóng vì nó đã được đặt trở lại bình giữa các lần lựa chọn. Phương pháp lấy mẫu này được gọi là lấy mẫu thay thế.   

Tại sao bootstrapping lại sử dụng số liệu thống kê?

Tại sao bootstrapping lại sử dụng số liệu thống kê?

Một tập dữ liệu ví dụ được tạo bằng cách lấy mẫu có thay thế được hiển thị ở trên. Bước tiếp theo là tính toán thống kê quan tâm cho bộ dữ liệu này. Trong trường hợp này, trung vị của mẫu này là 9. Bây giờ đến phần quan trọng của bootstrapping. Lặp lại quá trình lấy mẫu lại và tính toán thống kê cho bộ dữ liệu “B”. Ở đây B là một trình giữ chỗ cho một số lượng lớn. Sự lựa chọn của B là tùy thuộc vào bạn nhưng thông thường nó là 10.000 hoặc hơn. Đây có vẻ là một con số rất lớn nhưng máy tính có thể thực hiện tất cả việc lấy mẫu và tính toán trong vài giây. Chúng ta có thể thu được giá trị cho sai số chuẩn của trung vị bằng cách tìm ra độ lệch chuẩn của các mẫu bootstrap được gọi là sai số chuẩn bootstrap. Bằng cách thực hiện quy trình bootstrap cho tập hợp các quả bóng, chúng ta có thể kết luận rằng lỗi chuẩn bootstrap của trung vị là 1. 86

Tại sao bootstrapping lại sử dụng số liệu thống kê?

 kết luận

Bootstrapping là một công cụ cực kỳ trực quan và mạnh mẽ trong thống kê, nhưng điều quan trọng cần lưu ý là nó không tự nhiên tạo ra dữ liệu mới. Giả định trung tâm của bootstrapping là dữ liệu được lấy mẫu mà bạn làm việc đại diện cho tổng thể của toàn bộ. Khi điều này đúng, chúng ta có thể lấy mẫu lại dữ liệu đã lấy mẫu để có ý tưởng về phạm vi các mẫu có thể khác nhau có thể thu được từ dân số để tạo phân phối lấy mẫu.  

Hãy nhớ rằng bootstrapping không chỉ hữu ích để tính toán các lỗi tiêu chuẩn, nó còn có thể được sử dụng để xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết. Vì vậy, hãy nhớ ghi nhớ các kỹ thuật khởi động khi bạn phải đối mặt với dữ liệu dường như không khả thi với các kỹ thuật truyền thống

Tại sao bootstrapping hữu ích trong thống kê?

“Ưu điểm của bootstrapping là đó là một cách đơn giản để lấy các ước tính về sai số chuẩn và khoảng tin cậy , đồng thời thuận tiện .

Phương pháp bootstrapping dùng để làm gì?

Phương pháp bootstrap là kỹ thuật lấy mẫu lại được sử dụng để ước tính số liệu thống kê về tổng thể bằng cách lấy mẫu tập dữ liệu có thay thế . Nó có thể được sử dụng để ước tính số liệu thống kê tóm tắt như giá trị trung bình hoặc độ lệch chuẩn.