Bootstrapping có ý nghĩa gì trong khoa học dữ liệu?
Trong thống kê và học máy, bootstrapping là một kỹ thuật lấy mẫu lại liên quan đến việc lấy mẫu lặp đi lặp lại từ dữ liệu nguồn của chúng tôi bằng cách thay thế, thường để ước tính tham số dân số. Bằng cách thay thế bằng cách thay thế, chúng tôi muốn nói rằng cùng một điểm dữ liệu có thể được đưa vào tập dữ liệu được lấy mẫu lại của chúng tôi nhiều lần Show Thuật ngữ này bắt nguồn từ ý tưởng bất khả thi về việc tự nâng mình lên mà không cần sự trợ giúp từ bên ngoài, bằng cách tự vận động. Lưu ý bên lề, nhưng rõ ràng đó cũng là lý do tại sao chúng tôi "khởi động" máy tính (để chạy phần mềm, trước tiên phần mềm phải được chạy, vì vậy chúng tôi khởi động) Thông thường, dữ liệu nguồn của chúng tôi chỉ là một mẫu nhỏ của sự thật cơ bản. Bootstrapping dựa trên luật số lượng lớn một cách lỏng lẻo, quy luật này nói rằng với đủ dữ liệu, phân phối theo kinh nghiệm sẽ là một xấp xỉ tốt của phân phối thực Sử dụng bootstrapping, chúng tôi có thể tạo phân phối ước tính, thay vì ước tính điểm đơn lẻ. Phân phối cung cấp cho chúng tôi thông tin về sự chắc chắn hoặc thiếu nó Trong Hình 2 của bài báo Rajkomar, các tác giả lưu ý rằng “các thanh lỗi biểu thị khoảng tin cậy 95% được khởi động” cho các giá trị AUROC. Hãy sử dụng phương pháp tương tự để tính khoảng tin cậy khi đánh giá độ chính xác của một mô hình trên một tập hợp bài kiểm tra đã tổ chức. bước
Hãy vẽ biểu đồ phân phối các giá trị độ chính xác được tính toán trên các mẫu bootstrap
Bây giờ chúng ta có thể lấy độ chính xác trung bình trên các mẫu bootstrap và tính khoảng tin cậy. Có một số cách tiếp cận khác nhau để tính toán khoảng tin cậy. Chúng tôi sẽ sử dụng phương pháp phân vị, một cách tiếp cận đơn giản hơn không yêu cầu phân phối lấy mẫu của chúng tôi phải được phân phối bình thường phương pháp phần trămĐối với khoảng tin cậy 95%, chúng tôi có thể tìm thấy số liệu thống kê bootstrap 95% ở giữa. Đây được gọi là phương pháp phần trăm. Đây là phương pháp ưa thích vì nó hoạt động bất kể hình dạng của phân phối lấy mẫu Bất kể hình dạng của phân phối lấy mẫu bootstrap, chúng ta có thể sử dụng phương pháp phân vị để xây dựng khoảng tin cậy. Sử dụng phương pháp này, khoảng tin cậy 95% là phạm vi các điểm bao phủ 95% phân phối lấy mẫu bootstrap ở giữa Chúng tôi xác định giá trị trung bình của từng mẫu, gọi nó là X̄ và tạo phân phối lấy mẫu của giá trị trung bình. Sau đó, chúng tôi lấy các phân vị α/2 và 1 - α/2 (e. g. các. 0251000 và. 9751000 = thống kê khởi động thứ 25 và 975), và đây là các giới hạn tin cậy
Khi một khoảng được tính toán, nó có thể chứa hoặc không chứa giá trị thực của tham số chưa biết. Mức độ tin cậy 95% *không* có nghĩa là có 95% xác suất tham số tổng thể nằm trong khoảng Khoảng tin cậy cho chúng ta biết về độ tin cậy của quy trình ước lượng. 95% khoảng tin cậy được tính ở mức độ tin cậy 95% chứa giá trị thực của tham số
|