Thử nghiệm bootstrapping là gì?

Một khái niệm thống kê, Bootstrapping là một phương pháp lấy mẫu lại được sử dụng để kích thích các mẫu ra khỏi tập dữ liệu bằng kỹ thuật thay thế. Quá trình bootstrapping cho phép một người suy luận dữ liệu về dân số, rút ​​ra các lỗi tiêu chuẩn và đảm bảo rằng dữ liệu được kiểm tra hiệu quả.  

Nói một cách đơn giản, Phương pháp Bootstrapping, trong Thống kê và Học máy, là một kỹ thuật thống kê lấy mẫu lại để đánh giá số liệu thống kê của một dân số nhất định bằng cách kiểm tra tập dữ liệu bằng cách thay thế mẫu.  

Kỹ thuật này liên quan đến việc lấy mẫu lặp đi lặp lại một tập dữ liệu với sự thay thế ngẫu nhiên. Một bài kiểm tra thống kê thuộc danh mục phương pháp lấy mẫu lại, phương pháp này đảm bảo rằng các số liệu thống kê được đánh giá là chính xác và không thiên vị nhất có thể.  

Không giống như các phương pháp phân phối lấy mẫu khác, phương pháp Bootstrapping sử dụng lặp đi lặp lại các mẫu được lấy từ một nghiên cứu để sử dụng kỹ thuật thay thế và đảm bảo rằng các mẫu được kích thích dẫn đến đánh giá chính xác.  

Ngoài việc đảm bảo lấy mẫu độ chính xác của một tập dữ liệu nhất định, bootstrapping trong thống kê còn cho phép người ta ước tính khoảng tin cậy của một tập dữ liệu nhất định.  


Thử nghiệm bootstrapping là gì?

Phương pháp Bootstrapping, Nguồn


Khoảng tin cậy được định nghĩa là mức độ chắc chắn mà một thống kê ước tính chứa giá trị thực của tham số. Bây giờ chúng ta hãy khám phá thêm về phương pháp.  

Trong khoa học dữ liệu, thông tin thu được từ một tập hợp các đối tượng được coi là nền tảng của các mẫu dự đoán. Theo nghĩa này, Thống kê và Học máy sử dụng dữ liệu trong quá khứ để xây dựng các mẫu dự đoán để sử dụng trong tương lai.  

Phương pháp bootstrapping có ý nghĩa rất lớn trong lĩnh vực thống kê và có nhiều ứng dụng. Mặc dù phương pháp lấy mẫu lại Jackknife và Phương pháp Bootstrapping là hai trong số các phương pháp lấy mẫu lại phổ biến nhất, chúng ta sẽ xem xét kỹ hơn về phương pháp Bootstrap.  

Phương pháp Bootstrapping - Nó hoạt động như thế nào?

Được phát minh bởi Bradley Efron, phương pháp bootstrapping được biết là tạo ra các mẫu mới hoặc lấy mẫu lại từ các mẫu đã có để đo độ chính xác của thống kê mẫu.  

Sử dụng kỹ thuật thay thế, phương pháp này tạo ra các mẫu giả thuyết mới giúp kiểm tra giá trị ước tính.  

Dưới đây là 3 bước nhanh có liên quan đến phương pháp Bootstrapping -

  1. Chọn ngẫu nhiên cỡ mẫu

  2. Chọn một quan sát từ tập dữ liệu huấn luyện theo thứ tự ngẫu nhiên

  3. Kết hợp quan sát này với mẫu đã chọn trước đó.  

Đối với các mẫu được chọn trong cỡ mẫu đại diện, chúng được gọi là 'mẫu khởi động' hoặc cỡ mẫu khởi động. Mặt khác, các mẫu không được chọn được gọi là mẫu 'Out-of-the-bag' đóng vai trò là bộ dữ liệu thử nghiệm.  

Phương pháp khởi động liên quan đến các mẫu khởi động hoặc tập dữ liệu đào tạo được chạy thông qua một mô hình học máy, sau đó được thử nghiệm bằng cách sử dụng tập dữ liệu mới - các mẫu Out-of-the-bag.  

Mục đích của phương pháp là cho phép mô hình dự đoán kết quả cho các mẫu bên ngoài, thường dẫn đến phân phối chuẩn hoặc phân phối Gaussian.  

Bằng cách sử dụng kỹ thuật thay thế, phương pháp này lặp đi lặp lại các bước nêu trên (tối thiểu 25 lần lặp lại) để có kết quả tốt hơn.  

Cần lưu ý rằng kích thước mẫu được chọn phải nhỏ và quy trình phải được lặp lại nhiều lần để kiểm tra độ chính xác của mô hình một cách tốt hơn. Được sử dụng để định lượng các lỗ hổng không chắc chắn của một mô hình, phương pháp bootstrapping là một quy trình lấy mẫu lại cực kỳ sâu sắc.  

Đối với các chi tiết cụ thể liên quan đến hoạt động của phương pháp này, có 2 loại phương pháp khởi động được áp dụng trong thống kê và Học máy.  

  1. Phương pháp Bootstrap tham số

Trong phương pháp này, tham số phân phối phải được biết. Điều này có nghĩa là giả định về loại phân phối mẫu phải được cung cấp trước.  

Chẳng hạn, người dùng phải biết nếu mẫu có Phân phối Gaussian hoặc Phân phối lệch. Loại phương pháp bootstrap này hiệu quả hơn vì nó đã biết bản chất của phân phối.   


Thử nghiệm bootstrapping là gì?

Phân phối Gaussian/Phân phối chuẩn


(Phải bắt. mô hình phân phối dữ liệu thống kê)

  1. Phương pháp Bootstrap không tham số

Không giống như phương pháp bootstrap tham số, loại này không yêu cầu phải biết trước tham số phân phối. Do đó, loại phương pháp bootstrap này hoạt động mà không cần giả định bản chất của phân phối mẫu

Các ứng dụng của Phương pháp Bootstrapping

Một trong những phương pháp tốt nhất để kiểm tra giả thuyết là phương pháp bootstrapping. Không giống như các phương pháp truyền thống, phương pháp bootstrapping cho phép người ta đánh giá độ chính xác của tập dữ liệu bằng kỹ thuật thay thế.  

Trong trường hợp kiểm tra giả thuyết trong nghiên cứu, phương pháp này có thể được sử dụng để xác minh tính chính xác của các mẫu và một giả thuyết có thể được chứng minh là hợp lệ hoặc không hợp lệ.  

Nói chung, thử nghiệm giả thuyết bootstrap giảm thiểu các lỗ hổng của mô hình giả thuyết trái ngược với phương pháp truyền thống. Khi nói đến kiểm tra giả thuyết, phương pháp bootstrapping, không giống như các phương pháp truyền thống, không lường trước được rằng dữ liệu được phân phối bình thường.  

Vì vậy, nó chính xác hơn và tốt hơn.  

( Đọc tương tự. Giá trị p là gì?)

Phương pháp bootstrapping được sử dụng để xác định một cách hiệu quả lỗi tiêu chuẩn của tập dữ liệu vì nó liên quan đến kỹ thuật thay thế. Lỗi chuẩn (SE) của tập dữ liệu thống kê biểu thị độ lệch chuẩn ước tính.  

SE đại diện cho độ chính xác của thống kê mẫu và phản ánh giá trị thống kê thực của mẫu trong tập dữ liệu nhất định.  

Mặc dù các phương pháp truyền thống được coi là phù hợp để tính toán sai số chuẩn cho một thống kê mẫu, nhưng phương pháp bootstrapping sử dụng kỹ thuật thay thế và đảm bảo rằng nhiều hơn một giá trị sai số chuẩn được tính toán để biểu thị chung SE trung bình.  

Điều này làm cho phương pháp áp dụng trong việc tính toán lỗi tiêu chuẩn.    

(Phải đọc - Độ lệch chuẩn là gì?)

Không giống như số liệu thống kê, Bootstrapping trong Machine Learning hoạt động hoàn toàn khác. Trong trường hợp Machine Learning, phương pháp bootstrapping cung cấp dữ liệu bootstrapping để đào tạo Mô hình Machine Learning và sau đó kiểm tra mô hình bằng cách sử dụng các điểm dữ liệu còn sót lại.  

Machine Learning đang trên đường phát triển và đã tiến bộ ở mọi khía cạnh có thể. Khi sử dụng kỹ thuật thay thế, các mô hình ML và thuật toán được thử nghiệm bằng cách sử dụng các điểm dữ liệu lấy mẫu lặp lại để đảm bảo rằng chúng hoạt động chính xác khi nói đến các điểm dữ liệu độc lập.  

Có lẽ ứng dụng của Machine Learning là một trong những ứng dụng lớn nhất trong khía cạnh của phương pháp bootstrapping.  

(Cũng đọc - Giới thiệu về Machine Learning)

  1. Tổng hợp Bootstrapping

Đóng bao trong khai thác dữ liệu, hay Bootstrapping Aggregation, là một kỹ thuật Machine Learning tập hợp phù hợp với phương pháp bootstrapping và kỹ thuật tổng hợp.  

Mặc dù phương pháp bootstrapping là quy trình lấy mẫu lại được sử dụng để mua các mẫu bằng kỹ thuật thay thế, nhưng kỹ thuật tổng hợp kết hợp các kết quả dự đoán thu được từ nhiều thuật toán học máy.  

Thay vì dựa vào một mô hình ML, kỹ thuật tổng hợp bootstrap tổng hợp này tập trung vào việc thu thập các dự đoán từ một số mô hình dẫn đến dự đoán chính xác và đáng tin cậy hơn.  

Phương pháp bootstrapping được áp dụng trong kỹ thuật này và đã dẫn đến kết quả hiệu quả hơn trong các mô hình Machine Learning.   

Khoảng tin cậy (CI) là một loại thống kê phản ánh xác suất của một khoảng được tính có chứa một giá trị thực.  

Sử dụng phương pháp bootstrapping, các mẫu được thay thế bằng các điểm dữ liệu hiện có trong một tập dữ liệu chung dẫn đến kết quả chính xác và hiệu quả hơn liên quan đến CI.  

Trong khi ước tính các mẫu, khoảng tin cậy cho chúng ta biết giá trị mẫu ước tính đúng như thế nào đối với các mẫu khác được thu thập.  

Cuối cùng, phương pháp bootstrapping được biết đến để kiểm tra độ chính xác của số liệu thống kê như khoảng tin cậy giúp người ta xác minh toàn bộ tính chính xác của thống kê mẫu

Ưu và nhược điểm của phương pháp Bootstrapping

Ưu điểm của phương pháp bootstrapping như sau;

Phương pháp bootstrapping là một cách đơn giản hơn về mặt chức năng để ước tính giá trị của số liệu thống kê quá phức tạp để tính toán bằng các phương pháp truyền thống.  

Một cách đơn giản, phương pháp này cho phép kiểm tra dễ dàng hơn và các bước đơn giản hơn để xử lý độ chính xác của mô hình mà không gặp nhiều rắc rối.  

Phương pháp bootstrapping, một trong những phương pháp lấy mẫu lại nổi tiếng nhất, không yêu cầu bất kỳ giả định trước nào để khái niệm của nó hoạt động.  

Không giống như các phương pháp truyền thống dựa trên khái niệm lý thuyết để tạo ra kết quả, phương pháp bootstrapping chỉ đơn giản là quan sát kết quả và xử lý chúng, tạo ra kết quả chính xác.  

Phương pháp này không thất bại ngay cả khi lý thuyết không hỗ trợ các quan sát thực tế, và do đó, rất thuận lợi trong khía cạnh này.  

(Đọc thêm. Các loại kỹ thuật lấy mẫu)

Liệt kê dưới đây một số nhược điểm của phương pháp bootstrapping;

  1. Sức mạnh tính toán quá mức

Sử dụng kỹ thuật thay thế, phương pháp bootstrapping lấy mẫu lại các điểm dữ liệu để kiểm tra chính xác hiệu suất của mô hình.  

Trong trường hợp này, phương pháp này yêu cầu sức mạnh tính toán quá mức vì nó được hỗ trợ bởi kỹ thuật thay thế. Một trong những nhược điểm của phương pháp bootstrapping, sức mạnh tính toán quá mức có thể làm giảm lợi ích của nó.  

  1. Đánh giá thấp sự thay đổi

Vì phương pháp bootstrapping được khuyến nghị hoạt động hiệu quả trong trường hợp cỡ mẫu nhỏ, nên một trong những nhược điểm của phương pháp này là nó có xu hướng đánh giá thấp tính biến thiên của phân phối.  

Trong trường hợp các giá trị cực hiếm, phương pháp này có xu hướng phù hợp với các giá trị gần hơn, tránh sự tham gia của các giá trị gần cuối.  

(Blog gợi ý. Phân phối lấy mẫu là gì?)

Đến cuối cùng

Cuối cùng, phương pháp bootstrapping là một phương pháp cực kỳ sâu sắc để kiểm tra độ chính xác của một mô hình khi chưa biết phân phối lý thuyết của các mẫu của nó.  

Bằng cách tách riêng tập dữ liệu thành các mẫu bootstrap và mẫu bên ngoài, phương pháp này bao gồm một cách tiếp cận đơn giản hơn để tính toán nhiều thống kê như khoảng tin cậy, lỗi tiêu chuẩn và thậm chí xác định các nhược điểm tiềm ẩn của mô hình ML.  

Mặc dù phương pháp này có thể đánh giá thấp tính biến thiên của dữ liệu và đòi hỏi sức mạnh tính toán quá mức, nhưng nó được biết là tạo ra kết quả chính xác và tốt hơn với sự trợ giúp của kỹ thuật thay thế.  

Bootstrapping là gì và tại sao nó được sử dụng?

Bootstrapping là quá trình xây dựng doanh nghiệp từ đầu mà không cần thu hút đầu tư hoặc với nguồn vốn bên ngoài tối thiểu . Đó là một cách để tài trợ cho các doanh nghiệp nhỏ bằng cách mua và sử dụng tài nguyên bằng chi phí của chủ sở hữu mà không chia sẻ vốn chủ sở hữu hoặc vay một khoản tiền lớn từ ngân hàng.

Khi nào tôi nên sử dụng thử nghiệm bootstrap?

Các thử nghiệm Bootstrap rất hữu ích khi giả thuyết thay thế không được xác định rõ ràng . Trong trường hợp có giả thuyết thay thế tham số, khả năng hoặc phương pháp Bayes có thể thích hợp hơn.

Khái niệm về bootstrapping là gì?

Khởi nghiệp đề cập đến quá trình thành lập công ty chỉ bằng tiền tiết kiệm cá nhân, bao gồm vốn vay hoặc vốn đầu tư từ gia đình hoặc bạn bè, cũng như thu nhập từ lần bán hàng đầu tiên. Self-funded businesses do not rely on traditional financing methods, such as the support of investors, crowdfunding or bank loans.

Bootstrapping có ý nghĩa gì trong số liệu thống kê?

Bootstrapping là lấy mẫu có thay thế từ dữ liệu được quan sát để ước tính độ biến thiên trong một thống kê quan tâm . Xem thêm phép thử hoán vị, một hình thức lấy mẫu lại có liên quan. Một ứng dụng phổ biến của bootstrap là đánh giá độ chính xác của ước tính dựa trên một mẫu dữ liệu từ một dân số lớn hơn.