Bootstrapping hoạt động như thế nào?
[Gist embed code (this it for embedding directly into the website if that’s preferred: ]def bootstrapped_conf_interval(data, metric, num_runs=1000, conf=.95): Show
""" mục đích. Tính khoảng tin cậy cho hiệu suất mô hình (số liệu) Thông số —————- dữ liệu. danh sách các điểm dữ liệu ở định dạng được get_metric chấp nhận Hệ mét. các tùy chọn bao gồm 'độ chính xác', 'độ chính xác', 'thu hồi' và 'điểm f1' conf. mức độ chắc chắn mà bạn muốn về phạm vi giá trị có thể có của số liệu đo lường của bạn num_run. int chỉ định số lượng mẫu dữ liệu được khởi động mà bạn muốn trả lại ———- Bộ tin cậy với số float dưới dạng các mục cũ. (. 2,. 3) “”” kết quả = [] # lấy num _runs các mẫu khởi động của dữ liệu chưa được gắn nhãn và được gắn nhãn cho tôi trong phạm vi (num_runs) bootstrapped_data = np. ngẫu nhiên. lựa chọn (dữ liệu, len (dữ liệu)) kết quả. nối thêm (get_metric (bootstrapped_data, số liệu)) kết quả. loại() bootstrapped_mean = tổng (kết quả) / float (len (kết quả)) x_bar = get_metric(dữ liệu, số liệu) # bạn muốn cắt bỏ bao nhiêu chỉ số đo được ở một trong hai đầu left_index = int(num_runs * (1 – conf) / 2) # sai lệch so với phương tiện bootstrapped delta_interval = [kết quả[left_index] – bootstrapped_mean, kết quả[-left_index] – bootstrapped_mean] # độ lệch so với giá trị trung bình so với mẫu thực tế, không phải mẫu khởi động khoảng thời gian = [delta_interval[0] + x_bar, delta_interval[1] + x_bar] khoảng thời gian trở lại Một khái niệm thống kê, Bootstrapping là một phương pháp lấy mẫu lại được sử dụng để kích thích các mẫu ra khỏi tập dữ liệu bằng kỹ thuật thay thế. Quá trình bootstrapping cho phép một người suy luận dữ liệu về dân số, rút ra các lỗi tiêu chuẩn và đảm bảo rằng dữ liệu được kiểm tra hiệu quả. Nói một cách đơn giản, Phương pháp Bootstrapping, trong Thống kê và Học máy, là một kỹ thuật thống kê lấy mẫu lại để đánh giá số liệu thống kê của một dân số nhất định bằng cách kiểm tra tập dữ liệu bằng cách thay thế mẫu. Kỹ thuật này liên quan đến việc lấy mẫu lặp đi lặp lại một tập dữ liệu với sự thay thế ngẫu nhiên. Một bài kiểm tra thống kê thuộc danh mục phương pháp lấy mẫu lại, phương pháp này đảm bảo rằng các số liệu thống kê được đánh giá là chính xác và không thiên vị nhất có thể. Không giống như các phương pháp phân phối lấy mẫu khác, phương pháp Bootstrapping sử dụng lặp đi lặp lại các mẫu được lấy từ một nghiên cứu để sử dụng kỹ thuật thay thế và đảm bảo rằng các mẫu được kích thích dẫn đến đánh giá chính xác. Ngoài việc đảm bảo lấy mẫu độ chính xác của một tập dữ liệu nhất định, bootstrapping trong thống kê còn cho phép người ta ước tính khoảng tin cậy của một tập dữ liệu nhất định. Phương pháp Bootstrapping, Nguồn Khoảng tin cậy được định nghĩa là mức độ chắc chắn mà một thống kê ước tính chứa giá trị thực của tham số. Bây giờ chúng ta hãy khám phá thêm về phương pháp. Trong khoa học dữ liệu, thông tin thu được từ một tập hợp các đối tượng được coi là nền tảng của các mẫu dự đoán. Theo nghĩa này, Thống kê và Học máy sử dụng dữ liệu trong quá khứ để xây dựng các mẫu dự đoán để sử dụng trong tương lai. Phương pháp bootstrapping có ý nghĩa rất lớn trong lĩnh vực thống kê và có nhiều ứng dụng. Mặc dù phương pháp lấy mẫu lại Jackknife và Phương pháp Bootstrapping là hai trong số các phương pháp lấy mẫu lại phổ biến nhất, chúng ta sẽ xem xét kỹ hơn về phương pháp Bootstrap. Phương pháp Bootstrapping - Nó hoạt động như thế nào?Được phát minh bởi Bradley Efron, phương pháp bootstrapping được biết là tạo ra các mẫu mới hoặc lấy mẫu lại từ các mẫu đã có để đo độ chính xác của thống kê mẫu. Sử dụng kỹ thuật thay thế, phương pháp này tạo ra các mẫu giả thuyết mới giúp kiểm tra giá trị ước tính. Dưới đây là 3 bước nhanh có liên quan đến phương pháp Bootstrapping -
Đối với các mẫu được chọn trong cỡ mẫu đại diện, chúng được gọi là 'mẫu khởi động' hoặc cỡ mẫu khởi động. Mặt khác, các mẫu không được chọn được gọi là mẫu 'Out-of-the-bag' đóng vai trò là bộ dữ liệu thử nghiệm. Phương pháp khởi động liên quan đến các mẫu khởi động hoặc tập dữ liệu đào tạo được chạy thông qua một mô hình học máy, sau đó được thử nghiệm bằng cách sử dụng tập dữ liệu mới - các mẫu Out-of-the-bag. Mục đích của phương pháp là cho phép mô hình dự đoán kết quả cho các mẫu bên ngoài, thường dẫn đến phân phối chuẩn hoặc phân phối Gaussian. Bằng cách sử dụng kỹ thuật thay thế, phương pháp này lặp đi lặp lại các bước nêu trên (tối thiểu 25 lần lặp lại) để có kết quả tốt hơn. Cần lưu ý rằng kích thước mẫu được chọn phải nhỏ và quy trình phải được lặp lại nhiều lần để kiểm tra độ chính xác của mô hình một cách tốt hơn. Được sử dụng để định lượng các lỗ hổng không chắc chắn của một mô hình, phương pháp bootstrapping là một quy trình lấy mẫu lại cực kỳ sâu sắc. Đối với các chi tiết cụ thể liên quan đến hoạt động của phương pháp này, có 2 loại phương pháp khởi động được áp dụng trong thống kê và Học máy.
Trong phương pháp này, tham số phân phối phải được biết. Điều này có nghĩa là giả định về loại phân phối mẫu phải được cung cấp trước. Chẳng hạn, người dùng phải biết nếu mẫu có Phân phối Gaussian hoặc Phân phối lệch. Loại phương pháp bootstrap này hiệu quả hơn vì nó đã biết bản chất của phân phối. Phân phối Gaussian/Phân phối chuẩn (Phải bắt. mô hình phân phối dữ liệu thống kê)
Không giống như phương pháp bootstrap tham số, loại này không yêu cầu phải biết trước tham số phân phối. Do đó, loại phương pháp bootstrap này hoạt động mà không cần giả định bản chất của phân phối mẫu Các ứng dụng của Phương pháp BootstrappingMột trong những phương pháp tốt nhất để kiểm tra giả thuyết là phương pháp bootstrapping. Không giống như các phương pháp truyền thống, phương pháp bootstrapping cho phép người ta đánh giá độ chính xác của tập dữ liệu bằng kỹ thuật thay thế. Trong trường hợp kiểm tra giả thuyết trong nghiên cứu, phương pháp này có thể được sử dụng để xác minh tính chính xác của các mẫu và một giả thuyết có thể được chứng minh là hợp lệ hoặc không hợp lệ. Nói chung, thử nghiệm giả thuyết bootstrap giảm thiểu các lỗ hổng của mô hình giả thuyết trái ngược với phương pháp truyền thống. Khi nói đến kiểm tra giả thuyết, phương pháp bootstrapping, không giống như các phương pháp truyền thống, không lường trước được rằng dữ liệu được phân phối bình thường. Vì vậy, nó chính xác hơn và tốt hơn. ( Đọc tương tự. Giá trị p là gì?) Phương pháp bootstrapping được sử dụng để xác định một cách hiệu quả lỗi tiêu chuẩn của tập dữ liệu vì nó liên quan đến kỹ thuật thay thế. Lỗi chuẩn (SE) của tập dữ liệu thống kê biểu thị độ lệch chuẩn ước tính. SE đại diện cho độ chính xác của thống kê mẫu và phản ánh giá trị thống kê thực của mẫu trong tập dữ liệu nhất định. Mặc dù các phương pháp truyền thống được coi là phù hợp để tính toán sai số chuẩn cho một thống kê mẫu, nhưng phương pháp bootstrapping sử dụng kỹ thuật thay thế và đảm bảo rằng nhiều hơn một giá trị sai số chuẩn được tính toán để biểu thị chung SE trung bình. Điều này làm cho phương pháp áp dụng trong việc tính toán lỗi tiêu chuẩn. (Phải đọc - Độ lệch chuẩn là gì?) Không giống như số liệu thống kê, Bootstrapping trong Machine Learning hoạt động hoàn toàn khác. Trong trường hợp Machine Learning, phương pháp bootstrapping cung cấp dữ liệu bootstrapping để đào tạo Mô hình Machine Learning và sau đó kiểm tra mô hình bằng cách sử dụng các điểm dữ liệu còn sót lại. Machine Learning đang trên đường phát triển và đã tiến bộ ở mọi khía cạnh có thể. Khi sử dụng kỹ thuật thay thế, các mô hình ML và thuật toán được thử nghiệm bằng cách sử dụng các điểm dữ liệu lấy mẫu lặp lại để đảm bảo rằng chúng hoạt động chính xác khi nói đến các điểm dữ liệu độc lập. Có lẽ ứng dụng của Machine Learning là một trong những ứng dụng lớn nhất trong khía cạnh của phương pháp bootstrapping. (Cũng đọc - Giới thiệu về Machine Learning)
Đóng bao trong khai thác dữ liệu, hay Bootstrapping Aggregation, là một kỹ thuật Machine Learning tập hợp phù hợp với phương pháp bootstrapping và kỹ thuật tổng hợp. Mặc dù phương pháp bootstrapping là một quy trình lấy mẫu lại được sử dụng để mua các mẫu bằng kỹ thuật thay thế, nhưng kỹ thuật tổng hợp kết hợp các kết quả dự đoán thu được từ nhiều thuật toán học máy. Thay vì dựa vào một mô hình ML, kỹ thuật tổng hợp bootstrap tổng hợp này tập trung vào việc thu thập các dự đoán từ một số mô hình dẫn đến dự đoán chính xác và đáng tin cậy hơn. Phương pháp bootstrapping được áp dụng trong kỹ thuật này và đã dẫn đến kết quả hiệu quả hơn trong các mô hình Machine Learning. Khoảng tin cậy (CI) là một loại thống kê phản ánh xác suất của một khoảng được tính có chứa một giá trị thực. Sử dụng phương pháp bootstrapping, các mẫu được thay thế bằng các điểm dữ liệu hiện có trong một tập dữ liệu chung dẫn đến kết quả chính xác và hiệu quả hơn liên quan đến CI. Trong khi ước tính các mẫu, khoảng tin cậy cho chúng ta biết giá trị mẫu ước tính đúng như thế nào đối với các mẫu khác được thu thập. Cuối cùng, phương pháp bootstrapping được biết đến để kiểm tra độ chính xác của số liệu thống kê như khoảng tin cậy giúp người ta xác minh tính chính xác của thống kê mẫu hoàn toàn Ưu và nhược điểm của phương pháp BootstrappingƯu điểm của phương pháp bootstrapping như sau; Phương pháp bootstrapping là một cách đơn giản hơn về mặt chức năng để ước tính giá trị của số liệu thống kê quá phức tạp để tính toán bằng các phương pháp truyền thống. Một cách đơn giản, phương pháp này cho phép kiểm tra dễ dàng hơn và các bước đơn giản hơn để xử lý độ chính xác của mô hình mà không gặp nhiều rắc rối. Phương pháp bootstrapping, một trong những phương pháp lấy mẫu lại nổi tiếng nhất, không yêu cầu bất kỳ giả định trước nào để khái niệm của nó hoạt động. Không giống như các phương pháp truyền thống dựa trên khái niệm lý thuyết để tạo ra kết quả, phương pháp bootstrapping chỉ đơn giản là quan sát kết quả và xử lý chúng, tạo ra kết quả chính xác. Phương pháp này không thất bại ngay cả khi lý thuyết không hỗ trợ các quan sát thực tế, và do đó, rất thuận lợi trong khía cạnh này. (Đọc thêm. Các loại kỹ thuật lấy mẫu) Liệt kê dưới đây một số nhược điểm của phương pháp bootstrapping;
Sử dụng kỹ thuật thay thế, phương pháp bootstrapping lấy mẫu lại các điểm dữ liệu để kiểm tra chính xác hiệu suất của mô hình. Trong trường hợp này, phương pháp này yêu cầu sức mạnh tính toán quá mức vì nó được hỗ trợ bởi kỹ thuật thay thế. Một trong những nhược điểm của phương pháp bootstrapping, sức mạnh tính toán quá mức có thể làm giảm lợi ích của nó.
Vì phương pháp bootstrapping được khuyến nghị hoạt động hiệu quả trong trường hợp cỡ mẫu nhỏ, nên một trong những nhược điểm của phương pháp này là nó có xu hướng đánh giá thấp tính biến thiên của phân phối. Trong trường hợp các giá trị cực hiếm, phương pháp này có xu hướng phù hợp với các giá trị gần hơn, tránh sự tham gia của các giá trị gần cuối. (Blog gợi ý. Phân phối lấy mẫu là gì?) Đến cuối cùngCuối cùng, phương pháp bootstrapping là một phương pháp cực kỳ sâu sắc để kiểm tra độ chính xác của một mô hình khi chưa biết phân phối lý thuyết của các mẫu của nó. Bằng cách tách riêng tập dữ liệu thành các mẫu bootstrap và mẫu bên ngoài, phương pháp này bao gồm một cách tiếp cận đơn giản hơn để tính toán nhiều số liệu thống kê như khoảng tin cậy, lỗi tiêu chuẩn và thậm chí xác định các nhược điểm tiềm ẩn của mô hình ML. Mặc dù phương pháp này có thể đánh giá thấp tính biến thiên của dữ liệu và đòi hỏi sức mạnh tính toán quá mức, nhưng nó được biết là tạo ra kết quả chính xác và tốt hơn với sự trợ giúp của kỹ thuật thay thế. Bootstrapping là gì và nó hoạt động như thế nào?Khởi động là một thuật ngữ được sử dụng trong kinh doanh để chỉ quá trình chỉ sử dụng các nguồn lực hiện có, chẳng hạn như tiền tiết kiệm cá nhân, thiết bị máy tính cá nhân và không gian nhà để xe, để bắt đầu và phát triển một doanh nghiệp. . .
Tại sao bootstrapping thực sự hoạt động?“Ưu điểm của bootstrapping là đó là một cách đơn giản để lấy các ước tính về sai số chuẩn và khoảng tin cậy , đồng thời thuận tiện .
Khi nào nên sử dụng bootstrapping?Tôi thấy bootstrapping rất hữu ích trong hai trường hợp chính. khi mẫu khá nhỏ (nhưng không nhỏ) và khi phân phối không sạch (giả sử đó là hỗn hợp của hai phân phối).
Vấn đề với bootstrapping là gì?Bootstrapping là một hình thức lập luận đáng ngờ xác minh độ tin cậy của nguồn bằng cách kiểm tra nguồn đó với chính nó . Các lý thuyết ủng hộ lý luận như vậy phải đối mặt với vấn đề bootstrapping. |