Bootstrap lấy mẫu khung dữ liệu Python
Về cơ bản đây là chức năng mà bạn cần Show
Trả về một mẫu vật phẩm ngẫu nhiên từ một trục của đối tượng Nó thậm chí còn chứa tham số này
Cho phép hoặc không cho phép lấy mẫu cùng một hàng nhiều lần Bootstrapping là một phương pháp có thể được sử dụng để xây dựng khoảng tin cậy cho một thống kê khi kích thước mẫu nhỏ và phân phối cơ bản không xác địnhQuá trình cơ bản để bootstrapping như sau
Cách dễ nhất để thực hiện bootstrapping trong Python là sử dụng hàm bootstrap từ thư viện SciPy Ví dụ sau đây cho thấy cách sử dụng chức năng này trong thực tế Thí dụ. Thực hiện Bootstrapping trong PythonGiả sử chúng ta tạo một tập dữ liệu bằng Python chứa 15 giá trị #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23] Chúng ta có thể sử dụng đoạn mã sau để tính khoảng tin cậy 95% bootstrapped cho giá trị trung bình from scipy.stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.median, confidence_level=0.95,
random_state=1, method='percentile')
#view 95% boostrapped confidence interval
print(bootstrap_ci.confidence_interval)
ConfidenceInterval(low=10.0, high=20.0)
Khoảng tin cậy 95% bootstrapped cho trung vị hóa ra là [10. 0, 20. 0] Đây là chức năng bootstrap() thực sự đã làm dưới mui xe
Lưu ý rằng bạn có thể tính toán khoảng tin cậy bootstrapped cho hầu hết mọi thống kê Ví dụ: chúng ta có thể thay đổi np. trung vị đến np. std trong hàm bootstrap() để tính khoảng tin cậy 95% cho độ lệch chuẩn from scipy.stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.std, confidence_level=0.95,
random_state=1, method='percentile')
#view 95% boostrapped confidence interval
print(bootstrap_ci.confidence_interval)
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
Khoảng tin cậy 95% bootstrapped cho độ lệch chuẩn hóa ra là [3. 32, 5. 67] Ghi chú. Đối với những ví dụ này, chúng tôi đã chọn tạo khoảng tin cậy 95%, nhưng bạn có thể thay đổi giá trị trong đối số cấp độ tin cậy để tạo khoảng tin cậy có kích thước khác Lấy mẫu Bootstrap được sử dụng để lấy dữ liệu ngẫu nhiên từ một mẫu, cho phép sao chép, để tạo ra một quần thể hơi khác. Ví dụ, tôi lặp lại khoảng 1000 lần để lấy số liệu thống kê. Tôi đã nghĩ về việc phải làm gì với Pandas, vì vậy hãy ghi lại nó Hãy thử sử dụng một mẫu mống mắtLấy mẫu gấu trúc và hoa diên vĩ, sau đó nhập mô-đun số ngẫu nhiên được sử dụng để lấy mẫu ngẫu nhiên
Sau đó tải dữ liệu và đặt nó vào khung dữ liệu gấu trúc
Hãy xem dữ liệu với 6
Sau đó, xác định một chức năng lấy mẫu dữ liệu ngẫu nhiên. Đầu tiên, tạo một khung dữ liệu trống với 7 bằng cách sử dụng khung dữ liệu gốc 8, sau đó tạo một số ngẫu nhiên 9a_data_frame [đã chọn_num. đã chọn_num + 1]____60với 1. Lưu ý rằng có vẻ như bạn cần chọn một phạm vi ([0. 1]) để chọn một dòng (ví dụ: [0] cho numpy) trong khung dữ liệu của pandas 0Kiểm tra dữ liệu sau khi lấy mẫu ngẫu nhiên với 2 bằng cách thực hiện 3 3Xoay cái này 1000 lần hoặc trong một vòng lặp để có kết quả lựa chọn phù hợp hoặc biến [Xem bên dưới] Có một cách dễ dàng hơnNếu bạn đặt 4, có vẻ như bạn có thể làm tương tự với 5, đây là chức năng ban đầu của pandas. @nkay Cảm ơn bạn đã chỉ ra
Làm thế nào để bootstrap chọn kích thước mẫu?Nguyên tắc bootstrap nói rằng việc chọn một mẫu ngẫu nhiên có kích thước n từ tổng thể có thể được bắt chước bằng cách chọn một mẫu bootstrap có kích thước n từ mẫu ban đầu. Nguyên tắc bootstrap có đúng hay không không phụ thuộc vào bất kỳ mẫu riêng lẻ nào "có vẻ đại diện cho dân số"
Khoảng tin cậy bootstrap là gì?Khoảng thời gian bootstrap phân vị chỉ là khoảng giữa phân vị 100×(α2) và 100×(1-α2) của phân phối ước tính θ thu được từ việc lấy mẫu lại, where θ represents a parameter of interest and α is the level of significance (e.g., α = 0.05 for 95% CIs) (Efron, 1982).
Bootstrapping tham số là gì?Boottrap tham số
. (Ví dụ: dữ liệu có thể đến từ Poisson, nhị thức âm cho số đếm hoặc chuẩn cho phân phối liên tục. )assumes that the data comes from a known distribution with unknown parameters. (For example the data may come from a Poisson, negative binomial for counts, or normal for continuous distribution.) |