Mục đích của lấy mẫu bootstrap là gì?

Để xây dựng khoảng tin cậy, chúng tôi cần thông tin về phân phối lấy mẫu. Trong Bài học 4. 1 chúng tôi đã thấy cách chúng tôi có thể xây dựng phân phối lấy mẫu khi biết giá trị tổng thể. Nếu giá trị dân số không được biết đến thì sao? . Nếu chúng tôi có dữ liệu mẫu, thì chúng tôi có thể sử dụng các phương pháp bootstrap để xây dựng phân phối lấy mẫu bootstrap để xây dựng khoảng tin cậy

Bootstrapping là quy trình lấy mẫu lại sử dụng dữ liệu từ một mẫu để tạo phân phối lấy mẫu bằng cách lấy liên tục các mẫu ngẫu nhiên từ mẫu đã biết

BootstrappingMột quy trình lấy mẫu lại để xây dựng phân phối lấy mẫu bằng cách sử dụng dữ liệu từ một mẫu

Ví dụ. Phân phối Bootstrap cho Chiều cao trung bình Phần  

Chúng tôi có dữ liệu liên quan đến chiều cao của các cá nhân trong một mẫu ngẫu nhiên của \(n=15\). Để xây dựng phân phối bootstrap cho chiều cao trung bình, trước tiên chúng tôi sẽ chọn ngẫu nhiên một cá nhân từ mẫu đó và ghi lại chiều cao của họ. Sau đó, với cá nhân đó được đưa trở lại mẫu, chúng tôi sẽ chọn ngẫu nhiên một cá nhân thứ hai và ghi lại chiều cao của họ. Điều này được gọi là "lấy mẫu có thay thế" vì chúng tôi đang đưa từng trường hợp trở lại mẫu sau khi ghi lại chiều cao của chúng. Chúng tôi sẽ lặp lại quy trình này cho đến khi chúng tôi chọn được 15 giá trị. Vì chúng tôi đang lấy mẫu có thay thế nên một số cá nhân có thể xuất hiện nhiều lần trong mẫu bootstrap. Chúng tôi sẽ sử dụng 15 giá trị đã chọn đó để tính toán giá trị trung bình mẫu được khởi động. Quá trình này được lặp đi lặp lại nhiều lần. Phân phối của nhiều phương tiện mẫu bootstrap được gọi là phân phối bootstrap hoặc phân phối lấy mẫu bootstrap.  

Các trang sau bao gồm các ví dụ video bổ sung sử dụng StatKey để minh họa việc xây dựng các bản phân phối lấy mẫu bootstrap

Ước tính điểm rất hữu ích để ước tính các tham số chưa biết nhưng để suy luận về một tham số chưa biết, chúng ta cần ước tính khoảng. Khoảng tin cậy dựa trên thông tin từ phân phối lấy mẫu, bao gồm sai số chuẩn

Điều gì xảy ra nếu bản phân phối cơ bản không được biết?

Nếu chúng tôi có dữ liệu mẫu, thì chúng tôi có thể sử dụng các phương pháp bootstrap để xây dựng phân phối lấy mẫu bootstrap để xây dựng khoảng tin cậy

Bootstrapping là một chủ đề đã được nghiên cứu rộng rãi cho nhiều tham số dân số khác nhau và nhiều tình huống khác nhau. Có bootstrap tham số, bootstrap không tham số, bootstrap có trọng số, v.v. Chúng tôi chỉ giới thiệu những điều cơ bản của phương pháp bootstrap. Để giới thiệu tất cả các chủ đề sẽ là cả một lớp học

BootstrappingBootstrapping là một quy trình lấy mẫu lại sử dụng dữ liệu từ một mẫu để tạo phân phối lấy mẫu bằng cách lấy liên tục các mẫu ngẫu nhiên từ mẫu đã biết, có thay thế

Hãy chỉ ra cách tạo một mẫu bootstrap cho trung vị. Gọi trung vị mẫu là \(M\)

Các bước để tạo một mẫu bootstrap

  1. Thay quần thể bằng mẫu
  2. Mẫu với lần thay thế \(B\). \(B\) phải lớn, giả sử 1000
  3. Tính trung bình mẫu mỗi lần, \(M_i\)
  4. Có được phân phối gần đúng của trung bình mẫu

Nếu chúng ta có phân phối gần đúng, chúng ta có thể ước tính sai số chuẩn của trung vị mẫu bằng cách tìm độ lệch chuẩn của \(M_1,. ,M_B\)

Lấy mẫu với sự thay thế là quan trọng. Nếu chúng tôi không lấy mẫu thay thế, chúng tôi sẽ luôn nhận được trung vị mẫu giống như giá trị quan sát được. Mẫu chúng tôi lấy từ lấy mẫu từ dữ liệu có thay thế được gọi là mẫu bootstrap

Khi chúng tôi tìm thấy mẫu bootstrap, chúng tôi có thể tạo khoảng tin cậy. Ví dụ: đối với khoảng tin cậy 90%, chúng tôi sẽ tìm phần trăm thứ 5 và phần trăm thứ 95 của mẫu bootstrap

Bạn có thể tạo một mẫu bootstrap để tìm phân phối lấy mẫu gần đúng của bất kỳ thống kê nào, không chỉ trung bình. Các bước sẽ giống nhau ngoại trừ bạn sẽ tính toán thống kê thích hợp thay vì trung bình

[Gist embed code (this it for embedding directly into the website if that’s preferred: ]def bootstrapped_conf_interval(data, metric, num_runs=1000, conf=.95):

""" mục đích. Tính khoảng tin cậy cho hiệu suất mô hình (số liệu)

Thông số

—————-

dữ liệu. danh sách các điểm dữ liệu ở định dạng được get_metric chấp nhận

Hệ mét. các tùy chọn bao gồm 'độ chính xác', 'độ chính xác', 'thu hồi' và 'điểm f1'

conf. mức độ chắc chắn mà bạn muốn về phạm vi giá trị có thể có của số liệu đo lường của bạn

num_run. int chỉ định số lượng mẫu dữ liệu được khởi động mà bạn muốn

trả lại

———-

Bộ tin cậy với số float dưới dạng các mục cũ. (. 2,. 3)

“””

kết quả = []

# lấy num _runs các mẫu khởi động của dữ liệu chưa được gắn nhãn và được gắn nhãn

cho tôi trong phạm vi (num_runs)

bootstrapped_data = np. ngẫu nhiên. lựa chọn (dữ liệu, len (dữ liệu))

kết quả. nối thêm (get_metric (bootstrapped_data, số liệu))

kết quả. loại()

bootstrapped_mean = tổng (kết quả) / float (len (kết quả))

x_bar = get_metric(dữ liệu, số liệu)

# bạn muốn cắt bỏ bao nhiêu chỉ số đo được ở một trong hai đầu

left_index = int(num_runs * (1 – conf) / 2)

# sai lệch so với phương tiện bootstrapped

delta_interval = [kết quả[left_index] – bootstrapped_mean,

kết quả[-left_index] – bootstrapped_mean]

# độ lệch so với giá trị trung bình so với mẫu thực tế, không phải mẫu khởi động

khoảng thời gian = [delta_interval[0] + x_bar, delta_interval[1] + x_bar]

khoảng thời gian trở lại

Tại sao bootstrapping lại cần thiết?

Đối với hầu hết các công ty khởi nghiệp, bootstrapping là giai đoạn đầu tiên thiết yếu vì nó. Thể hiện cam kết và quyết tâm của doanh nhân . Giữ cho công ty tập trung. Cho phép khái niệm kinh doanh trưởng thành hơn thành một sản phẩm hoặc dịch vụ.

Mục đích của khoảng tin cậy bootstrap là gì?

tạo nhiều mẫu lại (có thay thế) từ một tập hợp các quan sát và tính toán mức độ ảnh hưởng quan tâm trên mỗi mẫu lại này . Sau đó, các mẫu khởi động lại của kích thước hiệu ứng có thể được sử dụng để xác định 95% CI.