Bootstrapping dữ liệu sai lệch

Bootstrapping là bất kỳ bài kiểm tra hoặc số liệu nào sử dụng (e. g. bắt chước quá trình lấy mẫu) và thuộc nhóm phương pháp lấy mẫu lại rộng hơn. Bootstrapping chỉ định các biện pháp đo lường độ chính xác (độ lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v. ) để ước tính mẫu. Kỹ thuật này cho phép ước tính phân phối lấy mẫu của hầu hết mọi thống kê bằng phương pháp lấy mẫu ngẫu nhiên

Bootstrapping ước tính các thuộc tính của một ước tính (chẳng hạn như phương sai của nó) bằng cách đo các thuộc tính đó khi lấy mẫu từ một phân phối gần đúng. Một lựa chọn tiêu chuẩn cho phân phối gần đúng là hàm phân phối theo kinh nghiệm của dữ liệu được quan sát. Trong trường hợp một tập hợp các quan sát có thể được giả định là từ một tổng thể độc lập và được phân phối giống hệt nhau, điều này có thể được thực hiện bằng cách xây dựng một số mẫu lại có thay thế, của tập dữ liệu được quan sát (và có kích thước bằng với tập dữ liệu được quan sát)

Nó cũng có thể được sử dụng để xây dựng các bài kiểm tra giả thuyết. Nó thường được sử dụng như một giải pháp thay thế cho suy luận thống kê dựa trên giả định của mô hình tham số khi giả định đó bị nghi ngờ hoặc khi suy luận tham số là không thể hoặc yêu cầu các công thức phức tạp để tính sai số chuẩn

Lịch sử[sửa]

Bootstrap được xuất bản bởi Bradley Efron trong "Bootstrap methods. một cái nhìn khác về dao xếp" (1979), lấy cảm hứng từ tác phẩm trước đó về dao xếp. Các ước tính được cải thiện về phương sai đã được phát triển sau đó. Một phần mở rộng Bayes được phát triển vào năm 1981. Bootstrap được điều chỉnh sai lệch và tăng tốc (BCa) được phát triển bởi Efron vào năm 1987 và quy trình ABC vào năm 1992

Cách tiếp cận[sửa]

Ý tưởng cơ bản của bootstrapping là suy luận về dân số từ dữ liệu mẫu (mẫu → dân số) có thể được lập mô hình bằng cách lấy mẫu lại dữ liệu mẫu và thực hiện suy luận về một mẫu từ dữ liệu đã lấy mẫu lại (lấy mẫu lại → mẫu). Vì dân số không xác định, sai số thực sự trong thống kê mẫu so với giá trị dân số của nó là không xác định. Trong các mẫu khởi động lại, 'dân số' trên thực tế là mẫu và điều này được biết đến;

Chính thức hơn, bootstrap hoạt động bằng cách coi suy luận của phân phối xác suất thực J, với dữ liệu gốc, tương tự với suy luận của phân phối thực nghiệm Ĵ, với dữ liệu được lấy mẫu lại. Độ chính xác của các suy luận liên quan đến Ĵ sử dụng dữ liệu được lấy mẫu lại có thể được đánh giá vì chúng tôi biết Ĵ. Nếu Ĵ là một xấp xỉ hợp lý của J, thì chất lượng suy luận trên J có thể được suy ra

Ví dụ: giả sử chúng ta quan tâm đến chiều cao trung bình (hoặc trung bình) của mọi người trên toàn thế giới. Chúng tôi không thể đo lường tất cả mọi người trong dân số toàn cầu, vì vậy, thay vào đó, chúng tôi chỉ lấy mẫu một phần nhỏ của nó và đo lường phần đó. Giả sử mẫu có kích thước N; . Từ mẫu đơn đó, chỉ có thể thu được một ước tính về giá trị trung bình. Để lập luận về dân số, chúng ta cần một số ý nghĩa về sự thay đổi của giá trị trung bình mà chúng ta đã tính toán. Phương pháp bootstrap đơn giản nhất liên quan đến việc lấy tập dữ liệu ban đầu về độ cao và sử dụng máy tính, lấy mẫu từ dữ liệu đó để tạo thành một mẫu mới (được gọi là 'mẫu lại' hoặc mẫu bootstrap) cũng có kích thước N. Mẫu bootstrap được lấy từ bản gốc bằng cách sử dụng lấy mẫu có thay thế (e. g. chúng tôi có thể 'lấy mẫu lại' 5 lần từ [1,2,3,4,5] và nhận được [2,5,4,4,1]), vì vậy, giả sử N đủ lớn, đối với tất cả các mục đích thực tế, hầu như không có . Quá trình này được lặp lại nhiều lần (thường là 1.000 hoặc 10.000 lần) và đối với mỗi mẫu bootstrap này, chúng tôi tính toán giá trị trung bình của nó (mỗi mẫu được gọi là "ước tính bootstrap"). Bây giờ chúng ta có thể tạo biểu đồ phương tiện bootstrap. Biểu đồ này cung cấp ước tính về hình dạng phân phối của giá trị trung bình mẫu mà từ đó chúng ta có thể trả lời các câu hỏi về mức độ thay đổi của giá trị trung bình giữa các mẫu. (Phương pháp ở đây, được mô tả cho giá trị trung bình, có thể được áp dụng cho hầu hết mọi thống kê hoặc công cụ ước tính khác. )

Thảo luận[sửa]

Ưu điểm[sửa]

Một lợi thế lớn của bootstrap là sự đơn giản của nó. Đó là một cách đơn giản để rút ra các ước tính về sai số chuẩn và khoảng tin cậy cho các công cụ ước tính phân phối phức tạp, chẳng hạn như điểm phần trăm, tỷ lệ, tỷ lệ chênh lệch và hệ số tương quan. Tuy nhiên, mặc dù đơn giản, bootstrapping có thể được áp dụng cho các thiết kế lấy mẫu phức tạp (e. g. đối với dân số được chia thành s tầng với ns quan sát trên mỗi tầng, bootstrapping có thể được áp dụng cho từng tầng). Bootstrap cũng là một cách thích hợp để kiểm soát và kiểm tra tính ổn định của kết quả. Mặc dù đối với hầu hết các vấn đề, không thể biết khoảng tin cậy thực sự, bootstrap chính xác hơn một cách tiệm cận so với các khoảng tiêu chuẩn thu được bằng cách sử dụng phương sai mẫu và các giả định về tính quy tắc. Bootstrapping cũng là một phương pháp thuận tiện giúp tránh chi phí lặp lại thử nghiệm để lấy các nhóm dữ liệu mẫu khác

Nhược điểm[sửa]

Bootstrapping phụ thuộc rất nhiều vào công cụ ước tính được sử dụng và mặc dù việc sử dụng bootstrapping đơn giản, thiếu hiểu biết sẽ không phải lúc nào cũng mang lại kết quả có giá trị tiệm cận và có thể dẫn đến sự không nhất quán. Mặc dù bootstrapping (trong một số điều kiện) nhất quán tiệm cận, nhưng nó không cung cấp sự đảm bảo chung về mẫu hữu hạn. Kết quả có thể phụ thuộc vào mẫu đại diện. Sự đơn giản rõ ràng có thể che giấu thực tế là các giả định quan trọng đang được thực hiện khi thực hiện phân tích bootstrap (e. g. tính độc lập của các mẫu hoặc cỡ mẫu đủ lớn) trong đó những điều này sẽ được nêu chính thức hơn trong các phương pháp tiếp cận khác. Ngoài ra, quá trình khởi động có thể tốn nhiều thời gian và không có nhiều phần mềm khả dụng để khởi động vì khó tự động hóa bằng các gói máy tính thống kê truyền thống

Khuyến nghị[sửa]

Các học giả đã đề xuất nhiều mẫu bootstrap hơn khi sức mạnh tính toán khả dụng đã tăng lên. Nếu kết quả có thể có hậu quả đáng kể trong thế giới thực, thì người ta nên sử dụng càng nhiều mẫu càng tốt, với khả năng và thời gian tính toán sẵn có. Tăng số lượng mẫu không thể tăng lượng thông tin trong dữ liệu gốc; . Hơn nữa, có bằng chứng cho thấy số lượng mẫu lớn hơn 100 dẫn đến những cải thiện không đáng kể trong ước tính sai số chuẩn. Trên thực tế, theo nhà phát triển ban đầu của phương pháp bootstrapping, ngay cả việc đặt số lượng mẫu ở mức 50 cũng có khả năng dẫn đến ước tính sai số chuẩn khá tốt

Adèr và cộng sự. đề xuất quy trình bootstrap cho các tình huống sau

  • Khi phân phối lý thuyết của một thống kê quan tâm là phức tạp hoặc chưa biết. Vì thủ tục bootstrapping không phụ thuộc vào phân phối nên nó cung cấp một phương pháp gián tiếp để đánh giá các thuộc tính của phân phối bên dưới mẫu và các tham số quan tâm có được từ phân phối này
  • Khi kích thước mẫu không đủ để suy luận thống kê đơn giản. Nếu phân phối cơ bản là nổi tiếng, bootstrapping cung cấp một cách để giải thích cho các biến dạng gây ra bởi mẫu cụ thể có thể không đại diện đầy đủ cho dân số
  • Khi tính toán công suất phải được thực hiện và có sẵn một mẫu thí điểm nhỏ. Hầu hết các phép tính công suất và cỡ mẫu đều phụ thuộc rất nhiều vào độ lệch chuẩn của thống kê quan tâm. Nếu ước tính được sử dụng không chính xác, cỡ mẫu yêu cầu cũng sẽ sai. Một phương pháp để có ấn tượng về sự thay đổi của thống kê là sử dụng một mẫu thí điểm nhỏ và thực hiện bootstrapping trên đó để có ấn tượng về phương sai.

Tuy nhiên, Athreya đã chỉ ra rằng nếu một người thực hiện một bootstrap ngây thơ trên trung bình mẫu khi dân số cơ bản thiếu phương sai hữu hạn (ví dụ: phân phối luật lũy thừa), thì phân phối bootstrap sẽ không hội tụ đến cùng giới hạn như trung bình mẫu. Do đó, khoảng tin cậy trên cơ sở mô phỏng Monte Carlo của bootstrap có thể gây hiểu lầm. Athreya tuyên bố rằng "Trừ khi một người chắc chắn một cách hợp lý rằng bản phân phối cơ bản không có đuôi nặng, nếu không người ta nên ngần ngại sử dụng bootstrap ngây thơ"

Các loại sơ đồ bootstrap[sửa | sửa mã nguồn]

Trong các vấn đề đơn biến, thường có thể chấp nhận lấy mẫu lại các quan sát riêng lẻ bằng thay thế ("lấy mẫu lại trường hợp" bên dưới) không giống như , trong đó lấy mẫu lại không có sự thay thế và có giá trị trong các điều kiện yếu hơn nhiều so với bootstrap. Trong các mẫu nhỏ, cách tiếp cận bootstrap tham số có thể được ưu tiên hơn. Đối với các vấn đề khác, một bootstrap trơn tru có thể sẽ được ưu tiên hơn

Đối với các vấn đề hồi quy, có nhiều lựa chọn thay thế khác

Lấy mẫu lại trường hợp [ chỉnh sửa ]

Bootstrap thường hữu ích để ước tính phân phối của một thống kê (e. g. trung bình, phương sai) mà không sử dụng các giả định về tính quy tắc (theo yêu cầu, e. g. , đối với thống kê z hoặc thống kê t). Đặc biệt, bootstrap rất hữu ích khi không có dạng giải tích hoặc lý thuyết tiệm cận (e. g. , một định lý giới hạn trung tâm có thể áp dụng) để giúp ước tính phân phối của các số liệu thống kê quan tâm. Điều này là do các phương thức bootstrap có thể áp dụng cho hầu hết các đại lượng ngẫu nhiên, chẳng hạn như. g. , tỷ lệ phương sai và trung bình. Có ít nhất hai cách để thực hiện lấy mẫu lại trường hợp

  1. Thuật toán Monte Carlo để lấy mẫu lại trường hợp khá đơn giản. Đầu tiên, chúng tôi lấy mẫu lại dữ liệu bằng cách thay thế và kích thước của mẫu lấy lại phải bằng kích thước của tập dữ liệu gốc. Sau đó, thống kê quan tâm được tính từ mẫu lại từ bước đầu tiên. Chúng tôi lặp lại quy trình này nhiều lần để có ước tính chính xác hơn về phân phối Bootstrap của thống kê
  2. Phiên bản 'chính xác' để lấy mẫu lại trường hợp cũng tương tự, nhưng chúng tôi liệt kê đầy đủ mọi mẫu lại có thể có của tập dữ liệu. Điều này có thể tốn kém về mặt tính toán vì có tổng cộng (2n−1n)=(2n−1). n. (n−1). {\displaystyle {\binom {2n-1}{n}}={\frac {(2n-1). }{N. (n-1). }}} các mẫu lại khác nhau, trong đó n là kích thước của tập dữ liệu. Do đó, với n = 5, 10, 20, 30 có 126, 92378, 6. 89 × 1010 và 5. 91 × 1016 mẫu khác nhau tương ứng.

Ước tính phân phối của giá trị trung bình mẫu[sửa | sửa mã nguồn]

Xem xét một thí nghiệm tung đồng xu. Chúng tôi tung đồng xu và ghi lại xem nó có mặt ngửa hay mặt sấp. Đặt X = x1, x2, …, x10 là 10 quan sát từ thí nghiệm. xi = 1 nếu lần lật thứ i lật ngửa và 0 nếu ngược lại. Bằng cách viện dẫn giả định rằng trung bình của các lần tung đồng xu được phân phối chuẩn, chúng ta có thể sử dụng thống kê t để ước tính phân phối của trung bình mẫu,

x¯=110(x1+x2+⋯+x10). {\displaystyle {\bar {x}}={\frac {1}{10}}(x_{1}+x_{2}+\cdots +x_{10}). }

Một giả định về tính quy tắc như vậy có thể được chứng minh là xấp xỉ phân phối của từng lần tung đồng xu riêng lẻ hoặc là xấp xỉ phân phối trung bình của một số lượng lớn các lần tung đồng xu. Cái trước là một phép tính gần đúng kém vì phân phối thực sự của các lần tung đồng xu là Bernoulli thay vì bình thường. Cái sau là một xấp xỉ hợp lệ trong các mẫu lớn vô hạn do định lý giới hạn trung tâm

Tuy nhiên, nếu chúng ta chưa sẵn sàng để biện minh như vậy, thì chúng ta có thể sử dụng bootstrap để thay thế. Bằng cách sử dụng lấy mẫu lại trường hợp, chúng ta có thể lấy được phân phối của x¯{\displaystyle {\bar {x}}}. Trước tiên, chúng tôi lấy mẫu lại dữ liệu để lấy mẫu lại bootstrap. Một ví dụ về mẫu lại đầu tiên có thể giống như thế này X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Có một số bản sao do mẫu khởi động lại đến từ việc lấy mẫu với sự thay thế từ dữ liệu. Ngoài ra, số lượng điểm dữ liệu trong mẫu khởi động lại bằng với số lượng điểm dữ liệu trong các quan sát ban đầu của chúng tôi. Sau đó, chúng tôi tính giá trị trung bình của mẫu lại này và thu được giá trị trung bình bootstrap đầu tiên. μ1*. Chúng tôi lặp lại quy trình này để lấy mẫu lại thứ hai X2* và tính toán giá trị trung bình bootstrap thứ hai μ2*. Nếu chúng ta lặp lại điều này 100 lần, thì chúng ta có μ1*, μ2*,. , μ100*. Điều này thể hiện sự phân phối bootstrap theo kinh nghiệm của giá trị trung bình mẫu. Từ phân phối thực nghiệm này, người ta có thể rút ra khoảng tin cậy bootstrap cho mục đích kiểm tra giả thuyết.

Hồi quy[sửa]

Trong các vấn đề hồi quy, lấy mẫu lại trường hợp đề cập đến sơ đồ đơn giản lấy mẫu lại các trường hợp riêng lẻ - thường là các hàng của tập dữ liệu. Đối với các bài toán hồi quy, miễn là tập dữ liệu khá lớn, sơ đồ đơn giản này thường được chấp nhận. Tuy nhiên, phương pháp này bị chỉ trích[cần dẫn nguồn]

Trong các bài toán hồi quy, các biến giải thích thường cố định, hoặc ít nhất được quan sát với nhiều kiểm soát hơn biến phản hồi. Ngoài ra, phạm vi của các biến giải thích xác định thông tin có sẵn từ chúng. Do đó, để lấy mẫu lại các trường hợp có nghĩa là mỗi mẫu bootstrap sẽ mất một số thông tin. Như vậy, các thủ tục bootstrap thay thế nên được xem xét

Bayesian bootstrap[sửa | sửa mã nguồn]

Bootstrapping có thể được diễn giải trong khung Bayesian bằng cách sử dụng sơ đồ tạo tập dữ liệu mới thông qua việc cân nhắc lại dữ liệu ban đầu. Cho một tập hợp gồm N{\displaystyle N} điểm dữ liệu, trọng số được chỉ định cho điểm dữ liệu i{\displaystyle i} trong tập dữ liệu mới DJ{ . Phân phối của một tham số được suy ra từ việc xem xét nhiều bộ dữ liệu như vậy DJ{\displaystyle {\mathcal {D}}^{J}} is wiJ=xiJ−xi−1J{\displaystyle w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}}, where xJ{\displaystyle \mathbf {x} ^{J}} is a low-to-high ordered list of N−1{\displaystyle N-1} uniformly distributed random numbers on [0,1]{\displaystyle [0,1]}, preceded by 0 and succeeded by 1. The distributions of a parameter inferred from considering many such data sets DJ{\displaystyle {\mathcal {D}}^{J}} sau đó có thể hiểu là phân phối sau trên tham số đó.

Bootstrap mượt mà[sửa]

Theo lược đồ này, một lượng nhỏ nhiễu ngẫu nhiên không định tâm (thường được phân phối bình thường) được thêm vào mỗi quan sát được lấy mẫu lại. Điều này tương đương với việc lấy mẫu từ ước tính mật độ hạt nhân của dữ liệu. Giả sử K là hàm mật độ hạt nhân đối xứng với phương sai đơn vị. Công cụ ước tính hạt nhân tiêu chuẩn f^h(x){\displaystyle {\hat {f\,}}_{h}(x)} của f(x){\displaystyle f(x is

f^h(x)=1nh∑i=1nK(x−Xih),{\displaystyle {\hat {f\,}}_{h}(x)={1 \over nh}\  

trong đó h{\displaystyle h} là tham số làm mịn. Và công cụ ước tính hàm phân phối tương ứng F^h(x){\displaystyle {\hat {F\,}}_{h}(x)} là

F^h(x)=∫−∞xf^h(t)dt. {\displaystyle {\hat {F\,}}_{h}(x)=\int _{-\infty }^{x}{\hat {f}}_{h}(t)\,dt. } 

Bootstrap tham số [ chỉnh sửa ]

Dựa trên giả định rằng tập dữ liệu gốc là hiện thực của một mẫu ngẫu nhiên từ phân phối của một loại tham số cụ thể, trong trường hợp này, một mô hình tham số được khớp với tham số θ, thường là theo khả năng tối đa và các mẫu của . Thông thường mẫu được rút ra có cùng cỡ mẫu với dữ liệu ban đầu. Khi đó ước lượng của hàm gốc F có thể được viết là F^=Fθ^{\displaystyle {\hat {F}}=F_{\hat {\theta }}}. Quá trình lấy mẫu này được lặp lại nhiều lần như đối với các phương pháp bootstrap khác. Xem xét giá trị trung bình của mẫu trung tâm trong trường hợp này, hàm phân phối ban đầu của mẫu ngẫu nhiên Fθ{\displaystyle F_{\theta }} được thay thế bằng mẫu ngẫu nhiên bootstrap có hàm Fθ^{\displaystyle F_{ . Việc sử dụng mô hình tham số ở giai đoạn lấy mẫu của phương pháp bootstrap dẫn đến các thủ tục khác với các thủ tục thu được bằng cách áp dụng lý thuyết thống kê cơ bản để suy luận cho cùng một mô hình. , and the probability distribution of Xn¯−μθ{\displaystyle {\bar {X_{n}}}-\mu _{\theta }} is approximated by that of X¯n∗−μ∗{\displaystyle {\bar {X}}_{n}^{*}-\mu ^{*}}, where μ∗=μθ^{\displaystyle \mu ^{*}=\mu _{\hat {\theta }}}, which is the expectation corresponding to Fθ^{\displaystyle F_{\hat {\theta }}}. The use of a parametric model at the sampling stage of the bootstrap methodology leads to procedures which are different from those obtained by applying basic statistical theory to inference for the same model.

Lấy mẫu lại phần dư[sửa]

Một cách tiếp cận khác để khởi động trong các bài toán hồi quy là lấy mẫu lại phần dư. Phương pháp tiến hành như sau

  1. Điều chỉnh mô hình và giữ lại các giá trị đã khớp y^i{\displaystyle {\widehat {y\,}}_{i}} và phần dư ε^i=yi . .
  2. Đối với mỗi cặp, (xi, yi), trong đó xi là biến giải thích (có thể là đa biến), hãy thêm một phần dư được lấy mẫu lại ngẫu nhiên, ε^j{\displaystyle {\widehat {\varepsilon \,}}_ . Nói cách khác, hãy tạo các biến phản hồi tổng hợp yi∗=y^i+ε^j{\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon . , n) với mọi i. , to the fitted value y^i{\displaystyle {\widehat {y\,}}_{i}}. In other words, create synthetic response variables yi∗=y^i+ε^j{\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}} where j is selected randomly from the list (1, ..., n) for every i.
  3. Điều chỉnh lại mô hình bằng cách sử dụng các biến phản hồi hư cấu yi∗{\displaystyle y_{i}^{*}} và giữ lại số lượng quan tâm (thường là các tham số, μ^ . , estimated from the synthetic yi∗{\displaystyle y_{i}^{*}}).
  4. Lặp lại bước 2 và 3 nhiều lần

Lược đồ này có ưu điểm là nó giữ lại thông tin trong các biến giải thích. Tuy nhiên, một câu hỏi đặt ra là phần dư nào để lấy mẫu lại. Phần dư thô là một lựa chọn; . Mặc dù có những lập luận ủng hộ việc sử dụng số dư sinh viên hóa;

Trình khởi động hồi quy quy trình Gaussian[sửa | sửa mã nguồn]

Khi dữ liệu tương quan theo thời gian, quá trình khởi động đơn giản sẽ phá hủy các mối tương quan vốn có. Phương pháp này sử dụng hồi quy quy trình Gaussian (GPR) để phù hợp với mô hình xác suất mà từ đó có thể rút ra các bản sao. GPR là một phương pháp hồi quy phi tuyến tính Bayesian. Một quy trình Gaussian (GP) là một tập hợp các biến ngẫu nhiên, bất kỳ số hữu hạn nào trong số đó có phân phối Gaussian (chuẩn) chung. GP được xác định bởi hàm trung bình và hàm hiệp phương sai, chỉ định các vectơ trung bình và ma trận hiệp phương sai cho mỗi tập hợp hữu hạn của các biến ngẫu nhiên

Mô hình hồi quy

y(x)=f(x)+ε,  ε∼N(0,σ2),{\displaystyle y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\ . ε{\displaystyle \varepsilon } is a noise term.

quá trình Gaussian trước

Với mọi tập hợp hữu hạn các biến, x1,. , xn, các đầu ra của hàm f(x1),…,f(xn){\displaystyle f(x_{1}),\ldots ,f(x_{n})} cùng nhau . {\displaystyle (K)_{ij}=k(x_{i},x_{j}). } and covariance matrix (K)ij=k(xi,xj).{\displaystyle (K)_{ij}=k(x_{i},x_{j}).}

Giả sử f(x)∼GP(m,k). {\displaystyle f(x)\sim {\mathcal {GP}}(m,k). } Khi đó y(x)∼GP(m,l){\displaystyle y(x)\sim {\mathcal {GP}}(m,l)},

where l(xi,xj)=k(xi,xj)+σ2δ(xi,xj){\displaystyle l(x_{i},x_{j})=k(x_{i},x_ . , and δ(xi,xj){\displaystyle \delta (x_{i},x_{j})} is the standard Kronecker delta function.

Quá trình Gaussian sau

Theo GP trước, chúng ta có thể nhận được

[y(x1),…,y(xr)]∼N(m0,K0){\displaystyle [y(x_{1}),\ldots ,y(x_{r})]\sim ,

where m0=[m(x1),…,m(xr)]⊺{\displaystyle m_{0}=[m(x_{1}),\ldots ,m(x_{r})] . {\displaystyle (K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}). } and (K0)ij=k(xi,xj)+σ2δ(xi,xj).{\displaystyle (K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).}

Đặt x1*,. ,xs* là một tập hợp hữu hạn khác của các biến, rõ ràng là

[y(x1),…,y(xr),f(x1∗),…,f(xs∗)]⊺∼N((m0m∗)(K0K∗K∗⊺K∗∗) ,

where m∗=[m(x1∗),…,m(xs∗)]⊺{\displaystyle m_{*}=[m(x_{1}^{*}),\ldots ,m . {\displaystyle (K_{*})_{ij}=k(x_{i},x_{j}^{*}). }, (K∗∗)ij=k(xi∗,xj∗){\displaystyle (K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})}, (K∗)ij=k(xi,xj∗).{\displaystyle (K_{*})_{ij}=k(x_{i},x_{j}^{*}).}

Theo các phương trình trên, các đầu ra y cũng được phân phối chung theo một Gaussian đa biến. Như vậy,

[f(x1∗),…,f(xs∗)]⊺∣([y(x)]⊺=y)∼N(mpost,Kpost),{\displaystyle [f(x_{1 . ,yr]⊺{\displaystyle y=[y_{1},. ,y_{r}]^{\intercal }}

where y=[y1,...,yr]⊺{\displaystyle y=[y_{1},...,y_{r}]^{\intercal }}, mpost=m∗+K∗⊺(KO+σ2Ir)−1(y−m0){\displaystyle m_{\text{ . , Kpost=K∗∗−K∗⊺(KO+σ2Ir)−1K∗{\displaystyle K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}}, and Ir{\displaystyle I_{r}} is r×r{\displaystyle r\times r} identity matrix.

Bootstrap hoang dã [ chỉnh sửa ]

Phương pháp bootstrap hoang dã, do Wu (1986) đề xuất ban đầu, phù hợp khi mô hình thể hiện phương sai thay đổi. Ý tưởng là, với tư cách là bootstrap phần dư, để các biến hồi quy ở giá trị mẫu của chúng, nhưng lấy mẫu lại biến phản hồi dựa trên các giá trị phần dư. Nghĩa là, đối với mỗi bản sao, người ta tính toán y{\displaystyle y} mới dựa trên

yi∗=y^i+ε^ivi{\displaystyle y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,} . Đối với hầu hết các bản phân phối của vi{\displaystyle v_{i}}

so the residuals are randomly multiplied by a random variable vi{\displaystyle v_{i}} with mean 0 and variance 1. For most distributions of vi{\displaystyle v_{i}} (nhưng không phải của Mammen), phương pháp này giả định rằng phân phối phần dư 'true' là đối xứng và có thể mang lại lợi thế so với lấy mẫu phần dư đơn giản đối với quy mô nhỏ hơn . Các dạng khác nhau được sử dụng cho biến ngẫu nhiên vi{\displaystyle v_{i}}, chẳng hạn như

  • Một phân phối được đề xuất bởi Mammen (1993)
vi={−(5−1)/2với xác suất (5+1)/(25),(5+1)/2với xác suất (5−1)/(25){\displaystyle v_{i . vi={−0. 6180(với số 0 ở vị trí hàng đơn vị) với xác suất 0. 7236,+1. 6180(với 1 ở vị trí của hàng đơn vị) với xác suất 0. 2764. {\displaystyle v_{i}={\begin{cases}-0. 6180\quad {\text{(có 0 ở hàng đơn vị)}}&{\text{có xác suất }}0. 7236,\\+1. 6180\quad {\text{(với 1 ở hàng đơn vị)}}&{\text{với xác suất }}0. 2764. \end{cases}}}Approximately, Mammen's distribution is:vi={−0.6180(with a 0 in the units' place)with probability 0.7236,+1.6180(with a 1 in the units' place)with probability 0.2764.{\displaystyle v_{i}={\begin{cases}-0.6180\quad {\text{(with a 0 in the units' place)}}&{\text{with probability }}0.7236,\\+1.6180\quad {\text{(with a 1 in the units' place)}}&{\text{with probability }}0.2764.\end{cases}}}in={−1 với xác suất 1/2,+1 với xác suất 1/2. {\displaystyle v_{i}={\begin{cases}-1&{\text{với xác suất }}1/2,\\+1&{\text{với xác suất }}1/2. \end{cases}}}

Chặn bootstrap[sửa]

Block bootstrap được sử dụng khi dữ liệu hoặc lỗi trong mô hình có mối tương quan với nhau. Trong trường hợp này, một trường hợp đơn giản hoặc lấy mẫu lại phần dư sẽ không thành công, vì nó không thể sao chép mối tương quan trong dữ liệu. Bootstrap khối cố gắng tái tạo mối tương quan bằng cách lấy mẫu lại bên trong các khối dữ liệu (xem Chặn (thống kê)). Bootstrap khối đã được sử dụng chủ yếu với dữ liệu tương quan theo thời gian (i. e. chuỗi thời gian) nhưng cũng có thể được sử dụng với dữ liệu tương quan trong không gian hoặc giữa các nhóm (được gọi là dữ liệu cụm)

Trong bootstrap khối (đơn giản), biến quan tâm được chia thành các khối không chồng chéo

Trong bootstrap khối chuyển động, được giới thiệu bởi Künsch (1989), dữ liệu được chia thành n − b + 1 khối chồng chéo có độ dài b. Quan sát 1 đến b sẽ là khối 1, quan sát 2 đến b + 1 sẽ là khối 2, v.v. Sau đó, từ n − b + 1 khối này, n/b khối sẽ được rút ngẫu nhiên có thay thế. Sau đó, sắp xếp các khối n/b này theo thứ tự chúng được chọn, sẽ đưa ra các quan sát bootstrap

Bootstrap này hoạt động với dữ liệu phụ thuộc, tuy nhiên, các quan sát được khởi động sẽ không đứng yên nữa do quá trình xây dựng. Tuy nhiên, người ta đã chứng minh rằng việc thay đổi độ dài khối một cách ngẫu nhiên có thể tránh được vấn đề này. Phương pháp này được gọi là bootstrap cố định. Các sửa đổi liên quan khác của bootstrap khối di chuyển là bootstrap Markovian và phương thức bootstrap cố định khớp với các khối tiếp theo dựa trên khớp độ lệch chuẩn

Vinod (2006), trình bày một phương pháp khởi động dữ liệu chuỗi thời gian bằng cách sử dụng các nguyên tắc entropy cực đại thỏa mãn định lý Ergodic với các ràng buộc bảo toàn khối lượng và trung bình. Có một gói R, meboot, sử dụng phương pháp này, có ứng dụng trong kinh tế lượng và khoa học máy tính

Dữ liệu cụm. chặn bootstrap[sửa]

Dữ liệu cụm mô tả dữ liệu có nhiều quan sát trên mỗi đơn vị được quan sát. Điều này có thể là quan sát nhiều công ty ở nhiều bang hoặc quan sát học sinh trong nhiều lớp học. Trong những trường hợp như vậy, cấu trúc tương quan được đơn giản hóa và người ta thường đưa ra giả định rằng dữ liệu có tương quan trong một nhóm/cụm, nhưng độc lập giữa các nhóm/cụm. Cấu trúc của bootstrap khối có thể dễ dàng thu được (trong đó khối chỉ tương ứng với nhóm) và thường chỉ các nhóm được lấy mẫu lại, trong khi các quan sát trong các nhóm được giữ nguyên. Cameron và cộng sự. (2008) thảo luận về vấn đề này đối với các lỗi phân cụm trong hồi quy tuyến tính

Các phương pháp cải thiện hiệu quả tính toán[sửa | sửa mã nguồn]

Bootstrap là một kỹ thuật mạnh mẽ mặc dù có thể yêu cầu tài nguyên máy tính đáng kể cả về thời gian và bộ nhớ. Một số kỹ thuật đã được phát triển để giảm bớt gánh nặng này. Nhìn chung, chúng có thể được kết hợp với nhiều loại sơ đồ Bootstrap khác nhau và nhiều lựa chọn thống kê khác nhau

Khởi động Poisson[sửa]

Bootstrapping dữ liệu sai lệch

Biểu đồ hiển thị sự hội tụ của Phân phối nhị thức cho Poisson khi các tham số nhị thức là n*p=1 và n tăng dần

Bootstrap thông thường yêu cầu chọn ngẫu nhiên n phần tử từ một danh sách, tương đương với việc vẽ từ một phân phối đa thức. Điều này có thể yêu cầu một số lượng lớn chuyển dữ liệu và rất khó để chạy song song các tính toán này. Đối với các giá trị lớn của n, Poisson bootstrap là một phương pháp hiệu quả để tạo các tập dữ liệu được khởi động. Khi tạo một mẫu bootstrap đơn lẻ, thay vì lấy ngẫu nhiên từ dữ liệu mẫu có thay thế, mỗi điểm dữ liệu được gán một trọng số ngẫu nhiên được phân phối theo phân phối Poisson với λ=1{\displaystyle \lambda =1}. For large sample data, this will approximate random sampling with replacement. This is due to the following approximation:

limn→∞Binomial⁡(n,1/n)=Poisson⁡(1){\displaystyle \lim _{n\to \infty }\operatorname {Binomial} (n,1/n)=\ .

This method also lends itself well to streaming data and growing data sets, since the total number of samples does not need to be known in advance of beginning to take bootstrap samples.

Đối với n đủ lớn, kết quả tương đối giống với ước tính bootstrap ban đầu

Một cách để cải thiện quá trình khởi động poisson, được gọi là "khởi động tuần tự", là lấy các mẫu đầu tiên sao cho tỷ lệ các giá trị duy nhất là ≈0. 632 của cỡ mẫu ban đầu n. Điều này cung cấp một phân phối với các đặc điểm thực nghiệm chính nằm trong khoảng cách O(n3/4){\displaystyle O(n^{3/4})}. Điều tra thực nghiệm đã cho thấy phương pháp này có thể mang lại kết quả tốt. Điều này liên quan đến phương pháp bootstrap giảm.

Túi giày nhỏ[sửa]

Đối với các tập dữ liệu lớn, việc lưu giữ tất cả dữ liệu mẫu trong bộ nhớ và lấy mẫu lại từ dữ liệu mẫu thường rất khó khăn về mặt tính toán. Bag of Little Bootstraps (BLB) cung cấp một phương pháp tổng hợp dữ liệu trước khi khởi động để giảm các ràng buộc tính toán. Điều này hoạt động bằng cách phân vùng tập dữ liệu thành b{\displaystyle b} nhóm có kích thước bằng nhau và tổng hợp dữ liệu trong mỗi nhóm. Tập dữ liệu được tổng hợp trước này trở thành dữ liệu mẫu mới để lấy mẫu thay thế. Phương pháp này tương tự như Block Bootstrap, nhưng động lực và định nghĩa của các khối rất khác nhau. Theo một số giả định nhất định, phân phối mẫu sẽ xấp xỉ kịch bản khởi động đầy đủ. Một ràng buộc là số lượng nhóm b=nγ{\displaystyle b=n^{\gamma }}trong đó γ∈[0. 5,1]{\displaystyle \gamma \in [0. 5,1]} và các tác giả khuyến nghị sử dụng b=n0. 7{\displaystyle b=n^{0. 7}} làm giải pháp chung.

Lựa chọn thống kê[sửa]

Phân phối bootstrap của công cụ ước tính điểm của tham số tổng thể đã được sử dụng để tạo khoảng tin cậy bootstrapped cho giá trị thực của tham số nếu tham số có thể được viết dưới dạng

Các tham số dân số được ước tính với nhiều công cụ ước tính điểm. Các họ phổ biến của các công cụ ước tính điểm bao gồm các công cụ ước tính phương sai tối thiểu trung bình không chệch, các công cụ ước tính trung bình không chệch, các công cụ ước tính Bayes (ví dụ: , , ) của phân phối sau và các công cụ ước tính khả năng cực đại

Công cụ ước tính điểm Bayes và công cụ ước tính khả năng cực đại có hiệu suất tốt khi kích thước mẫu là vô hạn, theo lý thuyết tiệm cận. Đối với các vấn đề thực tế với các mẫu hữu hạn, các công cụ ước tính khác có thể thích hợp hơn. Lý thuyết tiệm cận đề xuất các kỹ thuật thường cải thiện hiệu suất của các công cụ ước tính khởi động;

Rút ra khoảng tin cậy từ phân phối bootstrap[sửa | sửa mã nguồn]

Phân phối bootstrap của công cụ ước tính tham số đã được sử dụng để tính khoảng tin cậy cho tham số dân số của nó

Độ lệch, bất đối xứng và khoảng tin cậy[sửa | sửa mã nguồn]

  • Thiên kiến. Phân phối bootstrap và mẫu có thể không đồng nhất về mặt hệ thống, trong trường hợp đó có thể xảy ra sai lệch. Nếu phân phối bootstrap của một công cụ ước tính là đối xứng, thì khoảng tin cậy phần trăm thường được sử dụng; . Sai lệch trong phân phối bootstrap sẽ dẫn đến sai lệch trong khoảng tin cậy. Mặt khác, nếu phân phối bootstrap không đối xứng, thì khoảng tin cậy phần trăm thường không phù hợp

Các phương pháp cho khoảng tin cậy bootstrap[sửa | sửa mã nguồn]

Có một số phương pháp để xây dựng khoảng tin cậy từ phân phối bootstrap của một tham số thực

  • Bootstrap cơ bản, còn được gọi là Khoảng phần trăm đảo ngược. Bootstrap cơ bản là một sơ đồ đơn giản để xây dựng khoảng tin cậy. người ta chỉ đơn giản lấy các lượng tử theo kinh nghiệm từ phân phối bootstrap của tham số (xem Davison và Hinkley 1997, equ. 5. 6 giờ chiều. 194)
(2θ^−θ(1−α/2)∗,2θ^−θ(α/2)∗){\displaystyle (2{\widehat {\theta \,}}-\theta _{ . where θ(1−α/2)∗{\displaystyle \theta _{(1-\alpha /2)}^{*}} denotes the 1−α/2{\displaystyle 1-\alpha /2} percentile of the bootstrapped coefficients θ∗{\displaystyle \theta ^{*}}.
  • bootstrap phần trăm. Bootstrap phân vị tiến hành theo cách tương tự như bootstrap cơ bản, sử dụng phân vị của phân phối bootstrap, nhưng với một công thức khác (lưu ý sự đảo ngược của phân vị trái và phải)
(θ(α/2)∗,θ(1−α/2)∗){\displaystyle (\theta _{(\alpha /2)}^{*},\theta _{(1 . Xem Davison và Hinkley (1997, tương tự. 5. 18 giờ trước. 203) và Efron và Tibshirani (1993, equ 13. 5 giờ chiều. 171). Phương pháp này có thể được áp dụng cho bất kỳ số liệu thống kê. Nó sẽ hoạt động tốt trong trường hợp phân phối bootstrap đối xứng và tập trung vào thống kê được quan sát và khi thống kê mẫu không thiên vị trung vị và có nồng độ tối đa (hoặc rủi ro tối thiểu đối với hàm mất giá trị tuyệt đối). Khi làm việc với cỡ mẫu nhỏ (i. e. , nhỏ hơn 50), khoảng tin cậy phân vị cơ bản/đảo ngược và phân vị phần trăm cho (ví dụ) thống kê phương sai sẽ quá hẹp. Vì vậy, với một mẫu gồm 20 điểm, khoảng tin cậy 90% sẽ chỉ bao gồm phương sai thực trong 78% thời gian. Khoảng tin cậy phần trăm cơ bản/ngược lại dễ dàng hơn để chứng minh về mặt toán học nhưng nói chung chúng kém chính xác hơn khoảng tin cậy phần trăm và một số tác giả không khuyến khích sử dụng chúng. where θ(1−α/2)∗{\displaystyle \theta _{(1-\alpha /2)}^{*}} denotes the 1−α/2{\displaystyle 1-\alpha /2} percentile of the bootstrapped coefficients θ∗{\displaystyle \theta ^{*}}.See Davison and Hinkley (1997, equ. 5.18 p. 203) and Efron and Tibshirani (1993, equ 13.5 p. 171).This method can be applied to any statistic. It will work well in cases where the bootstrap distribution is symmetrical and centered on the observed statistic and where the sample statistic is median-unbiased and has maximum concentration (or minimum risk with respect to an absolute value loss function). When working with small sample sizes (i.e., less than 50), the basic / reversed percentile and percentile confidence intervals for (for example) the variance statistic will be too narrow. So that with a sample of 20 points, 90% confidence interval will include the true variance only 78% of the time. The basic / reverse percentile confidence intervals are easier to justify mathematically but they are less accurate in general than percentile confidence intervals, and some authors discourage their use.
  • khởi động sinh viên. Bootstrap được sinh viên hóa, còn được gọi là bootstrap-t, được tính toán tương tự như khoảng tin cậy tiêu chuẩn, nhưng thay thế các phân vị từ xấp xỉ chuẩn hoặc sinh viên bằng các phân vị từ phân phối bootstrap của kiểm tra t của Sinh viên (xem Davison và Hinkley 1997, tương đương. 5. 7 giờ tối. 194 và Efron và Tibshirani 1993 tương đương 12. 22, tr. 160)
(θ^−t(1−α/2)∗⋅se^θ,θ^−t(α/2)∗⋅se^θ){\displaystyle ({\widehat {\theta \, . Bài kiểm tra được học sinh hóa có các thuộc tính tối ưu vì số liệu thống kê được khởi động là mấu chốt (i. e. nó không phụ thuộc vào các tham số phiền toái vì thử nghiệm t tuân theo phân phối N(0,1) một cách tiệm cận), không giống như bootstrap phần trăm. where t(1−α/2)∗{\displaystyle t_{(1-\alpha /2)}^{*}} denotes the 1−α/2{\displaystyle 1-\alpha /2} percentile of the bootstrapped Student's t-test t∗=(θ^∗−θ^)/se^θ^∗{\displaystyle t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}}, and se^θ{\displaystyle {\widehat {\text{se}}}_{\theta }} is the estimated standard error of the coefficient in the original model.The studentized test enjoys optimal properties as the statistic that is bootstrapped is pivotal (i.e. it does not depend on nuisance parameters as the t-test follows asymptotically a N(0,1) distribution), unlike the percentile bootstrap.
  • Bootstrap hiệu chỉnh sai lệch – điều chỉnh độ lệch trong phân phối bootstrap
  • Bootstrap tăng tốc – Bootstrap được hiệu chỉnh sai lệch và tăng tốc (BCa), của Efron (1987), điều chỉnh cả độ lệch và độ lệch trong phân phối bootstrap. Cách tiếp cận này chính xác trong nhiều cài đặt khác nhau, có các yêu cầu tính toán hợp lý và tạo ra các khoảng thời gian hẹp hợp lý

Thử nghiệm giả thuyết Bootstrap[sửa | sửa mã nguồn]

Efron và Tibshirani đề xuất thuật toán sau để so sánh giá trị trung bình của hai mẫu độc lập. Gọi x1,…,xn{\displaystyle x_{1},\ldots ,x_{n}} là mẫu ngẫu nhiên từ phân phối F với trung bình mẫu x¯{\displaystyle {\bar { . Đặt y1,…,ym{\displaystyle y_{1},\ldots ,y_{m}} and sample variance σx2{\displaystyle \sigma _{x}^{2}}. Let y1,…,ym{\displaystyle y_{1},\ldots ,y_{m}} là một mẫu ngẫu nhiên độc lập khác từ phân phối G với trung bình y¯{\displaystyle {\bar and variance σy2{\displaystyle \sigma _{y}^{2}}

  1. Tính thống kê kiểm định t=x¯−y¯σx2/n+σy2/m{\displaystyle t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _
  2. Tạo hai tập dữ liệu mới có giá trị là xi′=xi−x¯+z¯{\displaystyle x_{i}'=x_{i}-{\bar {x}}+{\bar {z . and yi′=yi−y¯+z¯,{\displaystyle y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},} where z¯{\displaystyle {\bar {z}}} is the mean of the combined sample.
  3. Lấy một mẫu ngẫu nhiên (xi∗{\displaystyle x_{i}^{*}}) có kích thước n{\displaystyle n} with replacement from xi′{\displaystyle x_{i}'} and another random sample (yi∗{\displaystyle y_{i}^{*}}) of size m{\displaystyle m} with replacement from yi′{\displaystyle y_{i}'}.
  4. Tính thống kê kiểm định t∗=x∗¯−y∗¯σx∗2/n+σy∗2/m{\displaystyle t^{*}={\frac {{\bar {x^{*}}}-
  5. Lặp lại 3 và 4 B{\displaystyle B} lần (e. g. B=1000{\displaystyle B=1000}) để thu thập các giá trị B{\displaystyle B} của thống kê thử nghiệm.
  6. Ước tính giá trị p là p=∑i=1BI{ti∗≥t}B{\displaystyle p={\frac {\sum _{i=1}^{B}I\{t_{ . where I(condition)=1{\displaystyle I({\text{condition}})=1} when condition is true and 0 otherwise.

Bootstrap được làm mịn[sửa]

Năm 1878, Simon Newcomb đã quan sát tốc độ ánh sáng. Tập dữ liệu chứa hai giá trị ngoại lệ, ảnh hưởng lớn đến giá trị trung bình của mẫu. (Giá trị trung bình của mẫu không nhất thiết phải là một công cụ ước lượng nhất quán cho bất kỳ giá trị trung bình tổng thể nào, bởi vì không có giá trị trung bình nào cần tồn tại đối với phân phối nặng. ) Một thống kê rõ ràng và mạnh mẽ cho xu hướng trung tâm là trung vị mẫu, nhất quán và trung vị không thiên vị cho trung vị quần thể

Bản phân phối bootstrap cho dữ liệu của Newcomb xuất hiện bên dưới. Chúng ta có thể giảm tính rời rạc của phân phối bootstrap bằng cách thêm một lượng nhỏ nhiễu ngẫu nhiên vào mỗi mẫu bootstrap. Một lựa chọn thông thường là thêm nhiễu với độ lệch chuẩn là σ/n{\displaystyle \sigma /{\sqrt {n}}} cho cỡ mẫu n; . Điều này dẫn đến một công cụ ước tính xấp xỉ không chệch cho phương sai của giá trị trung bình mẫu. Điều này có nghĩa là các mẫu được lấy từ phân phối bootstrap sẽ có phương sai trung bình bằng với phương sai của tổng dân số.

Biểu đồ phân phối bootstrap và phân phối bootstrap trơn xuất hiện bên dưới. Phân phối bootstrap của trung bình mẫu chỉ có một số lượng nhỏ các giá trị. Bản phân phối bootstrap được làm mịn có hỗ trợ phong phú hơn. Tuy nhiên, lưu ý rằng quy trình bootstrap tiêu chuẩn hoặc được làm mịn có thuận lợi hay không là tùy từng trường hợp và được chứng minh là phụ thuộc vào cả hàm phân phối cơ bản và vào số lượng được ước tính

Trong ví dụ này, khoảng tin cậy 95% (phần trăm) được khởi động cho trung vị dân số là (26, 28. 5), gần với khoảng của (25. 98, 28. 46) cho bootstrap được làm mịn

Mối quan hệ với các phương pháp suy luận khác[sửa | sửa mã nguồn]

Mối quan hệ với các phương pháp lấy mẫu lại khác[sửa | sửa mã nguồn]

Bootstrap được phân biệt với

  • thủ tục jackknife, được sử dụng để ước tính độ lệch của thống kê mẫu và để ước tính phương sai, và
  • xác thực chéo, trong đó các tham số (e. g. , trọng số hồi quy, hệ số tải) được ước tính trong một mẫu con được áp dụng cho một mẫu con khác

Để biết thêm chi tiết xem lấy mẫu lại

Bootstrap tổng hợp (đóng bao) là một siêu thuật toán dựa trên các dự đoán mô hình lấy trung bình thu được từ các mô hình được đào tạo trên nhiều mẫu bootstrap

Thống kê U[sửa]

Trong các tình huống mà một thống kê rõ ràng có thể được tạo ra để đo lường một đặc tính được yêu cầu chỉ sử dụng một số lượng nhỏ, r, các mục dữ liệu, thì có thể xây dựng một thống kê tương ứng dựa trên toàn bộ mẫu. Đưa ra một thống kê mẫu r, người ta có thể tạo một thống kê mẫu n bằng một cái gì đó tương tự như bootstrapping (lấy trung bình của thống kê trên tất cả các mẫu con có kích thước r). Quy trình này được biết là có một số đặc tính tốt và kết quả là thống kê U. Giá trị trung bình mẫu và phương sai mẫu có dạng này, với r = 1 và r = 2

Vấn đề với bootstrapping là gì?

Bootstrapping là một hình thức lập luận đáng ngờ xác minh độ tin cậy của nguồn bằng cách kiểm tra nguồn đó với chính nó . Các lý thuyết ủng hộ lý luận như vậy phải đối mặt với vấn đề bootstrapping.

Bootstrapping có thiên vị không?

Giống như số liệu thống kê jackknife, công cụ ước tính bootstrap không được coi là công cụ ước tính không thiên vị của tham số tổng thể . Thay vào đó, giả định rằng, nếu thống kê mẫu ( ) cung cấp ước tính sai lệch cho tham số của nó ( Θ ), thì thống kê bootstrap ( * ) cung cấp ước tính sai lệch tương tự của thống kê mẫu.

Bootstrapping có yêu cầu bình thường không?

Bootstrap thường hữu ích để ước tính phân phối của một thống kê (e. g. trung bình, phương sai) mà không sử dụng các giả định về tính quy tắc (theo yêu cầu, e. g. , đối với thống kê z hoặc thống kê t).

Bootstrapping có thể được sử dụng với trung bình không?

Phương pháp t khởi động. Giống như chúng ta đã làm với giá trị trung bình, chúng ta có thể tính toán ước tính bootstrapped t về giới hạn tin cậy cho giá trị trung bình .