Bayesian bootstrapping là gì?

*Nghiên cứu được hỗ trợ một phần bởi NIH cấp 8R01 EB002784 và bởi NSF cấp DMS 0804324/1208787. Tác giả xin chân thành cảm ơn Giáo sư Wing H. Wong vì một số nhận xét và đề xuất hữu ích

thông báo bản quyền

Phiên bản chỉnh sửa cuối cùng của nhà xuất bản của bài viết này có sẵn miễn phí tại Ann Appl Stat

trừu tượng

Bootstrap tham số có thể được sử dụng để tính toán hiệu quả các bản phân phối sau của Bayes. Các công thức lấy mẫu tầm quan trọng có dạng đơn giản liên quan đến độ lệch trong các họ số mũ và đặc biệt đơn giản bắt đầu từ bất biến Jeffreys trước đó. bởi vì tôi. i. d. bản chất của lấy mẫu bootstrap, các công thức quen thuộc mô tả độ chính xác tính toán của các ước tính Bayes. Bên cạnh các phương pháp tính toán, lý thuyết cung cấp một kết nối giữa phân tích Bayesian và thường xuyên. Các thuật toán hiệu quả cho độ chính xác thường xuyên của các suy luận Bayes được phát triển và thể hiện trong một ví dụ về lựa chọn mô hình

Từ khóa. Jeffreys trước, họ hàm mũ, độ lệch, mô hình tuyến tính tổng quát

1. Giới thiệu

Bài viết này liên quan đến việc sử dụng bootstrap tham số để thực hiện các tính toán suy luận Bayesian. Hai điểm chính được thực hiện. rằng trong một số trường hợp tương đối hạn chế khi áp dụng các phương pháp bootstrap, chúng đưa ra một cách hiệu quả và đơn giản về mặt tính toán để tính toán các phân phối và ước tính hậu nghiệm, tận hưởng một số lợi thế so với các kỹ thuật chuỗi Markov;

Ý tưởng cơ bản là đơn giản và không xa lạ. rằng bootstrap rất hữu ích cho việc tính toán lấy mẫu quan trọng của các bản phân phối sau Bayes. Một bài báo quan trọng bằng cách đề xuất một phiên bản bootstrapping phi tham số cho mục đích này. Bằng cách "đi theo tham số", chúng ta có thể làm cho mối quan hệ Bayes/bootstrap minh bạch hơn. Dòng suy nghĩ này có lợi thế là liên kết hơn là tách biệt các thực hành thường xuyên và Bayesian

Phần 2 giới thiệu các ý chính dưới dạng ví dụ một tham số cơ bản và minh họa mối liên hệ giữa mật độ trước bất biến của Jeffreys và giới hạn độ tin cậy bootstrap chính xác bậc hai. Cả hai phương pháp đều được thực hiện thông qua việc cân nhắc lại các bản sao bootstrap “thô” ban đầu. Việc tính toán các phân phối sau bằng cách cân nhắc lại bootstrap là một chủ đề chính ở đây, trái ngược với các phương pháp chuỗi Markov, cố gắng trực tiếp tạo ra các nhận thức sau được phân phối chính xác

Các họ số mũ đa chiều, được thảo luận trong Phần 3, cho phép quy trình chuyển đổi Bayes/bootstrap được mô tả rõ ràng. Hai họ quan trọng, mô hình tuyến tính tổng quát và chuẩn tắc đa biến, được nghiên cứu trong Phần 4 và Phần 5. Các linh mục kiểu Jeffreys có thể mang lại kết quả không đạt yêu cầu trong các bài toán đa tham số [], như được hiển thị ở đây bằng cách so sánh với các giới hạn độ tin cậy của bootstrap

Một lợi thế của các chương trình tái cân bằng bootstrap là phân tích đơn giản về độ chính xác của chúng. Phần 6 phát triển các ước tính độ chính xác cho phương pháp của chúng tôi, cả nội bộ [Cần bao nhiêu bản sao bootstrap?] và bên ngoài [Kết quả sẽ thay đổi bao nhiêu trong các tập dữ liệu trong tương lai?]. Cái sau liên quan đến phân tích thường xuyên của các ước lượng Bayesian, một câu hỏi quan trọng trong các ứng dụng “Bayes khách quan”;

Trọng số của Bootstrap có thể áp dụng cho bất kỳ lựa chọn ưu tiên nào [không ưu tiên ưu tiên thuận tiện như liên hợp chẳng hạn], nhưng ở đây chúng ta sẽ quan tâm nhất đến các phân tích Bayes kiểu mục tiêu thống trị thực tiễn hiện tại. Các linh mục của Jeffrey được nêu trong các ví dụ, để trình bày dễ dàng hơn là cần thiết. Bài báo kết thúc với một bản tóm tắt ngắn gọn trong Phần 7. Một số chi tiết kỹ thuật được hoãn lại cho

Các mối liên hệ giữa quá trình khởi động phi tham số và suy luận Bayes đã xuất hiện sớm, với “phương pháp khởi động Bayesian” và. Tái cân bằng Bootstrap được triển khai khác nhau trong , với một ví dụ hay được đưa ra trong Phần 5 của họ. Phần 4 và 6 của quá trình phát triển bootstrap reweighting dọc theo các dòng được sử dụng trong bài viết này

2 Chuyển đổi và điều chỉnh lại trọng số

Phương pháp của chúng tôi được giới thiệu ở đây dưới dạng bài toán một tham số đơn giản. Bảng 1 cho thấy điểm của n = 22 học sinh trong hai bài kiểm tra, “cơ học” và “vectơ”, có mối tương quan mẫu

Bảng 1

Điểm của 22 học sinh trong hai bài kiểm tra, “cơ học” và “vectơ” [từ , một tập hợp con được chọn ngẫu nhiên trong số 88 học sinh trong Bảng 1 của họ. 2. 1]. Tương quan mẫu là θ̂= 0. 498

12345678910111213141516171819202122mech74449593446032495244364252218414831424663vec51694170424040455764615960305851633842694963

Mở trong cửa sổ riêng

θ^=0. 498

[2. 1]

Chúng tôi muốn tính toán một số biện pháp phân phối sau cho giá trị tham số cơ bản thực sự

θ0 = tương quan [điểm cơ học, điểm vectơ]

[2. 2]

Như trong , chúng tôi giả sử rằng điểm số của từng học sinh yi = [meci, veci] là một mẫu ngẫu nhiên từ phân phối chuẩn hai biến có vectơ trung bình μ chưa biết và ma trận hiệp phương sai Σ

y. yi∼indN2[μ,∑]fori=1,2,…,22,

[2. 3]

với y = [y1, y2, …, y22] đại diện cho tập dữ liệu đầy đủ. Đặt [μ̂, Σ̂] biểu thị ước tính khả năng tối đa thông thường [MLE]. Sau đó, một mẫu bootstrap tham số y* theo sau [], với [μ̂, Σ̂] thay thế [μ, Σ],

y∗. yi∗∼indN2[μ^,∑^]fori=1,2,…,22

[2. 4]

Tương quan mẫu của y* là một bản sao bootstrap tham số của θ̂, giả sử θ̂*. Tổng số B = 10.000 mẫu bootstrap tham số y* được tạo độc lập theo [] và các giá trị θ̂* tương ứng được tính toán. Chúng tôi sẽ biểu thị chúng đơn giản là

θ1, θ2, …, θi, …, θB,

[2. 5]

với θi là viết tắt của θ^i∗

Biểu đồ trong Hình 1 so sánh phân bố của 10.000 θi với hàm mật độ lý thuyết của Fisher fθ[θ̂],

Mở trong cửa sổ riêng

Hình 1

Biểu đồ của B = 10.000 lần lặp lại bootstrap cho hệ số tương quan điểm của học sinh []–[] được chia tỷ lệ để tích hợp thành 1. Đường cong liền là công thức mật độ của Fisher [ ] cho θ = 0. 498. Hình tam giác biểu thị khoảng tin cậy chính xác 95% θ ∈ [0. 093, 0. 741]

fθ[θ^]=[n-2][1-θ2][n-1]/2[1-θ^2][n-4]/2π∫0∞dw[coshw-θθ^]n-1

[2. 6]

trong đó θ đã được đặt bằng với giá trị MLE của nó 0. 498. Theo nghĩa này f0. 498[·] là mật độ bootstrap tham số lý tưởng mà chúng ta sẽ đạt được nếu số lần lặp lại B tiến tới vô cùng. Chương 32 đưa ra công thức [] và các biểu diễn khác của fθ[θ̂]

Hình 1 cũng cho biết giới hạn tin cậy chính xác 95%

θ0 ∈ [0. 093, 0. 741],

[2. 7]

2½% không phủ sóng ở mỗi đuôi, thu được từ fθ[θ̂] bằng cách xây dựng thông thường,

∫0. 4981f0. 093[θ]dθ=0. 025,

[2. số 8]

và tương tự ở điểm cuối trên

Giả sử bây giờ chúng ta có mật độ trước π[θ] cho tham số θ và muốn tính mật độ sau π[θ. θ̂]. Đối với bất kỳ tập con

nào của không gian tham số Θ = [−1, 1],

Pr{θ∈A∣θ^}=∫Aπ[θ]fθ[θ^]dθ/∫Θπ[θ]fθ[θ^]dθ

[2. 9]

theo quy tắc Bayes

Xác định hệ số chuyển đổi R[θ] là tỷ lệ của hàm khả năng với mật độ bootstrap,

R[θ]=fθ[θ^]/fθ^[θ]

[2. 10]

Ở đây θ̂ được cố định ở giá trị quan sát được của nó là 0. 498 trong khi θ đại diện cho bất kỳ điểm nào trong Θ. Chúng ta có thể viết lại [] thành

Pr{θ∈A∣θ^}=∫Aπ[θ]R[θ]fθ^[θ]dθ∫Θπ[θ]R[θ]fθ^[θ]dθ

[2. 11]

Tổng quát hơn, nếu t[θ] là một hàm bất kỳ θ thì kỳ vọng sau của nó là

E{t[θ]∣θ^}=∫Θt[θ]π[θ]R[θ]fθ^[θ]dθ∫Θπ[θ]R[θ]fθ^[θ]dθ

[2. 12]

Các tích phân trong [] và [] hiện đang được tính theo mật độ bootstrap tham số fθ̂[·]. Vì θ1, θ2, …, θB [] là một mẫu ngẫu nhiên từ fθ̂[·], các tích phân có thể được ước tính bằng trung bình mẫu theo cách thông thường, mang lại ước tính lấy mẫu tầm quan trọng quen thuộc của E{t[θ]. θ̂},

E^{t[θ]∣θ^}=∑i=1BtiπiRi/∑i=1BπiRi

[2. 13]

trong đó ti = t[θi], πi = π[θi] và Ri = R[θi]. Trong các điều kiện đều đặn nhẹ, luật số lớn ngụ ý rằng Ê{t[θ]. θ̂} tiến đến E{t[θ]. θ} là B → ∞. [Các tính toán chính xác của Phần 6 sẽ cho thấy rằng trong trường hợp này B = 10.000 lớn hơn mức cần thiết cho hầu hết các mục đích. ]

Đường cong đậm trong Hình 2 mô tả π̂[θ. θ̂], mật độ phía sau ước tính bắt đầu từ Jeffreys trước

Mở trong cửa sổ riêng

Hình 2

Đường cong nặng là mật độ sau π[θ. θ̂] cho tương quan [], bắt đầu từ Jeffreys trước [], thu được bằng cách tính lại trọng số B = 10.000 bản sao bootstrap []; . 095,0. 748]. Đường cong nét đứt nhẹ là phân phối bootstrap thô không trọng số. Đường cong đính cườm là mật độ bootstrap có trọng số BCa [], gần giống với π[θ̂. θ] trong trường hợp này

π[θ] = 1/[1 - θ2]

[2. 14]

[xem Phần 3]. Bản phân phối bootstrap thô đặt trọng số 1/B cho mỗi bản sao B θi. Bằng cách tính lại các điểm này theo tỷ lệ wi = πiRi, chúng tôi thu được phân phối sau ước tính của θ cho trước θ̂, với

Pr^{θ∈A∣θ^}=∑θi∈Awi/∑i=1Bwi;

[2. 15]

π̂[θ. θ̂] đại diện cho mật độ của phân phối này — về cơ bản là biểu đồ được làm mịn của 10.000 θi, có trọng số tương ứng với wi

Tích phân π̂[θ. θ̂] mang lại các giới hạn đáng tin cậy 95% [ 2½% xác suất sau ở mỗi đuôi]

θ0 ∈ [0. 095, 0. 748],

[2. 16]

gần với giới hạn chính xác []. Trước [] được biết là mang lại xác suất bao phủ thường xuyên chính xác, là thành viên của gia đình Welch–Peers được thảo luận trong Phần 4

Trong trường hợp này, trọng số wi = πiRi có thể được coi là hiệu chỉnh mật độ bootstrap thô không trọng số [wi ≡ 1]. Hình 2 hiển thị hiệu chỉnh dưới dạng dịch chuyển nhỏ sang trái. BCa, viết tắt của điều chỉnh sai lệch và tăng tốc, là một tập hợp trọng số điều chỉnh khác, thu được từ những cân nhắc thuần túy của người theo chủ nghĩa thường xuyên. Đặt Ĝ[θ] biểu thị hàm phân phối tích lũy theo kinh nghiệm thông thường [cdf] của các bản sao bootstrap θ1, θ2, …, θB, trọng số BCa trên θi là

wiBCa=ϕ[zθi/[1+azθi]-z0][1+azθi]2ϕ[zθi+z0][zθi=Φ-1G^[θi]-z0]

[2. 17]

trong đó ϕ và Φ là mật độ pháp tuyến tiêu chuẩn và cdf, trong khi z0 và a là các hằng số gia tốc và hiệu chỉnh sai lệch được phát triển trong và , được thảo luận thêm trong Phần 4 và. Giá trị ước tính của chúng là z0 = −0. 068 và a = 0 cho bài toán tương quan điểm của học sinh

Mật độ BCa πBCa[θ̂. θ], thu được bằng cách điều chỉnh lại trọng số như trong [], được thấy trong Hình 2 để hoàn toàn đồng ý với mật độ phía sau của Jeffreys, nặng hơn một chút ở đuôi bên trái . 074, 0. 748]. Thỏa thuận này dễ gây hiểu lầm, như sẽ thấy trong bối cảnh đa chiều của Phần 4.

3 họ lũy thừa

Quá trình chuyển đổi Bayes/bootstrap có dạng đơn giản hóa trong các họ số mũ. Điều này tạo điều kiện thuận lợi cho ứng dụng của nó đối với các bài toán đa thông số, như đã thảo luận ở đây và trong hai phần tiếp theo

Các hàm mật độ cho họ hàm mũ tham số p

có thể được biểu diễn dưới dạng

fβ[β^]=eα′β^-ψ[α]f0[β^]

[3. 1]

trong đó p-vector α là tham số chính tắc, β̂ là vectơ thống kê đủ chiều p và trong đó ψ[α], hàm tạo lũy tích, cung cấp các bội số cần thiết để fβ[β̂] tích phân thành 1. Ở đây chúng tôi đã lập chỉ mục họ theo vectơ tham số kỳ vọng β,

β=Eα{β^}

[3. 2]

vì lợi ích của ký hiệu tiếp theo, nhưng α và β là các hàm đơn ánh và chúng ta cũng có thể viết fα[β̂]

Độ lệch giữa hai thành viên bất kỳ của

D[β1,β2]=2Eβ1{log[fβ1[β^]/fβ2[β^]]}

[3. 3]

[ký hiệu tương đương là D[α1, α2] vì độ lệch không phụ thuộc vào tham số hóa của

. ] Việc đăng nhập [] cho thấy rằng

D[β1, β2]/2 = [α1-α2]′β1 - [ψ[α1] - ψ[α2]]

[3. 4]

Khi đó họ [ ] có thể được biểu diễn lại dưới dạng “Hoeffding’s” dưới dạng

fβ[β^]=fβ^[β^]e-D[β^,β]/2

[3. 5]

Vì D[β̂, β] bằng hoặc lớn hơn 0 nên [] cho thấy β = β̂ là MLE, fβ[β̂] cực đại trên tất cả các lựa chọn của β trong

, .

Các bản sao bootstrap tham số của β̂ là các bản rút ra độc lập từ fβ̂[·],

fβ^[·]→β1,β2,…,βi,…,βB

[3. 6]

trong đó βi là ký hiệu viết tắt của β^i∗. Bắt đầu từ mật độ tiên nghiệm π[β] trên

, kỳ vọng sau của bất kỳ hàm nào t[β] cho trước β̂ được ước tính bởi

E^{t[β]∣β^}=∑i=1Bt[βi]π[βi]R[βi]/∑i=1Bπ[βi]R[βi]

[3. 7]

như trong [], với R[β] hệ số chuyển đổi

R[β]=fβ[β^]/fβ^[β]

[3. số 8]

Ghi chú. π[β]R[β] là biến đổi bất biến, vì vậy công thức [] tạo ra kết quả số tương tự nếu chúng ta khởi động α1, α2, …, αB thay vì [] hoặc đối với vấn đề đó, khởi động bất kỳ vectơ đủ nào khác. Xem Phần 4

Dạng của Hoeffding [] cho phép biểu thức thuận tiện cho R[β]

bổ đề 1

Hệ số chuyển đổi [] bằng

R[β] = ξ[β]eΔ[β]

[3. 9]

ở đâu

ξ[β]=fβ^[β^]/fβ[β]

[3. 10]

Δ[β]=[D[β,β^]-D[β^,β]]/2

[3. 11]

Đặt α̂ là vectơ tham số chính tắc tương ứng với β̂, [] cho

Δ[β]=[α-α^]′[β+β^]-2[ψ[α]-ψ[α^]],

[3. 12]

hữu ích cho cả tính toán lý thuyết và số

Các đạo hàm của ϕ đối với các thành phần của α tạo ra các khoảnh khắc của β̂,

ψ. [α]≡[∂ψ/∂αj]=β,ψ¨[α]≡[∂2ψ/∂αj∂αk]=V[α]=covα{β^},

[3. 13]

ψ…[α]≡[∂3ψ/∂αj∂αk∂αl]=U[α],

[3. 14]

Ujkl[α] = Eα[β̂j − βj][β̂k − βk][β̂l − βl]. Trong các tình huống lấy mẫu lặp lại, trong đó β̂ thu được từ n quan sát độc lập, các mục của V[α] và U[α] thường có thứ tự lần lượt là O[n−1] và O[n−2];

Xấp xỉ bình thường

β^∼. Np[β,V[α]]

[3. 15]

sản lượng

fβ[β]≐[2π]-p/2∣V[α]∣-1/2andfβ^[β^]≐[2π]-p/2∣V[α^]∣-1/2,

[3. 16]

vì thế

ξ[β]≐∣V[α]∣1/2/∣V[α^]∣1/2

[3. 17]

Bởi vì [] áp dụng định lý giới hạn trung tâm khi nó chính xác nhất, tại tâm, [] thường sai số chỉ 1 + O[1/n] trong các tình huống lấy mẫu lặp lại; . Thực tế đối với các họ rời rạc như Poisson, trong đó fβ[β] không liên tục, phép xấp xỉ [] mang lại hiệu suất vượt trội trong các ứng dụng của [] đến []. Trong phần tiếp theo, chúng tôi sẽ coi [] là chính xác hơn là gần đúng

Mật độ trước bất biến của Jeffreys, như được mô tả trong , có dạng

πJeff[β] = c∣V[α]∣-1/2

[3. 18]

trong họ [], với c là một hằng số dương tùy ý không ảnh hưởng đến các ước lượng chẳng hạn như []. Bỏ qua c, chúng ta có thể sử dụng []–[] để viết lại hệ số chuyển đổi R[β] [] thành

R[β] = eΔ[β]/πJeff[β]

[3. 19]

Jeffreys trước được dự định là “không cung cấp thông tin. ” Giống như các mục tiêu khách quan khác được thảo luận trong Kass và Wasserman, nó được thiết kế để sử dụng Bayesian trong các tình huống thiếu kinh nghiệm trước đó. Công dụng của nó tương đương với việc chọn π+[β] bằng phẳng,

π[β]/πJeff[β] ≡ 1,

[3. 20]

trong trường hợp nào [] có dạng đặc biệt đơn giản

bổ đề 2

Nếu π[β] là Jeffreys trước [], thì [] bằng

E^{t[β]∣β^}=∑i=1Bt[βi]eΔ[βi]/∑i=1BeΔ[βi]

[3. 21]

với Δ[β] như trong []–[]

Mô hình dịch bình thường β̂~

[β, Σ], với Σ cố định, có Δ[β] = 0, do đó Bayes ước tính t̂in [] bằng với bootstrap không trọng số

t^=E^{t[β]∣β^}=∑i=1Bti/B=t¯

[3. 22]

Thông thường, mặc dù t̂sẽ không bằng t̄, sự khác biệt liên quan đến tính khả biến của Δ[β] trong []

Một kết quả đơn giản nhưng nhiều thông tin liên quan đến chênh lệch Bayes tương đối [RBD] của t[β] được xác định là

RBD[t]=[t^-t¯]/sd¯[t],

[3. 23]

sd¯[t]=[∑1B[ti-t¯]2/B]1/2

Bổ đề 3

Cho ri = πiRi, hiệu Bayes tương đối của t[β] là

RBD[t]=cor¯[t,r]·cv¯[r],

[3. 24]

và nếu π[β] = πJeff[β],

RBD[t]≐cor¯[t,r]·sd¯[Δ];

[3. 25]

ở đây cor¯[t,r] là mối tương quan theo kinh nghiệm giữa ti và ri đối với các bản sao bootstrap B, cv¯[r] hệ số biến thiên theo kinh nghiệm của các giá trị ri và sd¯[Δ] độ lệch chuẩn theo kinh nghiệm của Δi

Bằng chứng

[] theo ngay sau từ [],

RBD[t]=∑1B[ti-t¯]ri/Bsd¯[t]∑1Bri/B=cor¯[t,r]sd¯[r]r¯

[3. 26]

Nếu π[β] là nghiệm trước của Jeffreys [] thì r[β] = exp[Δ[β]] [] và đối số phương thức delta thông thường cho cv¯[r]≐sd¯[Δ]

Ví dụ về điểm số của sinh viên trong Hình 2 [không ở dạng họ lũy thừa], trực tiếp từ định nghĩa [],

Chủ Đề