Bootstrapping tham số là gì?

Xem thêm. Giới thiệu về Bootstrap, Phân tích và sử dụng dữ liệu, Bootstrap phi tham số, VoseNBoot

Bootstrap không tham số không đưa ra giả định nào về dạng phân phối của tổng thể hoặc phân phối xác suất (cha mẹ). Tuy nhiên, sẽ có nhiều lúc chúng ta sẽ biết phân phối mẹ thuộc họ phân phối nào. Ví dụ, số trận động đất mỗi năm và số nang Giardia trong lít nước lấy từ hồ về mặt logic sẽ xấp xỉ phân phối Poisson;

Bootstrap tham số cung cấp cho chúng tôi phương tiện để sử dụng thông tin bổ sung mà chúng tôi có về phân bố dân số. Quy trình này giống như phương pháp Bootstrap không tham số ngoại trừ giai đoạn ước tính phân phối

1. Ước tính phân phối từ dữ liệu

Đối với Bootstrap tham số, chúng tôi chọn loại phân phối mà chúng tôi tin rằng dữ liệu đến từ đó và sau đó tìm các tham số MLE cho phân phối đó. Điều này có nghĩa là, chúng tôi tìm thấy các giá trị tham số cho phân phối mang lại xác suất cao nhất để quan sát các giá trị dữ liệu mà chúng tôi có

Sử dụng VoseDistributionFitP để trả về các tham số MLE của tập dữ liệu hoặc trực tiếp xây dựng đối tượng phân phối bằng các tham số MLE bằng cách sử dụng VoseDistributionFitObject

2. Mô phỏng việc thu thập dữ liệu

Giống như với Bootstrap không tham số, giờ đây chúng tôi thay thế từng quan sát bằng một mẫu được lấy ngẫu nhiên từ phân phối dân số phù hợp. Sử dụng VoseSimulate để mô phỏng các giá trị ngẫu nhiên từ phân phối được tạo ở bước 1

3. Tính thống kê mẫu

Bây giờ chúng tôi chạy một số lượng lớn các lần lặp lại, mỗi lần tạo ra một bản sao Bootstrap mới và đối với mỗi bản sao Bootstrap, chúng tôi tính toán ước tính mẫu của thống kê được đề cập.  

Tóm lại, Bootstrap tham số tiến hành như sau

  • Thu thập tập dữ liệu của n mẫu {x1,. xn}

  • Xác định (các) tham số của phân phối phù hợp nhất với dữ liệu từ họ phân phối đã biết bằng cách sử dụng các công cụ ước tính khả năng tối đa (MLE)

  • Tạo B mẫu Bootstrap {x1*,. xn*} bằng cách lấy mẫu ngẫu nhiên từ phân phối phù hợp này

  • Đối với mỗi mẫu Bootstrap {x1*,. xn*} tính toán thống kê cần thiết

    Bootstrapping tham số là gì?
    . Phân phối của các ước tính B này của q biểu thị ước tính Bootstrap về độ không đảm bảo về giá trị thực của q.

Thí dụ

Giả sử chúng ta muốn mô hình hóa sự không chắc chắn về trung bình dân số bằng cách sử dụng bootstrapping tham số. Giả sử chúng ta có lý do để tin rằng dữ liệu (được lưu trữ trong một mảng có kích thước n có tên là Dữ liệu) đến từ một bản phân phối LogNormal

  1. Xây dựng phân phối phù hợp bằng cách viết =VoseLogNormalFitObject(Data) trong ô bảng tính. Đặt tên cho ô này là FittedDistribution

  2. Viết =VoseSimulate(FittedDistribution) vào n ô, tạo một mẫu ngẫu nhiên từ phân phối LogNormal phù hợp trên mỗi lần tính toán lại

  3. Tính thống kê mong muốn của mẫu này (E. g. sử dụng hàm AVERAGE từ Excel). Điều này cho chúng ta phân phối không chắc chắn của thống kê dân số

    Về nguyên tắc, có ba cách khác nhau để thu thập và đánh giá ước tính bootstrap. phi tham số, tham số và bán tham số. Trong thực tế, bởi vì các khoảng không theo tham số tạo ra các giả định tham số, sự phân chia này khá tùy ý. Mặc dù các thuật ngữ này có thể cung cấp một số thông tin chi tiết, nhưng chúng không phải là cách phân loại hữu ích lắm. Tuy nhiên, vì các khoảng 'không tham số' rất phổ biến nên chúng ta hãy xem xét chúng trước

     

      Bootstrapping tham số là gì?
    1. Khoảng tin cậy bootstrap không tham số
    • Giới hạn tin cậy đuôi bằng nhau

      Khoảng tin cậy phần trăm đơn giản của Efron, mặc dù đơn giản về mặt số học và tương đối đơn giản để giải thích, nhưng lại gây tranh cãi một cách đáng ngạc nhiên. Để hiểu các điểm mạnh, hạn chế và phần mở rộng của bootstrap phi tham số chung hoặc vườn, trước tiên chúng ta nên tóm tắt lý luận cơ bản

      1. Để đơn giản, giả sử bạn có một tập hợp (n) quan sát mà từ đó bạn đã tính toán một số thống kê (
        Bootstrapping tham số là gì?
        ), mà bạn không có công thức để ước tính sai số chuẩn, nhưng .
      2. Bạn không thể giả định một cách hợp lý rằng mẫu của bạn (hoặc thống kê mẫu của bạn) đại diện cho một phân bố tần số đã biết, nhưng có thể cho rằng nó phản ánh đầy đủ dân số rộng hơn mà nó được rút ra
      3. Sử dụng mẫu của bạn làm mô hình dân số của nó, bạn lấy B mẫu của n quan sát (có thay thế), từ đó bạn tính toán ước tính bootstrap B (trình cắm thêm) cho thống kê mẫu của bạn. - Điều này đôi khi được gọi là một bootstrap cơ bản
      4. Giả sử các thống kê bootstrap này thay đổi theo cách tương tự với thống kê mẫu của bạn, khi thu được tương tự, thì 95% thống kê bootstrap điển hình nhất đó sẽ có giới hạn tin cậy 95% kèm theo tham số dân số, Θ - trong đó thống kê mẫu của bạn là tốt nhất . - Ngược lại, 95% ước tính bootstrap của bạn sẽ nằm trong giới hạn độ tin cậy 95% về thống kê mẫu của bạn

      Là một xấp xỉ đầu tiên thô và sẵn sàng, ước tính khoảng này có vẻ đủ chấp nhận được, thật không may, nó che giấu một số giả định quan trọng - không phải tất cả đều hợp lý

      1. Giới hạn tin cậy 2 phía thông thường giả sử thống kê của bạn được phân phối đều đặn và đối xứng
      2. Họ cũng cho rằng số liệu thống kê là không thiên vị và đồng nhất
      3. Bởi vì tính quy tắc là một chất lượng tiệm cận, các khoảng được tính từ các mẫu hữu hạn quá hẹp - và luôn bị che giấu

      Vì những giả định này đặt ra một số vấn đề, chúng ta hãy xem xét chúng chi tiết hơn.

      1. Hàm chuẩn hóa chưa biết
      2. Bởi vì chúng được thiết kế cho vũ trụ bình thường có tham số, nên giới hạn độ tin cậy 95% cho 2 mặt thông thường giả định rằng số liệu thống kê mẫu của bạn được phân phối bình thường - hoặc một phép biến đổi chuẩn hóa đã được áp dụng. Biến đổi chuẩn hóa có thể được áp dụng cho các quan sát hoặc cho chính thống kê - trong trường hợp đó f[

        Bootstrapping tham số là gì?
        *] là chuẩn tắc - và f là hàm chuẩn hóa. Quan trọng là, người ta cho rằng f (bất kể nó có thể là gì) không làm thay đổi thứ hạng của các ước tính của bạn. Khoảng tin cậy được ước tính theo các giả định đó được mô tả là biến đổi tôn trọng.

        Ví dụ: tập hợp biểu đồ bên dưới hiển thị các bản phân phối tích lũy của ( B = ) 100 phương tiện bootstrap, có và không có phép biến đổi chuẩn hóa thích hợp. Ước tính được quan sát (

        Bootstrapping tham số là gì?
        ) có màu tím, nhưng 5% cao nhất và thấp nhất trong số các ước tính này có màu cam. Hình chữ nhật màu xám bao quanh 90% ước tính bootstrap trung tâm, được hiển thị bằng màu xanh lá cây - khoảng tin cậy phi tham số 90% ước tính. Các đường cong có màu xanh dương là các phân phối chuẩn tích lũy, phù hợp với các ước tính bootstrap đã chuyển đổi và chưa chuyển đổi của chúng tôi.

    {Quả sung. 1}

    Bootstrapping tham số là gì?
        Ngược lại, bạn thực sự không cần phải tìm phép biến đổi chuẩn hóa thích hợp để có được các khoảng tin cậy này - miễn là có thể lập luận rằng có thể tồn tại một hàm thay đổi quy mô phù hợp. Thông thường, nó đơn giản là không được xem xét - nhưng trong một số tình huống, chẳng hạn như khi phân phối của thống kê bị sai lệch hoặc rời rạc, thì giả định này rõ ràng đã bị vi phạm. Điều này gây ra vấn đề cho người sử dụng các công cụ ước tính khả năng tối đa khác nhau (bao gồm cả công cụ ước tính L), phương tiện của các mẫu nhỏ của các quần thể bị ràng buộc chặt chẽ, tỷ lệ của các mẫu nhỏ và lượng tử - bao gồm giá trị trung bình và giá trị tối đa. Do đó, trong thực tế, nếu bạn có thể tìm thấy một phép biến đổi chuẩn hóa, tốt nhất là sử dụng nó

        Một hệ quả ít rõ ràng hơn của dòng lập luận này được tiết lộ khi chúng tôi đánh giá giới hạn độ tin cậy bằng phép thử đảo ngược. Trong tình huống đó, hóa ra là nếu giả định khác đối với các khoảng phân vị đơn giản được đáp ứng (đặc biệt là phương sai thay đổi đồng nhất) thì bất kỳ sai lệch nào trong thống kê đều tạo ra kết quả ngược lại đối với các giới hạn tin cậy.

        Bootstrapping tham số là gì?
        Do đó, Hall đã mô tả các giới hạn phần trăm đơn giản là 'ngược' và đề xuất rằng chúng nên được đảo ngược. Sau đó, anh ấy đã kết hợp điểm này với điểm trước đó của chúng tôi về phạm vi bảo hiểm - tạo ra câu trích dẫn đáng nhớ này.

        "Việc sử dụng điểm tới hạn của phương pháp phần trăm tương đương với việc tra cứu ngược các bảng [thống kê] sai. "
         
        P. Hội trường (1988)
        So sánh lý thuyết về khoảng tin cậy bootstrap, Annals of Statistics 16, 927-953

        Do đó, giới hạn độ tin cậy của bootstrap phần trăm đơn giản cũng được mô tả là giới hạn ngược, giới hạn bootstrap không tham số, giới hạn bootstrap cơ bản hoặc tất cả quá thường xuyên, giống như giới hạn độ tin cậy của bootstrap. Để phân biệt chúng với các giới hạn bootstrap được sinh viên hóa, Hall đã mô tả các giới hạn đảo ngược của mình là kết hợp, các tác giả khác mô tả chúng là các giới hạn phần trăm của Hall hoặc các giới hạn bootstrap cơ bản hoặc đơn giản là các giới hạn tin cậy của bootstrap. Không cái nào trong số đó rất hữu ích trong việc hiểu phương pháp nào đã - hoặc nên được sử dụng. Tuy nhiên, hãy lưu ý rằng khi các lỗi tỷ lệ thuận với giá trị của công cụ ước tính, bạn có thể kết thúc với các giới hạn phần trăm đơn giản theo đúng cách. Có lẽ quan trọng hơn, trong khi phân vị đơn giản và các giới hạn của Hall có thể có phạm vi bao phủ tương tự, thì giới hạn sau cũng có thể bao gồm các giá trị không thể - chẳng hạn như tỷ lệ dưới 0

        Bootstrapping tham số là gì?
        • Trình khởi động phần trăm đơn giản đưa ra các khoảng chính xác khi thống kê đối xứng và không thiên vị, đó là phép biến đổi tôn trọng và không đề xuất các giá trị tham số không thể
        • Khi không có phép biến đổi chuẩn hóa, các khoảng đơn giản và ngược lại có thể bị che giấu nghiêm trọng khi số liệu thống kê bị sai lệch
        • Khoảng thời gian bootstrap được sinh viên hóa có xu hướng bảo thủ - nói cách khác, khoảng thời gian 2 bên quá rộng

         

      1. Hiệu chỉnh sai lệch
      2. Các giới hạn phần trăm đơn giản giả định rằng không có lỗi nhất quán trong việc tính toán các ước tính và bất kỳ lỗi nào cũng không liên quan đến giá trị của ước tính - nói cách khác là thống kê của bạn không thiên vị và đồng nhất

        Đối với một công cụ ước tính thông thường tiêu chuẩn sai lệch đồng nhất, với độ lệch b, để sửa các giới hạn bootstrap trên và dưới, bạn chỉ cần trừ 2b. Không thể áp dụng hiệu chỉnh đơn giản này nếu các ước tính bootstrap của bạn không có phân phối chuẩn chuẩn, bởi vì bạn chỉ giả định rằng chức năng chuẩn hóa cần thiết là có thể. Tuy nhiên, với điều kiện là một chức năng chuẩn hóa là hợp lý, thì có thể tìm ra tỷ lệ ước tính bootstrap tương ứng với b độ lệch chuẩn thông thường - mang lại giới hạn độ tin cậy phần trăm hiệu chỉnh sai lệch (BC)

        Phân vị đơn giản và bootstrap hiệu chỉnh sai lệch giả sử phân phối lấy mẫu là đồng nhất. Rất thường xuyên, ví dụ với các lỗi logic bất thường, phương sai tỷ lệ thuận với giá trị trung bình - trong độ tin cậy phần trăm điều chỉnh sai lệch gia tốc (ABC) giới hạn hằng số 'gia tốc', a, là một nỗ lực tham số để bù đắp cho thực tế này. Bỏ qua nền tảng lý thuyết khá lung lay của chúng, vấn đề lớn nhất với giới hạn ABC là chúng yêu cầu lấy mẫu ở giai đoạn thứ hai và một số tính toán khó sử dụng - trong khi một số phương pháp thay thế chỉ yêu cầu giai đoạn sau

        Bootstrapping tham số là gì?
        • Các khoảng phân vị đơn giản, BC và ABC đều hoạt động bằng cách áp dụng các giả định tham số cho một mô hình không tham số và đã bị chỉ trích như vậy
        • Có thể tránh được nhu cầu hiệu chỉnh kiểu ABC bằng cách áp dụng phép biến đổi ổn định phương sai - mà không cần lo lắng về việc liệu nó có chuẩn hóa công cụ ước tính của bạn hay không

         

      3. Vấn đề về tính trọng yếu
      4. Trong trường hợp thống kê quan tâm hoạt động như một loại giá trị trung bình nào đó và cỡ mẫu rất lớn, giới hạn độ tin cậy 95% của phân vị đơn giản không khác biệt nhiều so với giá trị lý thuyết của chúng. Đối với các mẫu nhỏ hơn, ngay cả khi bootstraps được phân phối bình thường, các giới hạn phần trăm đơn giản có lỗi bao phủ O[n-½], tương đương với việc sử dụng phân phối chuẩn để đánh giá thống kê phân phối t. Với điều kiện thống kê của bạn xấp xỉ bình thường (và không thiên vị), lỗi bao phủ này có thể được giảm xuống O[n−1] bằng cách sinh viên hóa từng ước tính bootstrap.

        Trong cài đặt không tham số, lỗi tiêu chuẩn của thống kê bootstrap thứ i được ước tính từ độ lệch chuẩn của, có thể là 50 hoặc 100, ước tính bootstrap giai đoạn thứ hai - thu được bằng cách lấy mẫu lại mẫu bootstrap thứ i. Đáng mừng là khi một thống kê bootstrap t được giả định là phân phối t, bởi vì nó không ảnh hưởng đến thứ hạng tương đối của thống kê, khi vị trí của các giới hạn tin cậy được tìm thấy một cách phi tham số, bạn không cần phải ước tính số bậc tự do

        Tuy nhiên, mặc dù t bootstrap được sinh viên hóa có thể tốt hơn về mặt lý thuyết, nhưng trên thực tế, nó có một số vấn đề quan trọng

        1. Giới hạn tin cậy có thể bao gồm các giá trị tham số không thể
        2. Các lựa chọn không may mắn của các giá trị mẫu có thể tạo ra các khoảng thời gian dài vô hạn hoặc bằng 0
        3. Khi được tính toán từ các mẫu dữ liệu thực vừa phải, trung bình, các khoảng bootstrap t quá rộng - và bảo thủ
        4. Đối với các công cụ ước tính tiếp cận điểm mấu chốt rất chậm, các giới hạn phần trăm đơn giản có thể có lỗi bao phủ nhỏ hơn

        Cũng lưu ý rằng, trong nhiều tình huống mẫu nhỏ, việc ổn định phương sai không làm giảm mức độ che phủ của các khoảng sinh viên

       

    • Khoảng 2 bên thay thế
    • Bất chấp sự biện minh lý thuyết của chúng, các công cụ ước tính bootstrap được sinh viên hóa có một số vấn đề thực tế và lý thuyết - đặc biệt khi được sử dụng cho các mẫu nhỏ nơi các ước tính bị sai lệch. Một vấn đề là, khi độ dài khoảng thời gian có phân phối lệch, độ dài khoảng thời gian trung bình không liên quan đến lỗi bao phủ. Tuy nhiên, trong nhiều tình huống, các ước tính bootstrap được sinh viên hóa có phạm vi bảo hiểm vừa phải và khoảng trung bình lớn bất hợp lý. Một cách để giải quyết một hoặc cả hai vấn đề này là sửa đổi các tiêu chí theo đó các điểm tới hạn cho khoảng tin cậy được xác định

      • Khoảng cách đuôi bằng nhau

      Cách thông thường để chọn các điểm tới hạn cho khoảng tin cậy 2 phía (chẳng hạn như của Efron ) là để cả hai đuôi sử dụng cùng xác suất α/2. Nói cách khác, P[L > Θ] = P[U < Θ] = α/2

      Bootstrapping tham số là gì?

    Hall đã đề xuất hai lựa chọn thay thế

    1. khoảng thời gian ngắn nhất
    2. Thay vì có α/2 ở mỗi đuôi, bạn chọn các điểm tới hạn để có được khoảng thời gian ngắn nhất để có xác suất cuối đuôi kết hợp là α. Nói cách khác, trong khi P[L > Θ] + P[U < Θ] = α, bạn sắp xếp các giới hạn sao cho khoảng (U − L) càng nhỏ càng tốt

      Trong một số trường hợp, điều này tạo ra lỗi bao phủ 2 phía tương tự, nhưng khoảng thời gian ngắn hơn so với phương pháp đuôi bằng nhau. Đối với thống kê đơn phương, khoảng thời gian ngắn nhất tương đương với khoảng tin cậy dựa trên khả năng. Tuy nhiên, khi phân phối bị lệch nhiều, khoảng thời gian ngắn nhất là khoảng thời gian một phía

    3. khoảng đối xứng
    4. Các giá trị tới hạn đối với những giá trị này cũng có xác suất cuối cùng kết hợp là α, nhưng giới hạn tin cậy trên và dưới của chúng có cùng độ dài, vì vậy

      Bootstrapping tham số là gì?
      −L = U−
      Bootstrapping tham số là gì?
      = c. In other words, P[|
      Bootstrapping tham số là gì?
      −Θ. > c] = a.

      Khi áp dụng cho các phân phối có tính bất đối xứng cao, các khoảng đối xứng có thể có cả độ dài ngắn hơn và sai số bao phủ nhỏ hơn so với các khoảng bằng nhau. Mặc dù đây là những khoảng thời gian ít tính toán hơn nhiều so với các khoảng thời gian được sinh viên hóa, nhưng chúng vẫn chưa phổ biến lắm. Ngoài ra, nếu

      Bootstrapping tham số là gì?
      ' là mấu chốt và trơn tru, thì các khoảng thời gian khởi động phân vị-t đối xứng có thể có lỗi bao phủ chỉ bằng O[n−2]. Một lần nữa, nếu thống kê quá sai lệch, khoảng này sẽ giảm xuống khoảng 1 phía hoặc kèm theo các giá trị tham số không thể.

      Tuy nhiên, nếu các công cụ ước tính được phân phối đối xứng, các phương pháp được liệt kê ở trên sẽ cho kết quả tương tự. Tập hợp biểu đồ bên dưới so sánh kết quả của việc áp dụng ba tiêu chí này với phân phối có độ lệch vừa phải, trong đó

      Bootstrapping tham số là gì?
      là không thiên vị.

    {Quả sung. 2}

    Bootstrapping tham số là gì?

        Một mối nguy hiểm khi sử dụng các phương án thay thế này là độc giả của bạn có thể cho rằng chúng là ước lượng của cùng một khoảng thời gian. Họ cũng có thể đưa ra kết quả sai lệch khi các ước tính bị sai lệch nhiều hơn - hoặc được thực hiện một cách mạnh mẽ

       

    1. Khởi động tham số
      •  
      • Trong khi các phương thức khởi động không theo tham số không đưa ra giả định nào về cách phân phối các quan sát của bạn và lấy mẫu lại mẫu ban đầu của bạn, thì các phương thức khởi động theo tham số sẽ lấy mẫu lại một hàm phân phối đã biết, có các tham số được ước tính từ mẫu của bạn
      • Các ước tính bootstrap này được sử dụng để đính kèm các giới hạn tin cậy không theo tham số - hoặc mô hình tham số thứ hai được trang bị bằng cách sử dụng các tham số được ước tính từ phân phối của các ước tính bootstrap, từ đó thu được các giới hạn tin cậy theo phương pháp phân tích

      Những ưu điểm và nhược điểm của phương pháp này, so với bootstrapping không tham số, có thể được tóm tắt như sau

      • Trong bootstrap không tham số, các mẫu được rút ra từ một tập hợp n quan sát rời rạc. Đây có thể là một bất lợi nghiêm trọng đối với các cỡ mẫu nhỏ vì cấu trúc mịn giả trong mẫu ban đầu, nhưng không có trong quần thể được lấy mẫu, có thể được tái tạo một cách trung thực trong dữ liệu mô phỏng

        Một mối quan tâm khác là do các mẫu nhỏ chỉ có một vài giá trị, bao phủ một phạm vi hạn chế, các mẫu bootstrap không tham số đánh giá thấp mức độ biến đổi trong tổng thể mà bạn đã lấy mẫu ban đầu. Kết quả là, các nhà thống kê thường xem các mẫu từ 10 trở xuống là quá nhỏ để khởi động phi tham số đáng tin cậy.

        Các mẫu nhỏ truyền tải ít thông tin đáng tin cậy về các thời điểm cao hơn của hàm phân bố dân số - trong trường hợp đó, một hàm tương đối đơn giản có thể là đủ

      • Mặc dù bootstrap theo tham số cung cấp nhiều năng lượng hơn so với bootstrap không theo tham số, nhưng nó làm như vậy trên cơ sở lựa chọn mô hình tùy ý vốn có. Trong khi phân phối tích lũy của các mẫu thậm chí khá nhỏ ít sai lệch so với phân phối tổng thể của chúng, thì có thể không dễ dàng để chọn hàm toán học phù hợp nhất một cách tiên nghiệm.

        Các công cụ ước tính khả năng tối đa thường được sử dụng để khởi động tham số mặc dù thực tế là tiêu chí này gần như luôn dựa trên hành vi mẫu lớn của chúng

        Việc chọn một cấu trúc sai số tham số thích hợp cho một thống kê dựa trên các mẫu nhỏ có thể khó giải thích. Số liệu thống kê Bootstrap t đưa ra một vấn đề bổ sung, một phần là do các vấn đề trong việc ước tính các lỗi tiêu chuẩn một cách phân tích, một phần là do những khó khăn trong việc tìm ra một số bậc tự do phù hợp cho phân phối trục của bạn (được cho là, nhưng thường dựa trên mẫu lớn)

      Vì vậy, mặc dù bootstrapping tham số có thể tương đối đơn giản để thực hiện và có thể được sử dụng để xây dựng khoảng tin cậy cho trung bình mẫu của các mẫu nhỏ, các hàm phân phối bootstrap và hàm ước tính thường rất khác nhau. Ngoài ra, giới hạn độ tin cậy có thể bao gồm các giá trị tham số không hợp lệ và lỗi bao phủ không tốt hơn các khoảng không tham số

      Thật khó hiểu, trong khi bootstrap tham số đôi khi được mô tả như một bootstrap cơ bản, thì phần dư lấy mẫu lại đôi khi được gọi là 'bán tham số' - cũng được sử dụng để mô tả các bootstrap mẫu đảo ngược thử nghiệm và làm mịn. Lấy mẫu lại phần dư được sử dụng phổ biến nhất để thu được khoảng tin cậy bootstrap cho các hệ số hồi quy, ví dụ như trong hồi quy phi tham số

       

    2. Khoảng thời gian bootstrap được làm mịn
    3. Bootstrapping không tham số không hoạt động tốt đối với các công cụ ước tính rời rạc như trung bình. Một cách để giải quyết các vấn đề về cấu trúc mịn giả và biến thể bị đánh giá thấp, để tránh phù hợp với phân phối được chọn tùy ý, là làm trơn phân phối lấy mẫu được lấy mẫu lại bằng bootstrapping. (Đối với số liệu thống kê bootstrap t, các mẫu ở giai đoạn thứ hai được làm nhẵn, theo cách tương tự. ) Chúng tôi đã khám phá làm mịn Gaussian để hiển thị phân phối tần số trong Bài 3, nhưng hãy để chúng tôi tóm tắt các vấn đề chính

      Làm mịn Gaussian bằng cách sử dụng mật độ xác suất trung bình tương đương với việc 'xáo trộn' một tập hợp các quan sát để tránh các ràng buộc, do đó, trong cài đặt bootstrap, một lỗi ngẫu nhiên nhỏ được thêm vào mỗi quan sát khi lấy mẫu lại

      Một phân phối chuẩn là một trong những hàm lỗi làm mịn phổ biến nhất - và được gọi là Hạt nhân Gaussian.

      Bootstrapping tham số là gì?
      Sự khác biệt giữa làm mịn Gaussian và điều chỉnh phân phối Gaussian là, giống như đường trung bình động, hàm lỗi được căn giữa trên từng giá trị riêng lẻ của Y (vì vậy lỗi trung bình bằng 0). Một lần nữa, giống như đường trung bình động, tham số quan trọng xác định mức độ làm mịn là kích thước cửa sổ - hoặc băng thông. Trong trường hợp hàm làm mịn Gaussian, băng thông là độ lệch chuẩn của hàm lỗi làm mịn.

      Mặc dù có sẵn các hạt nhân khác, chẳng hạn như Epanechnikov, đối với hầu hết các ứng dụng, việc lựa chọn băng thông là quan trọng hơn. Nếu hạt nhân Gaussian được sử dụng, ước tính 'cắm vào' của tham số làm mịn, h, có thể được ước tính từ mỗi mẫu bootstrap - trong đó h = 1. 06 σ n−1/5. Biểu đồ bên dưới cho thấy kết quả của việc áp dụng làm mịn Gaussian cho (n=) 10 quan sát, sử dụng 3 giá trị khác nhau của h

    {Quả sung. 3}

    Bootstrapping tham số là gì?

      Làm mịn Gaussian rõ ràng hoạt động tốt nhất cho các bản phân phối bình thường không theo phương thức. Đối với các bản phân phối cực kỳ nhọn hoặc sai lệch nặng nề, phần bổ trợ này ước tính quá mức - mang lại một bản phân phối quá đối xứng, không theo phương thức. Ngược lại, nếu h rất nhỏ thì phân phối được làm mịn và mỗi quan sát được thay thế bằng chế độ bình thường riêng của nó

      Bootstrapping tham số là gì?
      Bootstrapping được làm mịn có 3 tác dụng quan trọng
      • Nếu một chức năng làm mịn thích hợp được chọn, lỗi bao phủ có thể giảm tối đa một đơn hàng
      • Không giống như đường trung bình động, hàm làm mịn Gaussian mở rộng, thay vì cắt bớt các phần đuôi
      • Làm mịn làm tăng phương sai của số liệu thống kê bootstrap - nhưng điều này có thể được bù đắp bằng cách sử dụng khoảng tin cậy ngắn nhất.

      Một nhược điểm của kiểu làm mịn này là nó có thể tạo ra các giá trị không thể, chẳng hạn như các giá trị nằm bên trái của trục Y ở trên. Ngoài ra, ngoài vấn đề chọn hạt nhân làm mịn tốt nhất, hầu hết các công thức băng thông đều sử dụng phương sai mẫu hoặc phương sai mẫu bootstrap

       

      Bootstrapping tham số là gì?

    1. Khoảng thời gian thử nghiệm-đảo ngược
    2. Về nguyên tắc, đây có thể là tham số, không tham số hoặc bán tham số - tùy thuộc vào cách bạn ước tính phân phối giá trị được khởi động và phân phối thống kê

      Các giới hạn đảo ngược kiểm tra khai thác mối quan hệ cơ bản giữa các kiểm tra và giới hạn độ tin cậy và có thể được sử dụng để xây dựng các biểu đồ giá trị P hoặc để ước tính sức mạnh của các kiểm tra

        Hãy nhớ rằng, không giống như kiểm định giả thuyết không thông thường, các kiểm định này không giả định giả thuyết không là đúng, nhưng một loạt các giả thuyết không được kiểm tra - được thiết lập bởi các giá trị có thể có của Θ

      Các khoảng thời gian đảo ngược thử nghiệm đôi khi được mô tả là bán tham số vì đó không phải là các quan sát ban đầu được lấy mẫu lại mà là một mẫu đã sửa đổi (đã dịch chuyển). Giới hạn độ tin cậy theo hoán vị

      Bootstrapping tham số là gì?
      sử dụng nguyên tắc tương tự, nhưng lấy mẫu mà không thay thế.

      Không giống như các giới hạn tin cậy 2 phía thông thường, nghịch đảo kiểm tra không giả định thống kê được phân phối đối xứng hoặc thuận lợi. Thật không may, do tính toán bổ sung liên quan và nhu cầu nội suy hoặc thuật toán tìm kiếm hiệu quả, phương pháp này thường không được sử dụng để xây dựng các khoảng

      Công việc lý thuyết cho thấy rằng các giới hạn đảo ngược thử nghiệm có lỗi bao phủ tương tự như các quy trình khác được mô tả ở trên. Tuy nhiên, khi kích thước mẫu làm cho thống kê không quan trọng, các mô hình phân tích thông thường dựa trên phần mở rộng Edgeworth là không đáng tin cậy và cách duy nhất để so sánh các kỹ thuật là bằng mô phỏng - nhưng, do các giới hạn đảo ngược thử nghiệm không phổ biến lắm nên các thuộc tính của chúng tương đối chưa được khám phá

      Ưu điểm của giới hạn độ tin cậy nghịch đảo kiểm tra là chúng dễ sử dụng và chính xác, không yêu cầu tính toán các điều khoản hiệu chỉnh phân tích, có thể được tính toán cho các ước tính được sinh viên hóa, không hoạt động bất thường đối với các giá trị alpha nhỏ và không yêu cầu

      Sự khác biệt giữa bootstrap tham số và không tham số là gì?

      Khởi động tham số

      Tham số bootstrap là gì?

      Có hai tham số phải được chọn khi thực hiện bootstrap. quy mô mẫu và số lần lặp lại quy trình cần thực hiện .

      Tại sao sử dụng bootstrap không tham số?

      Không giống như các phương pháp suy luận thống kê cổ điển, phụ thuộc vào các giả định tham số và/hoặc xấp xỉ mẫu lớn để suy luận hợp lệ, bootstrap không theo tham số sử dụng các phương pháp chuyên sâu về tính toán để cung cấp các kết quả suy luận hợp lệ trong một phạm vi rộng . .

      Các loại bootstrapping là gì?

      Hầu hết những người đã nghe nói về bootstrap chỉ nghe nói về cái gọi là bootstrap không tham số hoặc lấy mẫu lại. .
      Không tham số (lấy mẫu lại)
      Bán tham số (thêm tiếng ồn)
      Tham số (mô phỏng)