Khoảng thời gian dự đoán trong Python là gì?

Sự không chắc chắn cho các dự đoán đơn lẻ là một vấn đề quan trọng trong học máy hiện nay, đặc biệt khi một dự đoán sai có thể mang lại hậu quả xấu. Để tính toán độ không đảm bảo trong một dự đoán, chúng ta có thể sử dụng các khoảng dự đoán. Khoảng thời gian dự đoán là ước tính khoảng thời gian mà quan sát sẽ rơi vào, với một mức độ tin cậy nhất định

Có nhiều kỹ thuật khác nhau được sử dụng để ước tính khoảng thời gian dự đoán. Bỏ học Monte Carlo, Ước tính phương sai trung bình, Hồi quy lượng tử, trong số những thứ khác. Các phương pháp này thường chỉ hoạt động đối với các trường hợp hồi quy và tạo ra các khoảng rộng khi đạt được độ tin cậy mong muốn. Mục tiêu là tạo ra khoảng cách hẹp nhất có thể trong khi đạt được phạm vi bao phủ mong muốn

Gói không tuân thủ [1] là gói Python thực hiện dự đoán tuân thủ. Mặc dù sử dụng gói này tương đối dễ dàng, nhưng lý thuyết đằng sau thì không. Ở đây chúng ta sẽ xem xét một lời giải thích trực quan về thuật toán được sử dụng để ước tính các khoảng dự đoán, cho cả trường hợp hồi quy và phân loại [2]

hồi quy
  1. Dữ liệu phải được chia thành 2. tập huấn luyện [Zt] và tập hiệu chỉnh [Zc], trong đó. Zc. = q [số lượng quan sát trong bộ hiệu chuẩn]. Điều rất quan trọng là phải xác minh rằng dữ liệu hiệu chuẩn khác với dữ liệu đào tạo
  2. Sau khi tách dữ liệu, chúng ta phải chọn một mô hình cơ bản [h]. Mô hình này được sử dụng để tạo dự đoán về giá trị mục tiêu
  3. Mô hình cơ bản được đào tạo với tập huấn luyện Zt
  4. Sau đó, chúng ta phải xác định độ đo không phù hợp f[z]. Thước đo này là một chức năng cho biết mức độ “hiếm” của một quan sát so với phần còn lại của dữ liệu. Thông thường, chức năng này lấy dự đoán của mô hình cơ bản, e. g. f[x, y] =. y - h[x]
  5. Với phép đo sự không phù hợp, chúng tôi tính điểm không phù hợp trên dữ liệu hiệu chuẩn. Các điểm hiệu chuẩn này được sắp xếp theo thứ tự giảm dần và được lưu trữ

6. Chúng tôi chọn mức độ tin cậy hoặc phạm vi mong muốn [1 - 𝛆]

7. Tiếp theo, chúng ta cần tìm s, chỉ số của điểm không phù hợp theo phần trăm [1 - 𝛆], 𝛼ₛ

Sắp xếp điểm không phù hợp hiệu chuẩn

8. Khoảng dự đoán cho đầu vào mới x là 𝛤 = h[x] ± 𝛼ₛ

phân loại
  1. Cũng giống như đối với dữ liệu hồi quy, tập dữ liệu được chia thành 2. tập huấn luyện [Zt] và hiệu chuẩn [Zc], trong đó. Zt. = q
  2. Sau khi tách dữ liệu, phải chọn mô hình cơ sở [h]
  3. Mô hình cơ bản h được huấn luyện bằng cách sử dụng dữ liệu huấn luyện Zt
  4. Sau đó, chúng ta phải xác định biện pháp đo lường sự không phù hợp, e. g. f[z]= y - ℙ[y. x], trong đó ℙ[y. x] là xác suất có điều kiện của lớp y, với đầu vào [x] và mô hình [h]
  5. Với thước đo sự không phù hợp đã xác định, chúng tôi tính điểm số không phù hợp trên dữ liệu hiệu chuẩn. Những điểm số này được lưu trữ và sử dụng để ước tính mật độ xác suất của chúng

6. Đối với đầu vào mới x, chúng tôi tính toán điểm không phù hợp của đầu vào đó

7. Đối với mọi lớp khả thi ỹ ∈ Y, giá trị p được tính

8. Chúng tôi chọn mức độ tin cậy mong muốn [1 - 𝛆]

9. Khoảng dự đoán cho x được tuân theo bởi một tập hợp tất cả các lớp có giá trị p lớn hơn 𝛆

Ví dụ

Bây giờ chúng ta đã hiểu ý tưởng chung về quy trình được thực hiện bằng dự đoán tuân thủ, chúng ta có thể xem một ví dụ về cách sử dụng nó với Python

Đối với ví dụ này, chúng tôi sẽ sử dụng bộ dữ liệu phí bảo hiểm y tế. Ý tưởng là dự đoán phí bảo hiểm dựa trên các yếu tố như khu vực người đó sống, giới tính của họ, số con họ có, v.v.

Đầu tiên, chúng ta phải chia dữ liệu thành các tập huấn luyện, hiệu chuẩn và kiểm tra

Bây giờ, chúng ta có thể sử dụng nonconformist để ước tính khoảng thời gian dự đoán. Độ bao phủ mong muốn cho khoảng thời gian dự đoán, trong trường hợp này là 80%

Như đã thấy trong đoạn mã trước, việc sử dụng gói không tuân thủ rất đơn giản

Với khoảng thời gian dự đoán, chúng tôi có thể ước tính phạm vi phí khi có nhiều sự không chắc chắn hơn

Khoảng thời gian dự đoán cho phí bảo hiểm y tế

Trong hình trước, chúng ta có thể thấy rằng khi phí bảo hiểm nằm trong khoảng từ 15.000 đến 40.000, khoảng thời gian sẽ rộng hơn và đôi khi nó bỏ lỡ giá trị thực. Điều này có nghĩa là trong phạm vi phí bảo hiểm này có nhiều sự không chắc chắn hơn

Điều quan trọng là phải xác thực rằng phạm vi bảo hiểm thực tế gần với phạm vi mong muốn. Để có được phạm vi bảo hiểm, chúng ta có thể sử dụng PICP [xác suất bảo hiểm khoảng thời gian dự đoán], tôi. e, phạm vi bao phủ theo kinh nghiệm của khoảng thời gian trên tập kiểm tra

Đối với ví dụ này, chúng tôi nhận được PICP = 0. 8222 = 82. 22%, cao hơn mức 80% mong muốn khi dự đoán khoảng thời gian

Phần kết luận

Sử dụng phương pháp không tuân thủ là một giải pháp thay thế tốt cho các kỹ thuật khác [Hồi quy lượng tử, Bỏ qua Monte Carlo và Ước tính phương sai trung bình] để ước tính các khoảng thời gian dự đoán. Thông thường, các khoảng thời gian được tạo bằng gói này có phạm vi bảo hiểm tốt gần đúng với mong muốn, trừ khi dữ liệu có giá trị ngoại lai. Một trong những lợi thế lớn của việc sử dụng nonconformist là phạm vi bao phủ mong muốn được xác định khi dự đoán, nghĩa là chúng ta chỉ cần điều chỉnh và hiệu chỉnh mô hình cơ bản một lần. Một lợi ích khác của gói này là nó hoạt động cho cả dữ liệu hồi quy và phân loại

Điều quan trọng cần lưu ý là phạm vi bao phủ của khoảng phụ thuộc vào độ chính xác của mô hình cơ bản. Nếu dự đoán của mô hình không sát với dữ liệu thực, thì khoảng thời gian dự đoán sẽ không thể đạt được phạm vi bao phủ mong muốn. Đây là lý do tại sao việc chọn một mô hình cơ sở tốt là một bước quan trọng để đạt được kết quả tối ưu. Mặt khác, nếu mô hình cơ bản được chọn là chính xác, hầu như không cần điều chỉnh tham số

Độ rộng của các khoảng dự đoán là một đại diện của sự không chắc chắn. Khoảng cách càng rộng, chúng ta càng không chắc chắn về độ chính xác của dự đoán. Mặt khác, nếu khoảng cách tương đối hẹp, chúng ta có thể khá chắc chắn về dự đoán của mình.

Người giới thiệu

[1] Người không tuân thủ, https. //github. com/donlnz/nonconformist/blob/master/README. ipynb

[2] Giới thiệu về dự đoán phù hợp, Henrik Linusson, Phòng. Công nghệ thông tin, Đại học Borås, Thụy Điển, https. //cml. rhul. AC. uk/copa2017/presentations/CP_Tutorial_2017. pdf

Ý nghĩa của một khoảng thời gian dự đoán là gì?

Khoảng thời gian dự đoán thể hiện sự không chắc chắn của việc dự đoán giá trị của một quan sát trong tương lai hoặc một số lượng cố định của nhiều quan sát trong tương lai từ một tổng thể dựa trên sự phân bố hoặc phân tán của một số quan sát trước đó

Khoảng thời gian dự đoán 95% có nghĩa là gì?

Khoảng thời gian dự đoán là một phạm vi các giá trị có khả năng chứa giá trị của một quan sát mới với các cài đặt được chỉ định của các yếu tố dự đoán. Ví dụ: đối với khoảng dự đoán 95% là [5 10], bạn có thể tin tưởng 95% rằng quan sát mới tiếp theo sẽ nằm trong khoảng này

Máy học khoảng thời gian dự đoán là gì?

Khoảng thời gian dự đoán cung cấp thước đo độ không đảm bảo cho các dự đoán về vấn đề hồi quy . Ví dụ: khoảng thời gian dự đoán 95% chỉ ra rằng 95 trong số 100 lần, giá trị thực sẽ nằm giữa giá trị dưới và giá trị trên của phạm vi.

Làm cách nào để tính khoảng tin cậy của dự đoán trong Python?

Máy tính khoảng tin cậy trong Python .
nhập numpy dưới dạng np. .
x = np. ngẫu nhiên. bình thường [kích thước = 100].
m = x. bần tiện[].
t_crit = np. cơ bụng [t. ppf[[1-độ tin cậy]/2,dof]].
[m-s*t_crit/np. sqrt[len[x]], m+s*t_crit/np. sqrt[len[x]]] # [-0. 14017768797464097, 0. 259793719043611]

Chủ Đề