Hướng dẫn what is chi2 in python? - chi2 trong python là gì?

Hướng dẫn hoàn chỉnh của người mới bắt đầu để thực hiện kiểm tra chi bình phương (với mã!)

Ảnh của Kalen Emsley trên unplash

Trong bài viết này, tôi sẽ giới thiệu cơ bản của bài kiểm tra Chi-vuông (χ2), một phương pháp thống kê để đưa ra suy luận về phân phối của một biến hay quyết định xem có mối quan hệ nào có tồn tại giữa hai biến số của dân số hay không. Suy luận dựa trên đường cong phân phối χ2, phụ thuộc vào số lượng độ tự do D.F.

Hình 1: Phân phối chi bình phương với mức độ tự do khác nhau [1]

Đường cong phân phối χ2 được giảm giá phải và khi số độ tự do trở nên lớn hơn, đường cong χ2 sẽ giống với phân phối bình thường hơn.

A: Bài kiểm tra độc lập 2

Nó được sử dụng để quyết định liệu có mối quan hệ có tồn tại giữa hai biến số của dân số hay không. Hữu ích khi phân tích kết quả khảo sát của 2 biến phân loại.

  • H₀: Hai biến phân loại không có mối quan hệ: Có mối quan hệ giữa hai biến phân loạino relationship
    H₁: There is a relationship between two categorical variables
  • Số mức độ tự do của Thống kê kiểm tra độc lập χ2: D.F. = (# hàng -1) *(# cột -1)
    d.f. = (# rows -1) *(#columns-1)
Bảng 1: Bảng dự phòng RXC cho 2 biến phân loạirxc Contingency Table for 2 Categorical Variable
  • Nếu H₀ là đúng, mỗi ô của giá trị trong bảng dự phòng ở trên sẽ chứa tần số lý thuyết hoặc dự kiến ​​Eᵢⱼ, trái ngược với giá trị quan sát được cho mỗi ô. expected frequency Eᵢⱼ, as opposed to the observed value Oᵢⱼ for each cell.
Hình 2: Xuất phát tần số dự kiến
  • Thống kê kiểm tra: So sánh sự khác biệt giữa Oᵢⱼ & Eᵢⱼ dẫn đến thống kê χ2, với [(R-1) X (C-1)] mức độ tự do, trong đóOᵢⱼ & Eᵢⱼ leads to the χ2 statistic, with [(r-1) x (c-1)] degrees of freedom, where
Trên tất cả các ô trong bảng dự phòng RXCALL the cells in the rxc contingency table

Bảng dưới đây là một cuộc thăm dò ý kiến ​​xuất hiện các phản ứng chung với 2 biến phân loại: những người trong các danh mục từ xem xét từ 18 trận29, 30 Ném44, 45 Ném64 và> 65 năm, và liên kết chính trị của họ, đó là một người bảo thủ, bảo thủ, bảo thủ, bảo thủ, Chủ nghĩa xã hội của người Viking và người khác. Có bằng chứng nào về mối quan hệ giữa nhóm tuổi và liên kết chính trị của họ, ở mức đáng kể 5%?

Bảng 2: Khảo sát thăm dò thoát [2]

Theo năm bước quá trình kiểm tra giả thuyết: H₀: Cho dù nhóm tuổi và liên kết chính trị của họ có độc lập hay không, tức là không có mối quan hệ nào: Cho dù nhóm tuổi và liên kết chính trị của họ có phụ thuộc hay không, tức là ∃ Một mối quan hệ α = 0,05 theo dõi χ2 Thống kê kiểm tra độc lập:
H₀: whether age group and their political affiliation are independent, i.e. no relationship
H₁: whether age group and their political affiliation are dependent, i.e. ∃ a relationship
α = 0.05
Following χ2 independence test statistics:

Kết luận: Chúng tôi có đủ bằng chứng cho thấy có mối liên hệ giữa nhóm tuổi và liên kết chính trị của họ, ở mức ý nghĩa 5%.

B: Bài kiểm tra tốt về độ phù hợp

Nó được sử dụng để thực hiện suy luận về phân phối của một biến.

  • H₀: Biến có phân phối được chỉ định, bình thường: biến không có phân phối được chỉ định, không bình thường
    H₁: The variable does not have the specified distribution, not normal
  • Số mức độ tự do của Thống kê kiểm tra mức độ phù hợp χ2: D.F. = (# Thể loại -1)
    d.f. = (# categories -1)
  • Nó so sánh các tần số quan sát O của mẫu với tần số dự kiến ​​E.E = xác suất của sự kiện * Tổng kích thước mẫuobserved frequencies O of a sample with the expected frequencies E.
    E = probability of the event * total sample size

Bảng dưới đây hiển thị hơn 44 triệu người bỏ phiếu cho cuộc bầu cử liên bang Đức 2013. 41,5% phiếu bầu của Đức cho Liên minh Dân chủ Kitô giáo (CDU), 25,7% cho Đảng Dân chủ Xã hội (SPD) và 32,8% còn lại như những người khác.

Giả sử nhà nghiên cứu lấy một mẫu ngẫu nhiên và chọn 123 sinh viên của Fu Berlin về liên kết đảng của họ. Trong số đó, 57 phiếu bầu cho CDU, 26 phiếu bầu cho SPD và 40 cho những người khác. Những con số này tương ứng với các tần số quan sát được.observed frequencies.

Bảng 3: Cuộc bầu cử liên bang Đức 2013 [3]

Theo năm bước quá trình kiểm tra giả thuyết: H₀: Biến có phân phối được chỉ định, tức là tần số quan sát và dự kiến ​​là gần bằng nhau: biến không có phân phối được chỉ định, không phải :
H₀: The variable has the specified distribution, i.e. the observed and expected frequencies are roughly equal
H₁: The variable does not have the specified distribution, not normal
α = 0.05
Following χ2 Goodness-Of-Fit test statistics:

Kết luận: Chúng tôi không có đủ bằng chứng cho thấy tần số quan sát và dự kiến ​​không bằng nhau, ở mức ý nghĩa 5%.

Đề xuất đọc

Lựa chọn tính năng luôn đóng một vai trò quan trọng trong việc học máy

Hình ảnh của Vladislav Babienko

Chúng tôi luôn tự hỏi nơi kiểm tra chi bình phương là hữu ích trong việc học máy và cách kiểm tra này tạo ra sự khác biệt. Lựa chọn tính năng là một vấn đề quan trọng trong học máy, trong đó chúng tôi sẽ có một số tính năng xếp hàng và phải chọn các tính năng tốt nhất để xây dựng mô hình. Bài kiểm tra chi bình phương giúp bạn giải quyết vấn đề trong lựa chọn tính năng bằng cách kiểm tra mối quan hệ giữa các tính năng. Trong bài viết này, tôi sẽ hướng dẫn thông qua

một. Phân phối Chi-vuông.

b. Kiểm tra chi bình phương để lựa chọn tính năng

c. Kiểm tra chi bình phương sử dụng Python

Phân phối Chi-vuông

Một biến ngẫu nhiên ꭓ theo phân phối chi bình phương nếu nó có thể được viết dưới dạng một tổng các biến bình thường tiêu chuẩn bình phương.

Z1, Z2 .. là các biến bình thường tiêu chuẩn

Mức độ tự do:

Mức độ tự do đề cập đến số lượng tối đa các giá trị độc lập về mặt logic, có quyền tự do khác nhau. Nói một cách đơn giản, nó có thể được định nghĩa là tổng số quan sát trừ đi số lượng các ràng buộc độc lập áp đặt cho các quan sát.

Trong hình trên, chúng ta có thể thấy phân phối chi bình phương cho các mức độ tự do khác nhau. Chúng ta cũng có thể quan sát rằng khi mức độ tự do làm tăng phân phối chi bình phương xấp xỉ với phân phối bình thường.

Kiểm tra chi bình phương để lựa chọn tính năng

Một thử nghiệm chi bình phương được sử dụng trong các số liệu thống kê để kiểm tra tính độc lập của hai sự kiện. Với dữ liệu của hai biến, chúng ta có thể được quan sát đếm O và số lượng dự kiến ​​E. Chi-Square Biện pháp cách số đếm E và quan sát được quan sát là lệch lẫn nhau.

Hãy cùng xem xét một kịch bản mà chúng ta cần xác định mối quan hệ giữa tính năng danh mục độc lập (dự đoán) và tính năng danh mục phụ thuộc (phản hồi). Trong lựa chọn tính năng, chúng tôi nhắm đến việc chọn các tính năng phụ thuộc nhiều vào phản hồi.

Khi hai tính năng độc lập, số lượng quan sát được gần với số lượng dự kiến, do đó chúng ta sẽ có giá trị chi bình phương nhỏ hơn. Vì vậy, giá trị chi bình phương cao chỉ ra rằng giả thuyết độc lập là không chính xác. Nói một cách đơn giản, giá trị chi bình phương cao hơn, tính năng này phụ thuộc nhiều hơn vào phản hồi và nó có thể được chọn để đào tạo mô hình.

Các bước để kiểm tra chi bình phương với một ví dụ:

Hãy xem xét một bộ dữ liệu nơi chúng tôi phải xác định lý do tại sao khách hàng rời khỏi ngân hàng, hãy để thực hiện một bài kiểm tra chi bình phương cho hai biến. Giới tính của một khách hàng có các giá trị là nam/nữ như người dự đoán và thoát ra mô tả liệu khách hàng có rời ngân hàng với các giá trị có hoặc không làm phản hồi hay không. Trong thử nghiệm này, chúng tôi sẽ kiểm tra có bất kỳ mối quan hệ nào giữa giới tính và thoát ra.Gender of a customer with values as Male/Female as the predictor and Exited describes whether a customer is leaving the bank with values Yes/No as the response. In this test we will check is there any relationship between Gender and Exited.

Các bước để thực hiện bài kiểm tra chi bình phương:

  1. Xác định giả thuyết.
  2. Xây dựng một bảng dự phòng.
  3. Tìm các giá trị dự kiến.
  4. Tính toán thống kê chi bình phương.
  5. Chấp nhận hoặc từ chối giả thuyết null.

1. Xác định giả thuyết

Giả thuyết Null (H0): Hai biến là độc lập.

Giả thuyết thay thế (H1): Hai biến không độc lập.

2. Bảng dự phòng

Một bảng hiển thị phân phối của một biến trong các hàng và một bảng khác trong các cột. Nó được sử dụng để nghiên cứu mối quan hệ giữa hai biến.

Bảng dự phòng cho các giá trị được quan sát

Mức độ tự do cho bảng dự phòng được đưa ra là (R-1) * (C-1) trong đó R, C là các hàng và cột. Ở đây df = (2 trận1) * (2 trận1) = 1.

Trong bảng trên, chúng tôi đã tìm ra tất cả các giá trị được quan sát và các bước tiếp theo của chúng tôi là tìm các giá trị dự kiến, nhận giá trị chi bình phương và kiểm tra mối quan hệ.

3. Tìm giá trị dự kiến

Dựa trên giả thuyết null rằng hai biến là độc lập. Chúng ta có thể nói nếu A, B là hai sự kiện độc lập

Hãy để tính toán giá trị dự kiến ​​cho ô đầu tiên là những người là nam giới và được rời khỏi ngân hàng.

Tính toán cho giá trị dự kiến

Tương tự, chúng tôi tính toán E2, E3, E4 và nhận các kết quả sau.

Các giá trị dự kiến

4. Tính giá trị chi bình phương

Tóm tắt các giá trị quan sát và các giá trị dự kiến ​​được tính toán thành một bảng và xác định giá trị chi bình phương.

Chúng ta có thể thấy chi bình phương được tính là 2.22 bằng cách sử dụng công thức thống kê chi bình phương.

5. Chấp nhận hoặc từ chối giả thuyết null

Với độ tin cậy 95% là alpha = 0,05, chúng tôi sẽ kiểm tra giá trị chi bình phương tính toán rơi trong vùng chấp nhận hoặc từ chối.

Có mức độ tự do = 1 (tính toán với bảng dự phòng) và alpha = 0,05 giá trị chi bình phương là 3,84.

Các giá trị chi bình phương có thể được xác định bằng bảng chi bình phương.

Phân phối chi bình phương là mặt bên phải vì sự khác biệt về quan sát và dự kiến ​​là lớn.

Trong hình trên, chúng ta có thể thấy Chi-Square từ 0 đến INF và Alpha nằm trong khoảng từ 0 đến 1 theo hướng ngược lại. Chúng tôi sẽ từ chối giả thuyết null nếu giá trị chi bình phương rơi vào vùng lỗi (alpha từ 0 đến 0,05).

Vì vậy, ở đây chúng tôi đang chấp nhận giả thuyết khống vì giá trị chi bình phương nhỏ hơn giá trị chi bình phương quan trọng.

Để kết luận hai biến là độc lập, biến giới tính không thể được chọn để đào tạo mô hình.

Giới hạn

Chi-vuông rất nhạy cảm với các tần số nhỏ trong các ô của các bảng. Nói chung, khi giá trị dự kiến ​​trong một ô của bảng nhỏ hơn 5, chi bình phương có thể dẫn đến lỗi trong kết luận.

Lưu ý: Ở đây chúng tôi đã xem xét các mẫu có kích thước 400 và đối với các mẫu lớn hơn, kết quả có thể khác nhau.ote: Here we considered samples with size 400 and for the larger samples the results may vary.

Kiểm tra chi bình phương sử dụng Python

Dưới đây là mã dưới đây, về cách thực hiện kiểm tra chi bình phương bằng Python.

Bạn cũng có thể tìm thấy điều tương tự trên GitHub.

Cho đến nay chúng ta đã học được về việc có phản ứng phân loại và dự đoán phân loại nhưng nếu chúng ta có phản hồi liên tục và dự đoán phân loại ??? Chúng tôi sẽ sử dụng ANOVA. Vui lòng kiểm tra bài viết của tôi ANOVA để lựa chọn tính năng trong học máy.

Nếu bạn tò mò tìm hiểu về các phương thức lựa chọn tính năng. Đây là bài viết sâu.

https://neptune.ai/blog/feature-selection-methods

Hy vọng bạn thích nó !!! Vui lòng bình luận về bất kỳ truy vấn hoặc đề xuất.

Chi là gì

= Chi-vuông.= Giá trị quan sát.= Giá trị dự kiến.Công thức chi bình phương là một phương pháp thống kê để so sánh hai hoặc nhiều mẫu dữ liệu.Nó được sử dụng với dữ liệu bao gồm các biến được phân phối trên các loại khác nhau và được ký hiệu là.a statistical method to compare two or more data samples. It is used with data that consist of variables distributed across various categories and is denoted by .

Chi2 được sử dụng để làm gì?

Chi-vuông là một thử nghiệm thống kê được sử dụng để kiểm tra sự khác biệt giữa các biến phân loại từ một mẫu ngẫu nhiên để đánh giá mức độ phù hợp giữa kết quả dự kiến và quan sát được.to examine the differences between categorical variables from a random sample in order to judge goodness of fit between expected and observed results.

Chi

Thống kê chi bình phương là một số duy nhất cho bạn biết sự khác biệt tồn tại giữa số lượng quan sát của bạn và số đếm bạn mong đợi nếu không có mối quan hệ nào trong dân số.how much difference exists between your observed counts and the counts you would expect if there were no relationship at all in the population.

Chi2 trong sklearn là gì?

Điểm này có thể được sử dụng để chọn các tính năng N_Features với các giá trị cao nhất cho Thống kê Chi bình phương Test từ X, chỉ chứa các tính năng không tiêu thụ như Booleans hoặc Tần sốcác lớp học., which must contain only non-negative features such as booleans or frequencies (e.g., term counts in document classification), relative to the classes.