Kiểm tra python phân phối bình thường

“Hàm phân phối” của một biến ngẫu nhiên là một hàm xác định xác suất mà giá trị quan sát được của biến sẽ nằm trong một miền bất kỳ của các giá trị khả dĩ đã cho. “Phân phối chuẩn” là phân phối được sử dụng phổ biến nhất trong thống kê. Một biến có phân phối chuẩn có biểu đồ [hay “hàm mật độ”] có dạng hình chuông, chỉ có một đỉnh, không đối xứng, tiệm cận và đối xứng quanh giá trị trung bình. Các thuật ngữ kurtosis ["độ nhọn" hoặc "độ nặng của đuôi"] và độ lệch [không đối xứng xung quanh giá trị trung bình] thường được sử dụng để mô tả sự khác biệt so với tính bình thường. Trong một phân phối chuẩn, giá trị trung bình, trung vị và chế độ bằng nhau

Tất cả họ phân phối chuẩn đều có hình dạng chung giống nhau và được tham số hóa bằng giá trị trung bình và độ lệch chuẩn


2. Thống kê tham số

Thống kê tham số giả định rằng dữ liệu mẫu tuân theo phân phối xác suất dựa trên một tập hợp các tham số. Giả định phổ biến nhất là dữ liệu được phân phối bình thường. Hầu hết các phương pháp thống kê phổ biến là tham số. Mặc dù thống kê tham số được coi là mạnh hơn thống kê phi tham số, nhưng không phải lúc nào chúng cũng có thể áp dụng để phân tích tầm quan trọng của sự khác biệt. Lý do là các giả định mà chúng dựa trên không phải lúc nào cũng được đáp ứng.

– Thống kê tham số mạnh hơn đối với cùng một cỡ mẫu so với thống kê phi tham số. – Thống kê tham số sử dụng các biến liên tục, trong khi thống kê phi tham số thường sử dụng các biến rời rạc. – Nếu bạn sử dụng thống kê tham số khi dữ liệu khác xa với các giả định làm cơ sở cho thống kê tham số, thì kết quả có thể dẫn đến kết luận không chính xác. – Thống kê phi tham số thường có thể được thực hiện nhanh chóng và dễ dàng. Chúng được thiết kế cho số lượng dữ liệu nhỏ hơn, đồng thời cũng dễ hiểu và dễ giải thích hơn


3. Kiểm tra tính quy tắc trong Python

import pandas as pd
url = ['//raw.githubusercontent.com/plotly/datasets/master/monthly-milk-production-pounds.csv']
data = pd.read_csv[url, sep=',']
data.columns = ['month', 'monthly_milk_production']

Thử nghiệm Jarque-Bera

Thử nghiệm Jarque-Bera kiểm tra xem dữ liệu mẫu có độ lệch và độ nhọn phù hợp với phân phối chuẩn hay không

from scipy.stats import jarque_bera

result = [jarque_bera[data['monthly_milk_production']]]

print[f"JB statistic: {result[0]}"]
## JB statistic: 4.278200965074682
______3
## p-value: 0.11776072322104847

Nếu giá trị p ≤ 0. 05, thì chúng ta bác bỏ giả thuyết vô hiệu i. e. chúng tôi cho rằng phân phối của biến của chúng tôi là không bình thường/gaussian. Nếu giá trị p > 0. 05, thì chúng ta không thể bác bỏ giả thuyết vô hiệu i. e. chúng tôi giả sử phân phối biến của chúng tôi là bình thường/gaussian

Nhìn vào những kết quả này, chúng tôi không bác bỏ giả thuyết khống và kết luận rằng dữ liệu mẫu tuân theo phân phối chuẩn

Tuy nhiên, kiểm định Jarque-Bera hoạt động bình thường trong các mẫu lớn [thường lớn hơn 2000 quan sát] khi thống kê của nó có phân phối Chi bình phương với 2 bậc tự do]. Miễn là tập dữ liệu của chúng tôi không quá lớn, bây giờ chúng tôi cần một cách khác để kiểm tra nó

Thử nghiệm Shapiro-Wilk

Phép thử Shapiro-Wilk, được đề xuất vào năm 1965, tính toán một thống kê W để kiểm tra xem một mẫu ngẫu nhiên x1,x2,…,xn có xuất phát từ [cụ thể] một phân phối chuẩn hay không. Các giá trị nhỏ của W là bằng chứng của sự sai lệch so với tính quy tắc và điểm phần trăm cho thống kê W, thu được qua mô phỏng Monte Carlo, được tái tạo bởi Pearson và Hartley [1972, Bảng 16]. Bài kiểm tra này đã thực hiện rất tốt trong các nghiên cứu so sánh với các bài kiểm tra mức độ phù hợp khác

Thống kê W được tính như sau

W=[∑i=1naix[i]]2∑i=1n[xi−x¯]2,

trong đó x[i] là các giá trị mẫu được sắp xếp [x[1] là giá trị nhỏ nhất] và ai là các hằng số được tạo từ phương tiện, phương sai và hiệp phương sai của thống kê thứ tự của một mẫu có kích thước n từ một liên kết phân phối chuẩn

from scipy.stats import shapiro

stat, p = [shapiro[data['monthly_milk_production']]]

if p> 0.05:
  print['It is probabily a Gaussian distribution']
else:
  print['It is probably NOT a Gaussian']
## It is probably NOT a Gaussian
print[p]
## 0.0353936105966568

Nếu giá trị p ≤ 0. 05, thì chúng ta bác bỏ giả thuyết vô hiệu i. e. chúng tôi cho rằng phân phối của biến của chúng tôi là không bình thường/gaussian. Nếu giá trị p > 0. 05, thì chúng ta không thể bác bỏ giả thuyết vô hiệu i. e. chúng tôi giả sử phân phối biến của chúng tôi là bình thường/gaussian

Như chúng ta thấy, hiện tại chúng ta có kết quả trái ngược nhau trong cả hai bài kiểm tra. Chúng ta không nên dính vào một giá trị p thử nghiệm mà hãy đánh giá bức tranh toàn cảnh, số lượng mẫu… Thử nghiệm Shapiro-Wilk không được khuyến nghị với số lượng tăng [> 70] hoặc có giá trị ngoại lệ

Có một bài kiểm tra cho phân phối bình thường?

Hai phép thử nổi tiếng về tính quy tắc, đó là thử nghiệm Kolmogorov–Smirnov và phép thử Shapiro–Wilk là những phương pháp được sử dụng rộng rãi nhất . Kiểm tra tính quy tắc có thể được tiến hành trong phần mềm thống kê “SPSS” [phân tích → thống kê mô tả → khám phá → biểu đồ → biểu đồ quy tắc có kiểm tra].

Shapiro có nghĩa là gì

Thử nghiệm Shapiro–Wilk về cơ bản là một bài kiểm tra mức độ phù hợp. Nghĩa là, nó kiểm tra mức độ phù hợp của dữ liệu mẫu với phân phối chuẩn . Nó thực hiện điều này bằng cách đặt hàng và chuẩn hóa mẫu [tiêu chuẩn hóa đề cập đến việc chuyển đổi dữ liệu thành phân phối với độ lệch chuẩn và trung bình].

Chủ Đề