Hướng dẫn statistical significance test in python - kiểm tra ý nghĩa thống kê trong python


Kiểm tra ý nghĩa thống kê là gì?

Trong thống kê, ý nghĩa thống kê có nghĩa là kết quả được tạo ra có lý do đằng sau nó, nó không được sản xuất ngẫu nhiên hoặc tình cờ.

SCIPY cung cấp cho chúng tôi một mô -đun gọi là scipy.stats, có chức năng thực hiện các bài kiểm tra ý nghĩa thống kê.

Dưới đây là một số kỹ thuật và từ khóa quan trọng khi thực hiện các bài kiểm tra như vậy:


Giả thuyết trong thống kê

Giả thuyết là một giả định về một tham số trong dân số.


Giả thuyết null

Nó giả định rằng quan sát không có ý nghĩa thống kê.


Giả thuyết thay thế

Nó giả định rằng các quan sát là do một số lý do.

Đó là sự thay thế cho giả thuyết null.

Example:

Để đánh giá một học sinh, chúng tôi sẽ thực hiện:

"Học sinh tệ hơn mức trung bình" - như một giả thuyết khống và:

"Học sinh tốt hơn mức trung bình" - như một giả thuyết thay thế.


Một bài kiểm tra đuôi

Khi giả thuyết của chúng tôi chỉ kiểm tra một mặt của giá trị, nó được gọi là "một bài kiểm tra đuôi".

Example:

Đối với giả thuyết null:

"Giá trị trung bình bằng K", chúng ta có thể có giả thuyết thay thế:

"Giá trị trung bình ít hơn k", hoặc:

"Giá trị trung bình lớn hơn K"


Hai bài kiểm tra đuôi

Khi giả thuyết của chúng tôi là kiểm tra cho cả hai mặt của các giá trị.

Example:

Đối với giả thuyết null:

"Giá trị trung bình bằng K", chúng ta có thể có giả thuyết thay thế:

"Giá trị trung bình ít hơn k", hoặc:

"Giá trị trung bình lớn hơn K"


Hai bài kiểm tra đuôi

Khi giả thuyết của chúng tôi là kiểm tra cho cả hai mặt của các giá trị.

Example:

"Giá trị trung bình không bằng k"

Trong trường hợp này, giá trị trung bình nhỏ hơn, hoặc lớn hơn K và cả hai bên sẽ được kiểm tra.


Giá trị alpha

Giá trị alpha là mức độ ý nghĩa.

Làm thế nào gần các thái cực, dữ liệu phải đối với giả thuyết null bị từ chối.

Nó thường được lấy là 0,01, 0,05 hoặc 0,1.



T-Test

Giá trị p

Giá trị P cho biết dữ liệu thực sự gần đến mức độ cực cao.

Giá trị p và giá trị alpha được so sánh để thiết lập ý nghĩa thống kê.

Nếu p giá trị

Các thử nghiệm t được sử dụng để xác định xem có sự bảo vệ đáng kể giữa các phương tiện của hai biến và cho chúng tôi biết nếu chúng thuộc cùng một phân phối.

Đó là một bài kiểm tra hai đuôi.
from scipy.stats import ttest_ind

Hàm ttest_ind() lấy hai mẫu có cùng kích thước và tạo ra một bộ tple của thống kê t và giá trị p.
v2 = np.random.normal(size=100)

Thí dụ

Tìm nếu các giá trị đã cho V1 và V2 từ cùng một phân phối:

Result:

  Ttest_indResult(statistic=0.40833510339674095, pvalue=0.68346891833752133)

Nhập Numpy dưới dạng NP từ scipy.stats nhập ttest_ind

v1 = np.random.nqual (size = 100) v2 = np.random.nmal (size = 100)

Nếu p giá trị

Các thử nghiệm t được sử dụng để xác định xem có sự bảo vệ đáng kể giữa các phương tiện của hai biến và cho chúng tôi biết nếu chúng thuộc cùng một phân phối.
res = ttest_ind(v1, v2).pvalue

Tìm nếu các giá trị đã cho V1 và V2 từ cùng một phân phối:

Result:

  0.68346891833752133

Nhập Numpy dưới dạng NP từ scipy.stats nhập ttest_ind


KS-Test

v1 = np.random.nqual (size = 100) v2 = np.random.nmal (size = 100)

res = ttest_ind (v1, v2)

in (res)CDF can be either a string or a callable function that returns the probability.

Hãy tự mình thử »

Nếu bạn chỉ muốn trả lại giá trị P, hãy sử dụng thuộc tính pvalue:

Nếu p giá trị

Các thử nghiệm t được sử dụng để xác định xem có sự bảo vệ đáng kể giữa các phương tiện của hai biến và cho chúng tôi biết nếu chúng thuộc cùng một phân phối.

Đó là một bài kiểm tra hai đuôi.
from scipy.stats import kstest

Hàm ttest_ind() lấy hai mẫu có cùng kích thước và tạo ra một bộ tple của thống kê t và giá trị p.

Thí dụ

Tìm nếu các giá trị đã cho V1 và V2 từ cùng một phân phối:

Result:

  KstestResult(statistic=0.047798701221956841, pvalue=0.97630967161777515)

Nhập Numpy dưới dạng NP từ scipy.stats nhập ttest_ind


v1 = np.random.nqual (size = 100) v2 = np.random.nmal (size = 100)

res = ttest_ind (v1, v2)

in (res)

  1. Hãy tự mình thử »
  2. Nếu bạn chỉ muốn trả lại giá trị P, hãy sử dụng thuộc tính pvalue:
  3. ... res = ttest_ind (v1, v2) .pvalue
  4. Kiểm tra KS được sử dụng để kiểm tra xem các giá trị được đưa ra theo phân phối.
  5. Hàm lấy giá trị để được kiểm tra và CDF làm hai tham số.
  6. CDF có thể là một chuỗi hoặc hàm có thể gọi được trả về xác suất.

Nếu p giá trị

Các thử nghiệm t được sử dụng để xác định xem có sự bảo vệ đáng kể giữa các phương tiện của hai biến và cho chúng tôi biết nếu chúng thuộc cùng một phân phối.

Đó là một bài kiểm tra hai đuôi.
from scipy.stats import describe

Hàm ttest_ind() lấy hai mẫu có cùng kích thước và tạo ra một bộ tple của thống kê t và giá trị p.
res = describe(v)

Tìm nếu các giá trị đã cho V1 và V2 từ cùng một phân phối:

Result:

  DescribeResult(
    nobs=100,
    minmax=(-2.0991855456740121, 2.1304142707414964),
    mean=0.11503747689121079,
    variance=0.99418092655064605,
    skewness=0.013953400984243667,
    kurtosis=-0.671060517912661
  )

Nhập Numpy dưới dạng NP từ scipy.stats nhập ttest_ind


v1 = np.random.nqual (size = 100) v2 = np.random.nmal (size = 100)

res = ttest_ind (v1, v2)

in (res)

Hãy tự mình thử »


Skewness:

Nếu bạn chỉ muốn trả lại giá trị P, hãy sử dụng thuộc tính pvalue:

... res = ttest_ind (v1, v2) .pvalue

Kiểm tra KS được sử dụng để kiểm tra xem các giá trị được đưa ra theo phân phối.

Hàm lấy giá trị để được kiểm tra và CDF làm hai tham số.


Kurtosis:

CDF có thể là một chuỗi hoặc hàm có thể gọi được trả về xác suất.

Nó có thể được sử dụng như một bài kiểm tra đuôi hoặc hai đuôi.

Theo mặc định, nó là hai đuôi. Chúng ta có thể vượt qua tham số thay thế như một chuỗi của một trong hai mặt, ít hơn hoặc lớn hơn.


Nếu p giá trị

Các thử nghiệm t được sử dụng để xác định xem có sự bảo vệ đáng kể giữa các phương tiện của hai biến và cho chúng tôi biết nếu chúng thuộc cùng một phân phối.

Đó là một bài kiểm tra hai đuôi.
from scipy.stats import skew, kurtosis

Hàm ttest_ind() lấy hai mẫu có cùng kích thước và tạo ra một bộ tple của thống kê t và giá trị p.

Thí dụ
print(kurtosis(v))

Result:

  0.11168446328610283
  -0.1879320563260931

Nhập Numpy dưới dạng NP từ scipy.stats nhập ttest_ind

Nếu p giá trị

Các thử nghiệm t được sử dụng để xác định xem có sự bảo vệ đáng kể giữa các phương tiện của hai biến và cho chúng tôi biết nếu chúng thuộc cùng một phân phối.

Đó là một bài kiểm tra hai đuôi.
from scipy.stats import normaltest

Hàm ttest_ind() lấy hai mẫu có cùng kích thước và tạo ra một bộ tple của thống kê t và giá trị p.

Thí dụ

Result:

  NormaltestResult(statistic=4.4783745697002848, pvalue=0.10654505998635538)

Nhập Numpy dưới dạng NP từ scipy.stats nhập ttest_ind


v1 = np.random.nqual (size = 100) v2 = np.random.nmal (size = 100)

Exercise:

res = ttest_ind (v1, v2)

import numpy as np
from scipy.stats import skew, kurtosis

v = np.random.normal(size=100)

print((v))

in (res)



Ý nghĩa thống kê trong Python là gì?

Alpha, mức ý nghĩa, là xác suất bạn sẽ phạm sai lầm khi từ chối giả thuyết khống khi thực tế đó là sự thật.Nếu giá trị pthe probability that you will make the mistake of rejecting the null hypothesis when in fact it is true. If p-value <= alpha we reject the null hypothesis and say that the data is statistically significant.

Kiểm tra ý nghĩa thống kê là gì?

Các thử nghiệm t là các thử nghiệm cho ý nghĩa thống kê được sử dụng với dữ liệu cấp độ và tỷ lệ. are tests for statistical significance that are used with interval and ratio level data.

Bài kiểm tra Z trong Python là gì?

Một thử nghiệm thống kê được gọi là thử nghiệm Z được chạy trên dữ liệu phù hợp với phân phối bình thường, tức là, đối với dữ liệu không bị sai lệch.Thử nghiệm Z có thể được áp dụng để kiểm tra sự khác biệt về tỷ lệ giữa hai mẫu hoặc thậm chí một mẫu để đánh giá các giả thuyết.run on data that roughly fit the normal distribution, i.e., for data that is not skewed. The z-test can be applied to test differences in proportions between two samples or even one sample for assessing hypotheses.