Hướng dẫn python student t-test - Bài kiểm tra t của học sinh python

Có nhiều loại thử nghiệm thống kê khác nhau được sử dụng với dữ liệu, mỗi loại được sử dụng để tìm hiểu một cái nhìn sâu sắc khác nhau. Khi chúng tôi có dữ liệu thành các nhóm và chúng tôi cần tìm hiểu một vài thuộc tính về chúng, bài kiểm tra t Student Student được sử dụng trong trường hợp như vậy. Thử nghiệm này thường được sử dụng để so sánh sự tương đồng và khác biệt giữa hai nhóm. Trong bài viết này, chúng tôi sẽ thảo luận chi tiết về bài kiểm tra của sinh viên Test bắt đầu từ các nguyên tắc cơ bản của nó. Để tìm hiểu làm thế nào nó có thể được thực hiện trên thực tế, chúng tôi sẽ lấy dữ liệu ngẫu nhiên và thực hiện các bài kiểm tra với Python và vì vậy chúng tôi sẽ cố gắng tìm hiểu khái niệm này từ đầu. Các điểm chính được đề cập trong bài viết này được liệt kê dưới đây.

Nội phân chính

  • Mục lục
  • Một học sinh t-test là gì?
  • Các loại thử nghiệm t?
  • Chúng ta sử dụng thử nghiệm t ở đâu và như thế nào?
  • Làm thế nào để sử dụng thử nghiệm t?
  • Thực hiện trong Python
  • Sự kết luận

Nội phân chính

  • Mục lục
  • Một học sinh t-test là gì?
  • Các loại thử nghiệm t?
  • Chúng ta sử dụng thử nghiệm t ở đâu và như thế nào?
  • Làm thế nào để sử dụng thử nghiệm t?
  • Thực hiện trong Python
  • Sự kết luận

Nội phân chính

  • Mục lục
  • Một học sinh t-test là gì?
  • Các loại thử nghiệm t?
  • Chúng ta sử dụng thử nghiệm t ở đâu và như thế nào?
  • Làm thế nào để sử dụng thử nghiệm t?
  • Thực hiện trong Python
  • Sự kết luận

Nội phân chính

  • Mục lục
  • Một học sinh t-test là gì?
  • Các loại thử nghiệm t?
  • Chúng ta sử dụng thử nghiệm t ở đâu và như thế nào?
  • Làm thế nào để sử dụng thử nghiệm t?
  • Thực hiện trong Python
  • Sự kết luận

Mục lục

  1. Một học sinh t-test là gì?
  2. Các loại thử nghiệm t
  3. Chúng ta sử dụng thử nghiệm t ở đâu và như thế nào?
  4. Làm thế nào để sử dụng thử nghiệm t?

Thực hiện trong Python

Sự kết luận

Các loại thử nghiệm t

Một học sinh t-test là gì?

Thực hiện bài kiểm tra t bằng Python

Các loại thử nghiệm t?

Hãy để bắt đầu với việc giới thiệu ngắn gọn về bài kiểm tra của học sinh.

  1. BelamyWe use this test when there is a single sample and need a comparison between the population and sample to test whether the sample belongs to the given population.
  2. Đăng ký liều hàng tuần của bạn về những gì đang hoạt động trong công nghệ mới nổi.When there are two groups of samples and we want to compare them to find whether they belong to the same population then this test is implemented.
  3. Thử nghiệm t là thử nghiệm độc lập, có nghĩa là kiểm tra mối quan hệ giữa hai nhóm có dữ liệu liên tục được lưu trữ với sự trợ giúp của độ lệch trung bình và độ lệch chuẩn và có một số tính năng nhất định. Nói chung, nó kiểm tra xem hai mẫu có thuộc cùng một dân số hay không bằng cách xem xét một giả thuyết khống rằng phương tiện của chúng là bằng nhau. Đây là một bài kiểm tra thống kê về giả thuyết trong đó thống kê kiểm tra tuân theo phân phối t của học sinh theo giả thuyết khống.It is used when the samples are paired. For example, we are experimenting with a new exercise on people and we took samples of after and before effects of the exercise. Now we want to find out whether this exercise is beneficial or not. We will use paired t-tests to find out the differences because the samples are connected.

Có ba loại thử nghiệm t:

Một thử nghiệm t mẫu: Chúng tôi sử dụng thử nghiệm này khi có một mẫu duy nhất và cần so sánh giữa dân số và mẫu để kiểm tra xem mẫu có thuộc về dân số nhất định hay không.

Where, 

Hai thử nghiệm t mẫu: Khi có hai nhóm mẫu và chúng tôi muốn so sánh chúng để tìm liệu chúng có thuộc cùng một dân số hay không thì thử nghiệm này được thực hiện.  Student’s t-test

T-Test được ghép nối: Nó được sử dụng khi các mẫu được ghép nối. Ví dụ, chúng tôi đang thử nghiệm một bài tập mới về mọi người và chúng tôi đã lấy các mẫu sau và trước khi ảnh hưởng của bài tập. Bây giờ chúng tôi muốn tìm hiểu xem bài tập này có lợi hay không. Chúng tôi sẽ sử dụng các bài kiểm tra t cặp để tìm hiểu sự khác biệt vì các mẫu được kết nối.mean of the sample

Công thức toán học của một bài kiểm tra một mẫu được đưa ra như:

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;standard deviation of the sample

T & nbsp; = & nbsp; Sinh viên T-Test

m = trung bình của mẫupopulation mean and sample mean. Let’s understand their significance.

  • & NBSP; = trung bình lý thuyết của dân số is a mean of the population i.e the data from where we are taking the samples.
  • S & NBSP; = Độ lệch chuẩn của mẫu is a mean of the sample on which the test is being conducted.

N & NBSP; = Kích thước mẫu

Theo quan sát ở trên, có hai loại trung bình có trong công thức: trung bình dân số và trung bình mẫu. Hãy để hiểu ý nghĩa của họ.

Where,

Trung bình dân số là một trung bình của dân số, tức là dữ liệu từ nơi chúng tôi đang lấy các mẫu.

Trung bình mẫu là một giá trị trung bình của mẫu mà thử nghiệm đang được tiến hành.

Trong trường hợp kiểm tra hai mẫu, công thức sau được áp dụng:

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;

x̄1 & nbsp; = Trung bình quan sát của 1stsample

x̄2 & nbsp; = Trung bình quan sát của mẫu 2NDS

Chúng ta sử dụng thử nghiệm t ở đâu và như thế nào?

S1 & NBSP; = Độ lệch chuẩn của 1stsample & nbsp;

Vì nó là một thử nghiệm tham số, các giả định sẽ giống như các thử nghiệm tham số khác. T-Test giả định dữ liệu của bạn:

  1. Độc lập,
  2. Có phân phối bình thường (khoảng) và
  3. Có phương sai đồng nhất (lượng phương sai giống nhau trong dữ liệu)

Làm thế nào để sử dụng thử nghiệm t?

Vì bài kiểm tra t là một thử nghiệm thống kê của một giả thuyết, chúng ta cần xác định giả thuyết này. Giả thuyết NULL (H0) và thay thế (H1) thay đổi tùy theo loại thử nghiệm t.

  1. Giả thuyết cho một thử nghiệm t-test:

Vấn đề: So sánh trung bình dân số và trung bình mẫu.: Compare population mean and sample mean.

  • H0: Không có sự khác biệt trung bình đáng kể giữa dân số và trung bình mẫu (= x).0 : There is no significant mean difference between population and sample mean (μ = x).
  • H1: Có một sự khác biệt trung bình đáng kể giữa dân số và trung bình mẫu (μ! = X).1 : There is a significant mean difference between population and sample mean (μ != x).
  1. Giả thuyết cho kiểm tra t hai mẫu:

Vấn đề: So sánh giá trị trung bình của hai nhóm.: Compare mean of two groups.

  • H0: Không có sự khác biệt trung bình đáng kể giữa các nhóm & NBSP; (1 = μ2)0: There is no significant mean difference between the groups  (μ1= μ2)
  • H1: Có sự khác biệt trung bình đáng kể giữa các nhóm (1! = Μ2)1: There is significant mean difference between the groups (μ1!= μ2)
  1. Giả thuyết cho thử nghiệm mẫu được ghép nối:

Vấn đề: So sánh phương tiện giữa hai nhóm được ghép nối.: Compare means between two groups that are paired.

  • H0: Không có sự khác biệt trung bình đáng kể giữa hai mẫu trung bình mẫu & nbsp; (x̄1 = x̄2)0: There is no significant mean difference between the two sample mean  (x̄1= x̄2)
  • H1: Có sự khác biệt trung bình đáng kể giữa hai mẫu trung bình mẫu & nbsp; & nbsp; & nbsp; (x̄1! = X̄2)1: There is significant mean difference between the two sample mean       (x̄1!= x̄2)

Thực hiện trong Python

Mục tiêu của phần này là chỉ ra cách thực hiện các loại thử nghiệm t khác nhau. Như chúng ta biết có ba loại thử nghiệm t, vì vậy chúng ta hãy bắt đầu các bài kiểm tra này từng cái một.

  1. Một thử nghiệm t mẫu

Xác định giả thuyết

  • H0: Giá trị trung bình dân số lớn hơn hoặc bằng trung bình mẫu (μ> = x)0 : population mean is greater or equal to sample mean (μ> = x)
  • H1: Giá trị trung bình dân số nhỏ hơn trung bình mẫu (μ 1 : population mean is less than sample mean (μ< x)

Chúng tôi sẽ nhập các thư viện sẽ được sử dụng.

import numpy as np
from scipy import stats 

Tiếp theo, chúng tôi sẽ tạo một mẫu ngẫu nhiên hoặc chúng tôi có thể đọc nó từ khung dữ liệu.

sample = [183, 152, 178, 157, 194, 163, 144, 114, 178, 152, 118, 158, 172, 138]
pop_mean = 165

Tôi đã tạo một mẫu ngẫu nhiên được lưu trữ trong một mẫu biến và xác định giá trị trung bình dân số trong biến pop_mean. Hãy để tính toán trung bình cho mẫu và lỗi tiêu chuẩn cho mẫu.sample and defined the population mean in the variable pop_mean. Let’s calculate mean for sample and standard error for the sample.

mean = np.mean(sample)
std_error = np.std(sample) / np.sqrt(len(sample))
sample mean : 157.21428571428572
standard error: 6.034914208534632

Theo công thức, chúng tôi cần có giá trị trung bình mẫu và lỗi tiêu chuẩn. Công thức cho lỗi tiêu chuẩn là:

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;

Where, 

S & NBSP; = Độ lệch chuẩn của mẫustandard deviation of the sample

N & NBSP; = Kích thước mẫu

np.std () được sử dụng để tính toán độ lệch chuẩn

np.sqrt (len ()) được sử dụng để tính toán căn bậc hai của kích thước mẫu

Hãy để tính toán T-Static, T-phê chuẩn và giá trị p để so sánh.

# calculate t statistics
t = abs(mean - pop_mean) / std_error
print('t static:',t)
# two-tailed critical value at alpha = 0.05
t_crit = stats.t.ppf(q=0.975, df=13)
print("Critical value for t two tailed:",t_crit)
 
# one-tailed critical value at alpha = 0.05
t_crit = stats.t.ppf(q=0.95, df=13)
print("Critical value for t one tailed:",t_crit)
 
 
# get two-tailed p value
p_value = 2*(1-stats.t.cdf(x=t, df=13))
print("p-value:",p_value)

T tĩnh: 1.2901118419717794

Giá trị tới hạn cho T hai đuôi: 2.1603686564610127

Giá trị tới hạn cho T Một đuôi: 1.7709333959867988

Giá trị P: 0.21948866305060344

Vì vậy, với sự trợ giúp của dòng mã trên, chúng tôi đã nhận được giá trị của T-static, t-phê bình và giá trị p. Vì giá trị p lớn hơn giá trị alpha, chúng tôi đang hỗ trợ cho giả thuyết null. Do đó, trung bình dân số lớn hơn giá trị trung bình của mẫu.

  1. Hai mẫu t-test

Đầu tiên, chúng tôi sẽ chỉ định giả thuyết:

  • H0: Không có sự khác biệt trung bình đáng kể (1 = μ2)0 : There is no significant mean difference (μ1= μ2)
  • H1: Có sự khác biệt trung bình đáng kể (1! = 2)1 : There is significant mean difference (μ1!= μ2)

Chúng tôi sẽ nhập các thư viện sẽ được sử dụng.

import numpy as np
from scipy import stats 

Tiếp theo, chúng tôi sẽ tạo một mẫu ngẫu nhiên hoặc chúng tôi có thể đọc nó từ khung dữ liệu.

from scipy import stats 
1
from scipy import stats 
2

Tôi đã tạo một mẫu ngẫu nhiên được lưu trữ trong một mẫu biến và xác định giá trị trung bình dân số trong biến pop_mean. Hãy để tính toán trung bình cho mẫu và lỗi tiêu chuẩn cho mẫu.

from scipy import stats 
3

Theo công thức, chúng tôi cần có giá trị trung bình mẫu và lỗi tiêu chuẩn. Công thức cho lỗi tiêu chuẩn là:

& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;

S & NBSP; = Độ lệch chuẩn của mẫu

N & NBSP; = Kích thước mẫu

np.std () được sử dụng để tính toán độ lệch chuẩn

np.sqrt (len ()) được sử dụng để tính toán căn bậc hai của kích thước mẫu

Hãy để tính toán T-Static, T-phê chuẩn và giá trị p để so sánh.

Hãy để tính toán T-Static, T-phê chuẩn và giá trị p để so sánh.

from scipy import stats 
4

T tĩnh: 1.2901118419717794

Giá trị tới hạn cho T hai đuôi: 2.1603686564610127

Giá trị tới hạn cho T Một đuôi: 1.7709333959867988

Giá trị P: 0.21948866305060344

Vì vậy, với sự trợ giúp của dòng mã trên, chúng tôi đã nhận được giá trị của T-static, t-phê bình và giá trị p. Vì giá trị p lớn hơn giá trị alpha, chúng tôi đang hỗ trợ cho giả thuyết null. Do đó, trung bình dân số lớn hơn giá trị trung bình của mẫu.

Hai mẫu t-test

  1. Đầu tiên, chúng tôi sẽ chỉ định giả thuyết:

Đầu tiên, chúng tôi sẽ chỉ định giả thuyết:

  • H0: Không có sự khác biệt trung bình đáng kể (1 = μ2)0 : There is no change after the tuition (x̄1= x̄2)
  • H1: Có sự khác biệt trung bình đáng kể (1! = 2)1 : There is a change after the tuition (x̄1!= x̄2)

Hãy để tạo ra một mẫu ngẫu nhiên hoặc chúng ta có thể đọc nó từ khung dữ liệu.

from scipy import stats 
5
from scipy import stats 
6

Mẫu trên là hồ sơ của các sinh viên đánh dấu trước và sau học phí. Tính trung bình, lỗi tiêu chuẩn, thống kê, t-phê bình và giá trị p

from scipy import stats 
7

-1.7073311796734205 1.8124611228107335 0.11856467647601066

Ở đây chúng tôi đã tính toán một giá trị trung bình của mẫu, sau đó tìm thấy tổng của sự khác biệt bình phương. Cuối cùng, chúng tôi đã tìm thấy độ lệch chuẩn và sai số tiêu chuẩn và cũng tìm thấy T-static, t-phê chuẩn và giá trị p. Về những điều cơ bản của giá trị p (0.11)> alpha (0,05), chúng tôi đang ủng hộ giả thuyết null. Do đó, chúng tôi có thể kết luận rằng không có thay đổi trong kết quả sau học phí.

Sự kết luận

Với sự giúp đỡ của bài viết này, chúng ta có thể tìm hiểu bài kiểm tra của học sinh từ những điều cơ bản. Chúng tôi cũng đã có một ý tưởng công bằng về các loại bài kiểm tra t khác nhau với các công thức và giả định của chúng. Cùng với những điều này, chúng tôi đã có một sự hiểu biết tốt về cách thực hiện các loại bài kiểm tra t khác nhau trong Python từ đầu.

Người giới thiệu

  1. Liên kết cho & nbsp; Mã trên
  2. Tài liệu Scipy