Nếu kết quả kiểm tra cho thấy các phương tiện khác nhau về mặt thống kê, thì chúng tôi suy luận rằng mẫu không có khả năng đến từ dân số
Ví dụ. Nếu bạn muốn kiểm tra tuyên bố của một nhà sản xuất ô tô rằng ô tô của họ chạy trên đường cao tốc trung bình là 20km/l. Bạn lấy mẫu 10 chiếc ô tô từ đại lý, đo quãng đường đã đi và sử dụng bài kiểm tra T để xác định xem tuyên bố của nhà sản xuất có đúng không
Khi kết thúc phần này, bạn sẽ biết khi nào và cách thực hiện Bài kiểm tra T, khái niệm, phép toán, cách đặt giả thuyết không và giả thuyết thay thế, cách sử dụng bảng chữ T, cách hiểu giả thuyết một phía và giả thuyết hai phía.
- Giới thiệu
- Mục đích của Thử nghiệm Một Mẫu T
- Làm thế nào để đặt giả thuyết không và giả thuyết thay thế?
- Trường hợp sử dụng
- Quy trình thực hiện One Sample T Test
- Ví dụ kiểm tra một mẫu T
- Thực hiện thử nghiệm một mẫu T
- Làm thế nào để quyết định thực hiện T Test nào?
- Sự kết luận
- bài viết liên quan
Giới thiệu
'Thử nghiệm T một mẫu' là một trong 3 loại Thử nghiệm T. Nó được sử dụng khi bạn muốn kiểm tra xem giá trị trung bình của dân số mà mẫu được rút ra có phải là giá trị giả thuyết hay không. Bạn sẽ hiểu rõ hơn về tuyên bố này [và tất cả về bài kiểm tra One Sample T] tốt hơn vào cuối bài đăng này
Bài kiểm tra T lần đầu tiên được phát minh bởi William Sealy Gosset, vào năm 1908. Vì anh ấy đã sử dụng tên giả là 'Student' khi xuất bản phương pháp của mình trong bài báo có tiêu đề 'Biometrika', nên bài kiểm tra được biết đến với tên gọi Bài kiểm tra T của Học sinh
Vì nó giả định rằng thống kê kiểm tra, điển hình là giá trị trung bình của mẫu, tuân theo phân phối lấy mẫu, nên Bài kiểm tra T của Sinh viên được coi là một bài kiểm tra Tham số
Mục đích của Thử nghiệm Một Mẫu T
Mục đích của Thử nghiệm Một mẫu T là để xác định xem một quan sát mẫu có thể đến từ một quy trình tuân theo một tham số cụ thể [chẳng hạn như giá trị trung bình]
Nó thường được thực hiện trên các mẫu nhỏ
Ví dụ: đưa ra một mẫu gồm 15 mặt hàng, bạn muốn kiểm tra xem giá trị trung bình của mẫu có giống với giá trị trung bình giả định [dân số] không. Đó là, về cơ bản, bạn muốn biết liệu mẫu có đến từ một quần thể nhất định hay không
Giả sử, bạn muốn kiểm tra xem trọng lượng trung bình của một thành phần được sản xuất [từ cỡ mẫu 15] có giá trị cụ thể [55 gam] hay không, với độ tin cậy 99%.
Làm thế nào chúng tôi xác định được bài kiểm tra T-test một mẫu là bài kiểm tra phù hợp cho việc này?
Nhận khóa học Python hoàn chỉnh miễn phí
Đối mặt với tình huống tương tự như những người khác?
Xây dựng sự nghiệp khoa học dữ liệu của bạn với bằng cấp được ngành công nhận trên toàn cầu. Có được tư duy, sự tự tin và các kỹ năng khiến Nhà khoa học dữ liệu trở nên có giá trị
Nhận khóa học Python miễn phí
Nhận khóa học Python hoàn chỉnh miễn phí
Xây dựng sự nghiệp khoa học dữ liệu của bạn với bằng cấp được ngành công nhận trên toàn cầu. Có được tư duy, sự tự tin và các kỹ năng khiến Nhà khoa học dữ liệu trở nên có giá trị
Nhận khóa học Python miễn phí
Bởi vì, chỉ có một mẫu liên quan và bạn muốn so sánh giá trị trung bình của mẫu này với một giá trị [giả thuyết] cụ thể
Để làm điều này, bạn cần thiết lập một giả thuyết không và một giả thuyết thay thế
Làm thế nào để đặt giả thuyết không và giả thuyết thay thế?
Giả thuyết khống thường giả định rằng không có sự khác biệt giữa trung bình mẫu và trung bình giả định [trung bình so sánh]. Mục đích của Kiểm định T là để kiểm tra xem giả thuyết không có thể bị bác bỏ hay không
Tùy theo cách nêu vấn đề mà giả thuyết thay thế có thể là một trong 3 trường hợp sau
- Trường hợp 1. H1. x̅. = µ. Được sử dụng khi trung bình mẫu thực không bằng trung bình so sánh. Sử dụng bài kiểm tra T hai đuôi
- trường hợp 2. H1. x̅ > µ. Được sử dụng khi giá trị trung bình mẫu thực lớn hơn giá trị trung bình so sánh. Sử dụng bài kiểm tra T trên đuôi
- Trường hợp 3. H1. x̅ < µ. Được sử dụng khi giá trị trung bình mẫu thực nhỏ hơn giá trị trung bình so sánh. Sử dụng bài kiểm tra T đuôi thấp hơn
Trong đó x̅
là trung bình mẫu và µ
là trung bình tổng thể để so sánh. Chúng ta sẽ đi vào chi tiết hơn của ba trường hợp này sau khi giải quyết một số ví dụ thực tế
Trường hợp sử dụng
ví dụ 1. Một công ty dịch vụ khách hàng muốn biết liệu các đại lý hỗ trợ của họ có đang hoạt động ngang bằng với các tiêu chuẩn ngành hay không
Theo một báo cáo, thời gian giải quyết trung bình tiêu chuẩn là 20 phút cho mỗi yêu cầu. Nhóm mẫu có giá trị trung bình là 21 phút trên mỗi vé với độ lệch chuẩn là 7 phút
Bạn có thể cho biết hiệu suất hỗ trợ của công ty có tốt hơn tiêu chuẩn ngành hay không?
ví dụ 2. Một công ty nông nghiệp muốn biết liệu một loại phân bón mới có cải thiện năng suất cây trồng hay không
Dữ liệu lịch sử cho thấy năng suất trung bình của trang trại là 20 tấn trên mỗi mẫu Anh. Họ quyết định thử nghiệm một loại phân bón hữu cơ mới trên một mẫu trang trại nhỏ hơn và quan sát thấy năng suất mới là 20. 175 tấn trên một mẫu Anh với độ lệch chuẩn là 3. 02 tấn cho 12 trang trại khác nhau
Phân bón mới có hiệu quả không?
Quy trình thực hiện One Sample T Test
Bước 1. Xác định Giả thuyết Không [H0] và Giả thuyết Thay thế [H1]
Thí dụ
H0. Trung bình mẫu [x̅] = Trung bình dân số giả định [µ]
H1. Giá trị trung bình của mẫu [x̅]. = Trung bình dân số giả định [µ]
Giả thuyết thay thế cũng có thể nói rằng giá trị trung bình mẫu lớn hơn hoặc nhỏ hơn giá trị trung bình so sánh
Bước 2. Tính toán thống kê kiểm tra [T]
$$t = \frac{Z}{s} = \frac{\bar{X} – \mu}{\frac{\hat{\sigma}}{\sqrt{n}}}$$
trong đó s
là lỗi tiêu chuẩn
Bước 3. Tìm T-critical từ Bảng T
Sử dụng bậc tự do và bậc alpha [0. 05] để tìm T-critical
Bước 4. Xác định xem thống kê kiểm tra được tính toán có nằm trong vùng từ chối không
Cách khác, chỉ cần tính giá trị P. Nếu nó nhỏ hơn mức ý nghĩa [0. 05 hoặc 0. 01], bác bỏ giả thuyết vô hiệu
Ví dụ kiểm tra một mẫu T
Báo cáo vấn đề
Chúng tôi có năng suất khoai tây từ 12 trang trại khác nhau. Chúng ta biết rằng năng suất khoai tây tiêu chuẩn của giống đã cho là µ=20
x = [21. 5, 24. 5, 18. 5, 17. 2, 14. 5, 23. 2, 22. 1, 20. 5, 19. 4, 18. 1, 24. 1, 18. 5]
Kiểm tra xem năng suất khoai tây từ các trang trại này có tốt hơn đáng kể so với năng suất tiêu chuẩn không
Dung dịch
Bước 1. Xác định giả thuyết không và thay thế
H0. x̅ = 20
H1. x̅ > 20
n = 12. Vì đây là một thử nghiệm mẫu T nên bậc tự do = n-1 = 12-1 = 11
Hãy đặt alpha = 0. 05, đáp ứng độ tin cậy 95%
Bước 2. Tính thống kê kiểm tra [T]
1. Tính trung bình mẫu
$$\bar{X} = \frac{x_1 + x_2 + x_3 +. . + x_n}{n}$$
$$\bar{x} = 20. 175$$
- Tính độ lệch chuẩn mẫu
$$\bar{\sigma} = \frac{[x_1 – \bar{x}]^2 + [x_2 – \bar{x}]^2 + [x_3 – \bar{x}]^2 +. . + [x_n – \bar{x}]^2}{n-1}$$
$$\sigma = 3. 0211$$
- Thay thế trong công thức thống kê T
$$T = \frac{\bar{x} – \mu}{se} = \frac{\bar{x} – \mu}{\frac{\sigma}{\sqrt{n}}}$$
$$T = [20. 175 – 20]/[3. 0211/\sqrt{12}] = 0. 2006$$
Bước 3. Tìm T-Critical
Mức độ tin cậy = 0. 95, alpha=0. 05. Đối với bài kiểm tra một đuôi, hãy xem dưới 0. 05 cột. cho đ. o. f = 12 – 1 = 11, T-Critical = 1. 796
Bây giờ bạn có thể thắc mắc tại sao ‘One Tailed test’ lại được chọn. Điều này là do cách bạn xác định giả thuyết thay thế. Nếu giả thuyết không chỉ đơn giản nói rằng phương tiện mẫu không bằng 20, thì chúng ta sẽ thực hiện kiểm định hai đuôi. Thông tin chi tiết về chủ đề này trong phần tiếp theo
Bước 4. Liệu nó rơi vào khu vực từ chối?
Vì Thống kê T được tính toán nhỏ hơn T-critical nên nó không nằm trong vùng bác bỏ
Rõ ràng thống kê T tính được không nằm trong miền bác bỏ. Vì vậy, chúng tôi không bác bỏ giả thuyết không
Thực hiện thử nghiệm một mẫu T
trong R
Vì bạn muốn thực hiện kiểm tra 'One Tailed Greater than' [nghĩa là giá trị trung bình mẫu lớn hơn giá trị trung bình so sánh], bạn cần chỉ định alternative='greater'
trong hàm t.test[]
. Bởi vì, theo mặc định, t.test[]
thực hiện kiểm định hai đuôi [đó là điều bạn làm khi giả thuyết thay thế của bạn chỉ đơn giản nêu ý nghĩa mẫu. = ý nghĩa so sánh]
x One Sample t-test
#> data: x
#> t = 0.20066, df = 11, p-value = 0.4223
#> alternative hypothesis: true mean is greater than 20
#> 95 percent confidence interval:
#> 18.60874 Inf
#> sample estimates:
#> mean of x
#> 20.175
Giá trị P được tính toán ở đây không là gì ngoài p = Pr[T > t] [đuôi trên], trong đó t
là thống kê T được tính toán
Trong Python
Trong Python, Một bài kiểm tra T mẫu được triển khai trong hàm
from scipy.stats import ttest_1samp
x = [21.5, 24.5, 18.5, 17.2, 14.5, 23.2, 22.1, 20.5, 19.4, 18.1, 24.1, 18.5]
tscore, pvalue = ttest_1samp[x, popmean=20]
print["t Statistic: ", tscore]
print["P Value: ", pvalue]
#> t Statistic: 0.2006562773994862
#> P Value: 0.8446291893053613
0 trong gói scipy. Tuy nhiên, nó thực hiện kiểm tra Hai đuôi theo mặc định và báo cáo thống kê T có chữ ký. Điều đó có nghĩa là, giá trị P được báo cáo sẽ luôn được tính cho phép thử Hai phía. Để tính giá trị P chính xác, bạn cần chia giá trị P đầu ra cho 2Áp dụng logic sau nếu bạn đang thực hiện kiểm tra một đuôi
Đối với thử nghiệm lớn hơn. Bác bỏ H0 nếu p/2 < alpha [0. 05]. Trong trường hợp này, t sẽ lớn hơn 0.
Đối với ít hơn thử nghiệm. Bác bỏ H0 nếu p/2 < alpha [0. 05]. Trong trường hợp này, t sẽ nhỏ hơn 0.
from scipy.stats import ttest_1samp
x = [21.5, 24.5, 18.5, 17.2, 14.5, 23.2, 22.1, 20.5, 19.4, 18.1, 24.1, 18.5]
tscore, pvalue = ttest_1samp[x, popmean=20]
print["t Statistic: ", tscore]
print["P Value: ", pvalue]
#> t Statistic: 0.2006562773994862
#> P Value: 0.8446291893053613
Vì đây là thử nghiệm một đuôi nên giá trị p thực bằng 0. 8446/2 = 0. 4223. Dù sao thì chúng ta cũng không bác bỏ Giả thuyết Null
Làm thế nào để quyết định thực hiện T Test nào?
Quyết định liệu thống kê kiểm tra tính toán có rơi vào vùng bác bỏ hay không phụ thuộc vào cách xác định giả thuyết thay thế
Chúng tôi biết Giả thuyết Null là H0. µD = 0. Trong đó, µD là sự khác biệt về giá trị trung bình, đó là giá trị trung bình mẫu trừ đi giá trị trung bình so sánh
Bạn cũng có thể viết H0 là.
from scipy.stats import ttest_1samp
x = [21.5, 24.5, 18.5, 17.2, 14.5, 23.2, 22.1, 20.5, 19.4, 18.1, 24.1, 18.5]
tscore, pvalue = ttest_1samp[x, popmean=20]
print["t Statistic: ", tscore]
print["P Value: ", pvalue]
#> t Statistic: 0.2006562773994862
#> P Value: 0.8446291893053613
0, trong đó x̅ là trung bình mẫu và ‘µ’ là trung bình so sánhTrường hợp 1. Nếu H1. x̅. = µ, thì vùng bác bỏ nằm trên cả hai đuôi của Phân bố T [hai đuôi]. Điều này có nghĩa là giả thuyết thay thế chỉ nói rằng sự khác biệt về phương tiện không bằng nhau. Không có so sánh nếu một trong các phương tiện lớn hơn hoặc nhỏ hơn phương tiện kia
Trong trường hợp này, hãy sử dụng Two Tailed T Test
Ở đây, giá trị P = 2. Pr[T >. t. ]
trường hợp 2. Nếu H1. x̅ > µ thì vùng bác bỏ nằm ở đuôi trên của Phân bố chữ T [đuôi trên]. Nếu giá trị trung bình của mẫu quan tâm lớn hơn giá trị trung bình so sánh. Thí dụ. Nếu Thành phần A có thời gian hư hỏng lâu hơn Thành phần B
Trong trường hợp như vậy, hãy sử dụng kiểm tra dựa trên Upper Tailed
Ở đây, giá trị P = Pr[T > t]
Trường hợp 3. Nếu H1. x̅ < µ, thì vùng đào thải nằm ở đuôi dưới của Phân bố chữ T [đuôi dưới]. Nếu giá trị trung bình của mẫu quan tâm nhỏ hơn giá trị trung bình so sánh
Trong trường hợp như vậy, sử dụng thử nghiệm đuôi thấp hơn
Ở đây, giá trị P = Pr[T < t]
Sự kết luận
Hy vọng bây giờ bạn đã quen thuộc và hiểu rõ về Bài kiểm tra One Sample T. Nếu một cái gì đó vẫn chưa rõ ràng, viết trong bình luận. Tiếp theo, chủ đề là Bài kiểm tra hai mẫu T. Giữ nguyên
Selva Prabhakaran
Selva là Tác giả chính và Biên tập viên của Machine Learning Plus, với hơn 4 triệu độc giả. Anh ấy là tác giả của các khóa học và sách với hơn 100 nghìn sinh viên và là Nhà khoa học dữ liệu chính của một công ty toàn cầu