Cái nào sau đây sẽ được coi là một ví dụ về một đơn vị so sánh?

Mục tiêu của đánh giá quá trình là theo dõi quá trình học tập của học sinh để cung cấp thông tin phản hồi liên tục mà người hướng dẫn có thể sử dụng để cải thiện việc giảng dạy của họ và học sinh để cải thiện việc học tập của họ. Cụ thể hơn, đánh giá quá trình

Nội dung chính Show

đánh giá tổng kết
Stephen J. Senn
Kenneth J. Rothman
John B. Carlin
Charles Poole
Steven N. Người đàn ông tốt
Douglas G. người thay thế
trừu tượng
Giới thiệu
Kiểm tra thống kê, giá trị P và khoảng tin cậy. sơn lót ăn da
Mô hình thống kê, giả thuyết và thử nghiệm
Sự không chắc chắn, xác suất và ý nghĩa thống kê
Chuyển từ thử nghiệm sang ước tính
Giá trị P, khoảng tin cậy và tính toán công suất nào không cho chúng ta biết
Giải thích sai phổ biến của các giá trị P đơn lẻ
Các giải thích sai phổ biến về so sánh và dự đoán giá trị P
Những hiểu sai phổ biến về khoảng tin cậy
Những hiểu lầm phổ biến về quyền lực
Một mô hình thống kê không chỉ là một phương trình với các chữ cái Hy Lạp
kết luận
Sự nhìn nhận
chú thích
Thông tin cộng tác viên
Người giới thiệu
Điều nào sau đây sẽ là một ví dụ về lỗi thời chức năng?
Phương pháp tiếp cận dữ liệu thị trường sử dụng nguyên tắc nào để so sánh các tài sản tương tự?
Phương pháp đánh giá nào sử dụng nguyên tắc thay thế nhóm lựa chọn câu trả lời?
Loại khấu hao nào cũng không thể chữa được nghĩa là không thể làm được gì?

giúp sinh viên xác định điểm mạnh và điểm yếu của họ và các lĩnh vực mục tiêu cần làm việc
giúp giảng viên nhận ra nơi sinh viên đang gặp khó khăn và giải quyết vấn đề ngay lập tức

Đánh giá quá trình nói chung là cổ phần thấp, có nghĩa là chúng có giá trị điểm thấp hoặc không có điểm. Ví dụ về đánh giá quá trình bao gồm yêu cầu học sinh

vẽ một bản đồ khái niệm trong lớp để thể hiện sự hiểu biết của họ về một chủ đề
gửi một hoặc hai câu xác định điểm chính của bài giảng
nộp đề xuất nghiên cứu để nhận phản hồi sớm

đánh giá tổng kết

Mục tiêu của đánh giá tổng kết là đánh giá việc học tập của học sinh khi kết thúc một đơn vị giảng dạy bằng cách so sánh nó với một số tiêu chuẩn hoặc điểm chuẩn

Các đánh giá tổng kết thường có tỷ lệ cược cao, có nghĩa là chúng có giá trị điểm cao. Ví dụ về đánh giá tổng kết bao gồm

một kỳ thi giữa kỳ
một dự án cuối cùng
một tờ giấy
một buổi độc tấu cao cấp

Thông tin từ các đánh giá tổng kết có thể được sử dụng một cách chính thức khi sinh viên hoặc giảng viên sử dụng nó để hướng dẫn các nỗ lực và hoạt động của họ trong các khóa học tiếp theo

Khoa Dịch tễ học và Khoa Thống kê, Đại học California, Los Angeles, CA Hoa Kỳ

Tìm bài viết của Sander Greenland

Stephen J. Senn

Trung tâm Năng lực về Phương pháp và Thống kê, Viện Y tế Luxembourg, Strassen, Luxembourg

Tìm bài viết của Stephen J. Senn

Kenneth J. Rothman

RTI Health Solutions, Research Triangle Institute, Research Triangle Park, NC USA

Tìm bài viết của Kenneth J. Rothman

John B. Carlin

Đơn vị Dịch tễ học và Thống kê Sinh học Lâm sàng, Viện Nghiên cứu Trẻ em Murdoch, Trường Y tế Dân số, Đại học Melbourne, Melbourne, VIC Úc

Tìm bài viết của John B. Carlin

Charles Poole

Khoa Dịch tễ học, Trường Y tế Công cộng Toàn cầu Gillings, Đại học Bắc Carolina, Chapel Hill, NC Hoa Kỳ

Tìm bài viết của Charles Poole

Steven N. Người đàn ông tốt

Trung tâm đổi mới siêu nghiên cứu, Khoa Y và Nghiên cứu Y tế và Chính sách, Trường Y Đại học Stanford, Stanford, CA Hoa Kỳ

Tìm bài viết của Steven N. Người đàn ông tốt

Douglas G. người thay thế

Trung tâm Thống kê Y học, Khoa Chỉnh hình, Thấp khớp và Khoa học Cơ xương Nuffield, Đại học Oxford, Oxford, Vương quốc Anh

Tìm bài viết của Douglas G. người thay thế

Thông tin tác giả Ghi chú bài báo Thông tin bản quyền và giấy phép Tuyên bố miễn trừ trách nhiệm

Khoa Dịch tễ học và Khoa Thống kê, Đại học California, Los Angeles, CA Hoa Kỳ

Trung tâm Năng lực về Phương pháp và Thống kê, Viện Y tế Luxembourg, Strassen, Luxembourg

RTI Health Solutions, Research Triangle Institute, Research Triangle Park, NC USA

Đơn vị Dịch tễ học và Thống kê Sinh học Lâm sàng, Viện Nghiên cứu Trẻ em Murdoch, Trường Y tế Dân số, Đại học Melbourne, Melbourne, VIC Úc

Khoa Dịch tễ học, Trường Y tế Công cộng Toàn cầu Gillings, Đại học Bắc Carolina, Chapel Hill, NC Hoa Kỳ

Trung tâm đổi mới siêu nghiên cứu, Khoa Y và Nghiên cứu Y tế và Chính sách, Trường Y Đại học Stanford, Stanford, CA Hoa Kỳ

Trung tâm Thống kê Y học, Khoa Chỉnh hình, Thấp khớp và Khoa học Cơ xương Nuffield, Đại học Oxford, Oxford, Vương quốc Anh

Sander Greenland, Email. anh. alcu@semodsel .

Thông tin cộng tác viên

Đồng tác giả

Nhận được ngày 9 tháng 4 năm 2016;

Truy cập Mở Bài viết này được phân phối theo các điều khoản của Creative Commons Attribution 4. 0 Giấy phép quốc tế (http. //Commons sáng tạo. org/giấy phép/bởi/4. 0/), cho phép sử dụng, phân phối và sao chép không hạn chế ở bất kỳ phương tiện nào, miễn là bạn cung cấp tín dụng phù hợp cho (các) tác giả gốc và nguồn, cung cấp liên kết đến giấy phép Creative Commons và cho biết liệu các thay đổi có được thực hiện hay không

trừu tượng

Giải thích sai và lạm dụng các bài kiểm tra thống kê, khoảng tin cậy và sức mạnh thống kê đã bị chỉ trích trong nhiều thập kỷ, nhưng vẫn tràn lan. Một vấn đề quan trọng là không có cách giải thích nào về những khái niệm này vừa đơn giản, trực quan, chính xác và dễ hiểu. Thay vào đó, việc sử dụng và giải thích chính xác các số liệu thống kê này đòi hỏi phải chú ý đến từng chi tiết, điều này dường như đòi hỏi sự kiên nhẫn của các nhà khoa học đang làm việc. Nhu cầu nhận thức cao này đã dẫn đến một dịch bệnh của các định nghĩa và diễn giải tắt mà đơn giản là sai, đôi khi là như vậy một cách tai hại—và những diễn giải sai này thống trị phần lớn các tài liệu khoa học. Để giải quyết vấn đề này, chúng tôi cung cấp các định nghĩa và thảo luận về các số liệu thống kê cơ bản mang tính tổng quát và quan trọng hơn so với thường thấy trong các giải trình giới thiệu truyền thống. Mục tiêu của chúng tôi là cung cấp tài nguyên cho những người hướng dẫn, nhà nghiên cứu và người tiêu dùng thống kê có kiến thức về lý thuyết và kỹ thuật thống kê có thể bị hạn chế nhưng muốn tránh và phát hiện ra những diễn giải sai. Chúng tôi nhấn mạnh việc vi phạm các giao thức phân tích thường không được nêu rõ (chẳng hạn như chọn các phân tích để trình bày dựa trên giá trị P mà chúng tạo ra) có thể dẫn đến giá trị P nhỏ ngay cả khi giả thuyết kiểm tra đã công bố là đúng và có thể dẫn đến giá trị P lớn ngay cả khi giả thuyết đó . Sau đó, chúng tôi cung cấp một danh sách giải thích gồm 25 cách giải thích sai về giá trị P, khoảng tin cậy và công suất. Chúng tôi kết luận với các hướng dẫn để cải thiện việc giải thích và báo cáo thống kê

Từ khóa. Khoảng tin cậy, Kiểm định giả thuyết, Kiểm định vô hiệu, Giá trị P, Công suất, Kiểm định ý nghĩa, Kiểm định thống kê

Giới thiệu

Việc giải thích sai và lạm dụng các bài kiểm tra thống kê đã bị lên án trong nhiều thập kỷ, nhưng vẫn tràn lan đến mức một số tạp chí khoa học không khuyến khích sử dụng “ý nghĩa thống kê” (phân loại kết quả là “có ý nghĩa” hoặc không dựa trên giá trị P) [1]. Một tạp chí hiện cấm tất cả các bài kiểm tra thống kê và các thủ tục liên quan đến toán học như khoảng tin cậy [2], điều này đã dẫn đến thảo luận và tranh luận đáng kể về giá trị của các lệnh cấm đó [3, 4]

Bất chấp những lệnh cấm như vậy, chúng tôi hy vọng rằng các phương pháp thống kê có vấn đề sẽ đồng hành cùng chúng tôi trong nhiều năm tới. Do đó, chúng tôi nghĩ rằng điều bắt buộc là phải cải thiện việc giảng dạy cơ bản cũng như hiểu biết chung về các phương pháp này. Để đạt được mục đích đó, chúng tôi cố gắng giải thích ý nghĩa của các bài kiểm tra ý nghĩa, khoảng tin cậy và sức mạnh thống kê theo cách tổng quát và quan trọng hơn so với cách làm truyền thống, sau đó xem xét 25 quan niệm sai lầm phổ biến theo cách giải thích của chúng tôi. Chúng tôi cũng thảo luận về một số vấn đề tế nhị hơn nhưng vẫn phổ biến, giải thích lý do tại sao điều quan trọng là phải kiểm tra và tổng hợp tất cả các kết quả liên quan đến một câu hỏi khoa học, thay vì tập trung vào các phát hiện riêng lẻ. Chúng tôi giải thích thêm tại sao các bài kiểm tra thống kê không bao giờ nên là đầu vào duy nhất cho các suy luận hoặc quyết định về mối liên hệ hoặc hiệu ứng. Trong số nhiều lý do, trong hầu hết các bối cảnh khoa học, việc phân loại tùy tiện các kết quả thành “quan trọng” và “không quan trọng” là không cần thiết và thường gây tổn hại cho việc giải thích dữ liệu hợp lệ;

Thảo luận chi tiết hơn về các vấn đề chung có thể được tìm thấy trong nhiều bài báo, chương và sách về các phương pháp thống kê và diễn giải của chúng [5–20]. Các vấn đề cụ thể được đề cập chi tiết trong các nguồn này và trong nhiều bài báo được bình duyệt phê phán những cách hiểu sai phổ biến về kiểm định giả thuyết không và “ý nghĩa thống kê” [1, 12, 21–74]

Kiểm tra thống kê, giá trị P và khoảng tin cậy. sơn lót ăn da

Mô hình thống kê, giả thuyết và thử nghiệm

Mọi phương pháp suy luận thống kê đều phụ thuộc vào một mạng lưới các giả định phức tạp về cách thu thập và phân tích dữ liệu cũng như cách kết quả phân tích được chọn để trình bày. Toàn bộ các giả định được thể hiện trong một mô hình thống kê làm cơ sở cho phương pháp. Mô hình này là một biểu diễn toán học về tính biến thiên của dữ liệu và do đó, lý tưởng nhất là sẽ nắm bắt chính xác tất cả các nguồn của tính biến thiên đó. Tuy nhiên, nhiều vấn đề phát sinh vì mô hình thống kê này thường kết hợp các giả định không thực tế hoặc tốt nhất là không hợp lý. Điều này đúng ngay cả đối với cái gọi là phương pháp “không tham số”, mà (giống như các phương pháp khác) phụ thuộc vào các giả định về lấy mẫu ngẫu nhiên hoặc ngẫu nhiên hóa. Những giả định này thường đơn giản để viết ra bằng toán học, tuy nhiên trong thực tế rất khó thỏa mãn và xác minh, vì chúng có thể phụ thuộc vào việc hoàn thành thành công một chuỗi hành động dài (chẳng hạn như xác định, liên hệ, xin phép, hợp tác và

Ngoài ra còn có một vấn đề nghiêm trọng trong việc xác định phạm vi của một mô hình, trong đó nó không chỉ cho phép thể hiện tốt dữ liệu được quan sát mà còn cho dữ liệu thay thế giả định có thể đã được quan sát. Khung tham chiếu cho dữ liệu “có thể đã được quan sát thấy” thường không rõ ràng, ví dụ: nếu nhiều thước đo kết quả hoặc nhiều yếu tố dự đoán đã được đo lường và nhiều quyết định xung quanh các lựa chọn phân tích đã được đưa ra sau khi dữ liệu được thu thập—như trường hợp luôn xảy ra

Khó khăn trong việc hiểu và đánh giá các giả định cơ bản trở nên trầm trọng hơn bởi thực tế là mô hình thống kê thường được trình bày ở dạng trừu tượng và cô đọng cao—nếu được trình bày ở tất cả. Do đó, nhiều giả định không được đánh dấu và thường không được người dùng cũng như người tiêu dùng thống kê nhận ra. Tuy nhiên, tất cả các phương pháp và diễn giải thống kê đều dựa trên các giả định của mô hình;

Trong hầu hết các ứng dụng của thử nghiệm thống kê, một giả định trong mô hình là giả thuyết rằng một hiệu ứng cụ thể có quy mô cụ thể và đã được nhắm mục tiêu để phân tích thống kê. (Để đơn giản, chúng tôi sử dụng từ “hiệu ứng” khi “liên kết hoặc hiệu ứng” được cho là tốt hơn trong việc cho phép các nghiên cứu phi nhân quả chẳng hạn như hầu hết các cuộc điều tra. ) Giả định mục tiêu này được gọi là giả thuyết nghiên cứu hoặc giả thuyết kiểm tra và các phương pháp thống kê được sử dụng để đánh giá nó được gọi là kiểm tra giả thuyết thống kê. Thông thường, kích thước hiệu ứng được nhắm mục tiêu là giá trị “null” biểu thị hiệu ứng bằng không (e. g. , rằng điều trị nghiên cứu không tạo ra sự khác biệt trong kết quả trung bình), trong trường hợp đó, giả thuyết kiểm tra được gọi là giả thuyết không. Tuy nhiên, cũng có thể kiểm tra các kích thước hiệu ứng khác. Chúng tôi cũng có thể kiểm tra các giả thuyết rằng hiệu ứng có hoặc không nằm trong một phạm vi cụ thể;

Nhiều giảng dạy và thực hành thống kê đã phát triển một sự tập trung mạnh mẽ (và không lành mạnh) vào ý tưởng rằng mục đích chính của một nghiên cứu nên là để kiểm tra các giả thuyết không. Trên thực tế, hầu hết các mô tả về kiểm định thống kê chỉ tập trung vào việc kiểm định các giả thuyết không, và toàn bộ chủ đề được gọi là “Kiểm định ý nghĩa giả thuyết không” (NHST). Sự tập trung độc quyền này vào các giả thuyết vô hiệu góp phần gây ra sự hiểu lầm về các bài kiểm tra. Thêm vào sự hiểu lầm là nhiều tác giả (bao gồm cả R. A. Fisher) sử dụng “giả thuyết vô hiệu” để chỉ bất kỳ giả thuyết thử nghiệm nào, mặc dù cách sử dụng này trái ngược với các tác giả khác và với các định nghĩa tiếng Anh thông thường về “không”—cũng như cách sử dụng thống kê của “ý nghĩa” và “độ tin cậy. ”

Sự không chắc chắn, xác suất và ý nghĩa thống kê

Một mục tiêu tinh tế hơn của phân tích thống kê là đưa ra đánh giá về sự chắc chắn hoặc không chắc chắn về quy mô của một tác động. Việc thể hiện sự chắc chắn như vậy dưới dạng “xác suất” của các giả thuyết là điều tự nhiên. Tuy nhiên, trong các phương pháp thống kê thông thường, “xác suất” không đề cập đến các giả thuyết, mà đề cập đến các đại lượng là tần suất giả định của các mẫu dữ liệu trong một mô hình thống kê giả định. Do đó, những phương pháp này được gọi là phương pháp thường xuyên, và tần số giả thuyết mà chúng dự đoán được gọi là “xác suất tần suất”. ” Mặc dù đã được đào tạo đáng kể nhưng ngược lại, nhiều nhà khoa học được đào tạo về thống kê lại có thói quen diễn giải sai các xác suất tần suất này thành xác suất giả thuyết. (Thậm chí còn khó hiểu hơn, thuật ngữ “xác suất của một giá trị tham số” được các nhà thống kê dành riêng để chỉ xác suất của dữ liệu quan sát được đưa ra giá trị tham số; nó không đề cập đến xác suất tham số nhận giá trị đã cho. )

Không nơi nào những vấn đề này tràn lan hơn trong các ứng dụng của tần suất giả định được gọi là giá trị P, còn được gọi là “mức ý nghĩa quan sát được” đối với giả thuyết thử nghiệm. Các “kiểm định ý nghĩa” thống kê dựa trên khái niệm này đã là một phần trung tâm của các phân tích thống kê trong nhiều thế kỷ [75]. Trọng tâm của các định nghĩa truyền thống về giá trị P và ý nghĩa thống kê là các giả thuyết không, coi tất cả các giả định khác được sử dụng để tính toán giá trị P như thể chúng được biết là đúng. Nhận thấy rằng những giả định khác này thường bị nghi ngờ nếu không muốn nói là không có cơ sở, chúng tôi sẽ áp dụng một quan điểm tổng quát hơn về giá trị P như một bản tóm tắt thống kê về tính tương thích giữa dữ liệu được quan sát và những gì chúng tôi dự đoán hoặc mong đợi sẽ thấy nếu chúng tôi biết toàn bộ mô hình thống kê

Cụ thể, khoảng cách giữa dữ liệu và dự đoán mô hình được đo bằng thống kê kiểm tra (chẳng hạn như thống kê t hoặc thống kê bình phương Chi). Giá trị P sau đó là xác suất mà thống kê kiểm tra được chọn ít nhất sẽ lớn bằng giá trị được quan sát của nó nếu mọi giả định của mô hình đều đúng, bao gồm cả giả thuyết kiểm tra. Định nghĩa này thể hiện một điểm quan trọng bị mất trong các định nghĩa truyền thống. Theo thuật ngữ logic, giá trị P kiểm tra tất cả các giả định về cách dữ liệu được tạo (toàn bộ mô hình), không chỉ giả thuyết mục tiêu mà nó phải kiểm tra (chẳng hạn như giả thuyết không). Hơn nữa, những giả định này bao gồm nhiều hơn những gì được trình bày theo cách truyền thống dưới dạng giả định về xác suất hoặc mô hình hóa—chúng bao gồm các giả định về việc tiến hành phân tích, ví dụ như các kết quả phân tích trung gian không được sử dụng để xác định phân tích nào sẽ được trình bày

Đúng là giá trị P càng nhỏ thì dữ liệu càng bất thường nếu mọi giả định đơn lẻ đều đúng; . Ví dụ: giá trị P có thể rất nhỏ vì giả thuyết được nhắm mục tiêu là sai; . Ngược lại, giá trị P lớn chỉ cho biết rằng dữ liệu không bất thường trong mô hình, nhưng không ngụ ý rằng mô hình hoặc bất kỳ khía cạnh nào của nó (chẳng hạn như giả thuyết được nhắm mục tiêu) là chính xác;

Định nghĩa chung về giá trị P có thể giúp một người hiểu tại sao các bài kiểm tra thống kê cho chúng ta biết ít hơn nhiều so với những gì nhiều người nghĩ. Giá trị P không chỉ không cho chúng ta biết liệu giả thuyết được nhắm mục tiêu để thử nghiệm có đúng hay không;

Tuy nhiên, giá trị P có thể được xem như một phép đo liên tục về khả năng tương thích giữa dữ liệu và toàn bộ mô hình được sử dụng để tính toán nó, nằm trong khoảng từ 0 đối với hoàn toàn không tương thích đến 1 đối với khả năng tương thích hoàn hảo và theo nghĩa này có thể được xem là đo lường mức độ phù hợp. . Tuy nhiên, giá trị P thường bị giảm xuống thành một phép phân đôi trong đó kết quả được tuyên bố là “có ý nghĩa thống kê” nếu P rơi vào hoặc thấp hơn ngưỡng (thường là 0. 05) và được tuyên bố là "không đáng kể" nếu không. Các thuật ngữ “mức ý nghĩa” và “mức alpha” (α) thường được sử dụng để chỉ điểm giới hạn; . Sự khác biệt của họ là sâu sắc. giá trị giới hạn α được cho là cố định trước và do đó là một phần của thiết kế nghiên cứu, không thay đổi theo dữ liệu. Ngược lại, giá trị P là một số được tính toán từ dữ liệu và do đó là kết quả phân tích, không xác định được cho đến khi nó được tính toán

Chuyển từ thử nghiệm sang ước tính

Chúng ta có thể thay đổi giả thuyết kiểm tra trong khi giữ nguyên các giả định khác, để xem giá trị P khác nhau như thế nào giữa các giả thuyết kiểm tra cạnh tranh. Thông thường, các giả thuyết thử nghiệm này chỉ định các kích thước khác nhau cho một hiệu ứng được nhắm mục tiêu; . Kích thước ảnh hưởng mà thử nghiệm tạo ra P = 1 là kích thước tương thích nhất với dữ liệu (theo nghĩa dự đoán những gì được quan sát trên thực tế) nếu tất cả các giả định khác được sử dụng trong thử nghiệm (mô hình thống kê) là chính xác và cung cấp một điểm . Kích thước hiệu ứng mà thử nghiệm tạo ra P > 0. 05 thường sẽ xác định một loạt các kích cỡ (e. g. , từ 11. 0 đến 19. 5) sẽ được coi là tương thích với dữ liệu hơn (theo nghĩa là các quan sát gần với những gì mô hình dự đoán) hơn là các kích thước nằm ngoài phạm vi—một lần nữa, nếu mô hình thống kê là chính xác. Phạm vi này tương ứng với 1 − 0. 05 = 0. khoảng tin cậy 95 hoặc 95 % và cung cấp một cách thuận tiện để tóm tắt kết quả kiểm tra giả thuyết cho nhiều kích cỡ hiệu ứng. Khoảng tin cậy là ví dụ về ước tính khoảng

Neyman [76] đề xuất xây dựng khoảng tin cậy theo cách này vì chúng có tính chất sau. Giả sử, nếu một người tính toán lặp đi lặp lại khoảng tin cậy 95 % trong các ứng dụng hợp lệ, thì trung bình 95 % trong số đó sẽ chứa (i. e. , bao gồm hoặc che phủ) kích thước hiệu ứng thực. Do đó, mức độ tin cậy được chỉ định được gọi là xác suất bao phủ. Như Neyman đã nhấn mạnh nhiều lần, xác suất bao phủ này là thuộc tính của một chuỗi dài các khoảng tin cậy được tính toán từ các mô hình hợp lệ, chứ không phải là thuộc tính của bất kỳ khoảng tin cậy đơn lẻ nào.

Nhiều tạp chí hiện yêu cầu khoảng tin cậy, nhưng hầu hết các sách giáo khoa và nghiên cứu chỉ thảo luận về giá trị P cho giả thuyết không có hiệu lực. Việc tập trung hoàn toàn vào các giả thuyết vô hiệu trong thử nghiệm không chỉ góp phần gây hiểu lầm về các thử nghiệm và đánh giá thấp ước tính, mà còn che khuất mối quan hệ chặt chẽ giữa giá trị P và khoảng tin cậy, cũng như những điểm yếu mà chúng chia sẻ.

Giá trị P, khoảng tin cậy và tính toán công suất nào không cho chúng ta biết

Nhiều biến dạng phát sinh từ sự hiểu lầm cơ bản về giá trị P và họ hàng của chúng (chẳng hạn như khoảng tin cậy) không cho chúng ta biết. Do đó, dựa trên các bài viết trong danh sách tham khảo của chúng tôi, chúng tôi xem xét các cách giải thích sai về giá trị P phổ biến như một cách để chuyển sang các cách giải thích và trình bày có thể bào chữa được. Chúng tôi áp dụng định dạng của Goodman [40] trong việc cung cấp danh sách các cách giải thích sai có thể được sử dụng để đánh giá nghiêm túc các kết luận được đưa ra bởi các báo cáo nghiên cứu và đánh giá. Mỗi một tuyên bố in đậm trong danh sách của chúng tôi đã góp phần làm sai lệch thống kê các tài liệu khoa học, và chúng tôi thêm câu nhấn mạnh “Không. ” để nhấn mạnh những tuyên bố không chỉ ngụy biện mà còn không “đủ đúng cho các mục đích thực tế. ”

Giải thích sai phổ biến của các giá trị P đơn lẻ

ThePvalue là xác suất mà giả thuyết kiểm tra là đúng; . 01, giả thuyết vô hiệu chỉ có 1% cơ hội trở thành sự thật; . 40, giả thuyết vô hiệu có 40 % cơ hội là đúng. Không. Giá trị P giả định giả thuyết kiểm tra là đúng—nó không phải là xác suất giả thuyết và có thể khác xa bất kỳ xác suất hợp lý nào đối với giả thuyết kiểm tra. Giá trị P chỉ đơn giản biểu thị mức độ mà dữ liệu phù hợp với mẫu được dự đoán bởi giả thuyết thử nghiệm và tất cả các giả định khác được sử dụng trong thử nghiệm (mô hình thống kê cơ bản). Do đó P = 0. 01 sẽ chỉ ra rằng dữ liệu không gần với những gì mà mô hình thống kê (bao gồm cả giả thuyết kiểm định) đã dự đoán, trong khi P = 0. 40 sẽ chỉ ra rằng dữ liệu gần với dự đoán mô hình hơn nhiều, cho phép thay đổi cơ hội
Giá trị P cho giả thuyết không là xác suất mà chỉ riêng cơ hội đã tạo ra mối liên hệ được quan sát; . 08, có 8 % khả năng chỉ riêng sự ngẫu nhiên đã tạo ra sự liên kết. Không. Đây là một biến thể phổ biến của ngụy biện đầu tiên và nó cũng sai như vậy. Để nói rằng một mình cơ hội tạo ra mối liên hệ được quan sát là tương đương về mặt logic với việc khẳng định rằng mọi giả định được sử dụng để tính giá trị P là đúng, bao gồm cả giả thuyết không. Do đó, để tuyên bố rằng giá trị P null là xác suất mà một mình cơ hội tạo ra mối liên hệ được quan sát là hoàn toàn ngược. Giá trị P là xác suất được tính toán giả sử cơ hội hoạt động một mình. Sự vô lý của cách giải thích ngược phổ biến có thể được đánh giá cao bằng cách cân nhắc làm thế nào giá trị P, là xác suất được suy ra từ một tập hợp các giả định (mô hình thống kê), có thể đề cập đến xác suất của các giả định đó

Ghi chú. Người ta thường thấy cụm từ “một mình” bị loại bỏ khỏi mô tả này (trở thành “giá trị P cho giả thuyết không là xác suất mà sự tình cờ tạo ra mối liên hệ được quan sát”), do đó phát biểu này mơ hồ hơn, nhưng cũng sai
Một kết quả xét nghiệm quan trọng (P ≤ 0. 05) có nghĩa là giả thuyết kiểm tra là sai hoặc nên bị bác bỏ. Không. Một giá trị P nhỏ chỉ đơn giản đánh dấu dữ liệu là bất thường nếu tất cả các giả định được sử dụng để tính toán nó (bao gồm cả giả thuyết kiểm tra) là đúng; . 05). P ≤ 0. 05 chỉ có nghĩa là sự khác biệt so với dự đoán giả thuyết (e. g. , không có sự khác biệt giữa các nhóm xử lý) sẽ lớn hoặc lớn hơn mức quan sát được không quá 5 % thời gian nếu chỉ có cơ hội tạo ra sự khác biệt (trái ngược với việc vi phạm giả thuyết thử nghiệm hoặc giả định sai lầm)
Kết quả xét nghiệm không có ý nghĩa (P > 0. 05) có nghĩa là giả thuyết kiểm tra là đúng hoặc nên được chấp nhận. Không. Giá trị P lớn chỉ cho thấy rằng dữ liệu không bất thường nếu tất cả các giả định được sử dụng để tính giá trị P (bao gồm cả giả thuyết kiểm tra) đều đúng. Dữ liệu tương tự cũng sẽ không phải là bất thường theo nhiều giả thuyết khác. Hơn nữa, ngay cả khi giả thuyết kiểm tra là sai, giá trị P có thể lớn vì nó bị thổi phồng bởi một sai số ngẫu nhiên lớn hoặc do một số giả định sai lầm khác (ví dụ: giả định rằng giá trị P này không được chọn để trình bày vì nó . 05). P > 0. 05 chỉ có nghĩa là sự khác biệt so với dự đoán giả thuyết (e. g. , không có sự khác biệt giữa các nhóm xử lý) sẽ lớn bằng hoặc lớn hơn mức quan sát được trong hơn 5 % thời gian nếu chỉ có cơ hội tạo ra sự khác biệt
LargePvalue là bằng chứng ủng hộ giả thuyết thử nghiệm. Không. Trên thực tế, bất kỳ giá trị P nào nhỏ hơn 1 đều ngụ ý rằng giả thuyết kiểm tra không phải là giả thuyết tương thích nhất với dữ liệu, bởi vì bất kỳ giả thuyết nào khác có giá trị P lớn hơn sẽ thậm chí còn tương thích hơn với dữ liệu. Giá trị P không thể được cho là có lợi cho giả thuyết kiểm tra ngoại trừ liên quan đến những giả thuyết có giá trị P nhỏ hơn. Hơn nữa, giá trị P lớn thường chỉ cho thấy rằng dữ liệu không có khả năng phân biệt giữa nhiều giả thuyết cạnh tranh (như có thể thấy ngay bằng cách kiểm tra phạm vi của khoảng tin cậy). Ví dụ: nhiều tác giả sẽ hiểu sai P = 0. 70 từ một thử nghiệm về giả thuyết không là bằng chứng không có tác dụng, trong khi thực tế nó chỉ ra rằng, mặc dù giả thuyết không tương thích với dữ liệu theo các giả định được sử dụng để tính giá trị P, nhưng nó không phải là giả thuyết tương thích nhất với . Nhưng ngay cả khi P = 1, thì sẽ có nhiều giả thuyết khác rất nhất quán với dữ liệu, do đó không thể suy ra kết luận chắc chắn về "không có mối liên hệ" từ giá trị P, cho dù giá trị P có lớn đến đâu.
Một null-hypothesisPvalue lớn hơn 0. 05 có nghĩa là không quan sát thấy hiệu ứng nào hoặc không có hiệu ứng nào được hiển thị hoặc chứng minh. Không. Quan sát P > 0. 05 đối với giả thuyết không chỉ có nghĩa là giả thuyết không là một trong nhiều giả thuyết có P > 0. 05. Do đó, trừ khi ước tính điểm (liên kết được quan sát) bằng chính xác giá trị null, thì sẽ là sai lầm khi kết luận từ P > 0. 05 rằng một nghiên cứu tìm thấy "không có mối liên hệ" hoặc "không có bằng chứng" về hiệu ứng. Nếu giá trị null P nhỏ hơn 1, một số liên kết phải có trong dữ liệu và người ta phải xem ước tính điểm để xác định kích thước hiệu ứng tương thích nhất với dữ liệu trong mô hình giả định
Ý nghĩa thống kê cho thấy một mối quan hệ khoa học hoặc quan trọng thực chất đã được phát hiện. Không. Đặc biệt khi một nghiên cứu lớn, những tác động rất nhỏ hoặc vi phạm giả định nhỏ có thể dẫn đến các kiểm định có ý nghĩa thống kê đối với giả thuyết không. Một lần nữa, một giá trị null P nhỏ chỉ đơn giản đánh dấu dữ liệu là bất thường nếu tất cả các giả định được sử dụng để tính toán nó (bao gồm cả giả thuyết không) là đúng; . Người ta phải xem xét khoảng tin cậy để xác định quy mô ảnh hưởng nào của khoa học hoặc nội dung khác (e. g. , lâm sàng) tương đối tương thích với dữ liệu, dựa trên mô hình
Thiếu ý nghĩa thống kê chỉ ra rằng kích thước hiệu ứng là nhỏ. Không. Đặc biệt là khi một nghiên cứu nhỏ, ngay cả những tác động lớn cũng có thể bị “chìm trong tiếng ồn ào” và do đó không được phát hiện là có ý nghĩa thống kê bằng một thử nghiệm thống kê. Một giá trị null P lớn chỉ đơn giản đánh dấu dữ liệu là không bất thường nếu tất cả các giả định được sử dụng để tính toán nó (bao gồm cả giả thuyết kiểm tra) là đúng; . Một lần nữa, người ta phải xem xét khoảng tin cậy để xác định xem nó có bao gồm các mức độ quan trọng của hiệu ứng hay không.
ThePvalue là cơ hội dữ liệu của chúng tôi xảy ra nếu giả thuyết kiểm tra là đúng; . 05 có nghĩa là mối liên hệ được quan sát sẽ chỉ xảy ra trong 5 % thời gian theo giả thuyết thử nghiệm. Không. Giá trị P không chỉ đề cập đến những gì chúng tôi quan sát được, mà còn đề cập đến những quan sát cực đoan hơn những gì chúng tôi quan sát được (trong đó “cực đoan” được đo theo một cách cụ thể). Và một lần nữa, giá trị P đề cập đến tần suất dữ liệu khi tất cả các giả định được sử dụng để tính toán nó đều đúng. Ngoài giả thuyết kiểm tra, các giả định này bao gồm tính ngẫu nhiên trong lấy mẫu, chỉ định điều trị, mất mát và thiếu sót, cũng như giả định rằng giá trị P không được chọn để trình bày dựa trên kích thước của nó hoặc một số khía cạnh khác của kết quả
Nếu bạn bác bỏ giả thuyết kiểm định vì P ≤ 0. 05, khả năng bạn mắc lỗi (khả năng "phát hiện quan trọng" của bạn là dương tính giả) là 5 %. Không. Để xem tại sao mô tả này là sai, hãy giả sử giả thuyết kiểm tra trên thực tế là đúng. Sau đó, nếu bạn từ chối, khả năng bạn mắc lỗi là 100 % chứ không phải 5 %. 5% chỉ đề cập đến tần suất bạn sẽ từ chối nó và do đó mắc lỗi, qua rất nhiều lần sử dụng bài kiểm tra trong các nghiên cứu khác nhau khi giả thuyết kiểm tra và tất cả các giả định khác được sử dụng cho bài kiểm tra là đúng. Nó không đề cập đến việc bạn sử dụng bài kiểm tra một lần, điều này có thể đã bị loại bỏ do vi phạm giả định cũng như các lỗi ngẫu nhiên. Đây là một phiên bản khác của việc hiểu sai #1
P = 0. 05 và P ≤ 0. 05 có nghĩa là điều tương tự. Không. Điều này giống như nói chiều cao được báo cáo = 2 m và chiều cao được báo cáo ≤2 m là như nhau. "chiều cao = 2 m" sẽ bao gồm ít người và những người đó sẽ được coi là cao, trong khi "chiều cao ≤2 m" sẽ bao gồm hầu hết mọi người, kể cả trẻ nhỏ. Tương tự, P = 0. 05 sẽ được coi là kết quả ở ngưỡng về mặt ý nghĩa thống kê, trong khi P ≤ 0. 05 cục kết quả giáp ranh với kết quả rất không tương thích với mô hình (e. g. , P = 0. 0001) do đó làm cho ý nghĩa của nó mơ hồ, không có mục đích tốt
Pvalues are properly reported as inequalities (e.g., report “P < 0.02” whenP = 0.015 or report “P > 0.05” whenP = 0.06 orP = 0.70). No! This is bad practice because it makes it difficult or impossible for the reader to accurately interpret the statistical result. Only when the P value is very small (e.g., under 0.001) does an inequality become justifiable: There is little practical difference among very small P values when the assumptions used to compute P values are not known with enough certainty to justify such precision, and most methods for computing P values are not numerically accurate below a certain point.
Ý nghĩa thống kê là một thuộc tính của hiện tượng đang được nghiên cứu, và do đó kiểm tra thống kê phát hiện ý nghĩa. Không. Sự giải thích sai lầm này được thúc đẩy khi các nhà nghiên cứu tuyên bố rằng họ có hoặc không tìm thấy “bằng chứng” về một tác động có ý nghĩa thống kê. Hiệu ứng đang được thử nghiệm tồn tại hoặc không tồn tại. “Ý nghĩa thống kê” là một mô tả phân đôi của giá trị P (rằng nó nằm dưới ngưỡng đã chọn) và do đó là thuộc tính của kết quả kiểm tra thống kê;
Người ta phải luôn luôn sử dụng Pvalues hai mặt. Không. Các giá trị P hai mặt được thiết kế để kiểm tra các giả thuyết rằng thước đo tác động được nhắm mục tiêu bằng một giá trị cụ thể (e. g. , không) và không ở trên cũng không ở dưới giá trị này. Tuy nhiên, khi giả thuyết kiểm tra về lợi ích khoa học hoặc thực tiễn là giả thuyết một phía (phân chia), giá trị P một phía là phù hợp. Ví dụ, hãy xem xét câu hỏi thực tế về việc liệu một loại thuốc mới ít nhất có tốt bằng loại thuốc tiêu chuẩn để tăng thời gian sống sót hay không. Câu hỏi này là một phía, vì vậy việc kiểm tra giả thuyết này yêu cầu giá trị P một phía. Tuy nhiên, vì giá trị P hai mặt là giá trị mặc định thông thường, điều quan trọng cần lưu ý là khi nào và tại sao giá trị P một mặt được sử dụng thay thế

Có những cách giải thích khác về giá trị P đang gây tranh cãi, trong đó liệu câu trả lời phân loại “Không. ” được đảm bảo tùy thuộc vào triết lý thống kê của một người và ý nghĩa chính xác được đưa ra cho các thuật ngữ liên quan. Các tuyên bố gây tranh cãi xứng đáng được công nhận nếu một người muốn tránh tranh cãi như vậy

Ví dụ, người ta đã lập luận rằng các giá trị P phóng đại bằng chứng chống lại các giả thuyết thử nghiệm, dựa trên việc so sánh trực tiếp các giá trị P với các đại lượng nhất định (tỷ lệ khả năng xảy ra và các yếu tố Bayes) đóng vai trò trung tâm như là thước đo bằng chứng trong phân tích Bayes [37, 72, 77– . Tuy nhiên, nhiều nhà thống kê khác không chấp nhận những đại lượng này như tiêu chuẩn vàng, và thay vào đó chỉ ra rằng các giá trị P tóm tắt bằng chứng quan trọng cần thiết để đánh giá tỷ lệ lỗi của các quyết định dựa trên các kiểm tra thống kê (mặc dù chúng không đủ để đưa ra các quyết định đó). Do đó, từ quan điểm thường xuyên này, giá trị P không cường điệu hóa bằng chứng và thậm chí có thể được coi là đo lường một khía cạnh của bằng chứng [7, 8, 84–87], với 1 − P đo lường bằng chứng dựa trên mô hình được sử dụng để tính toán giá trị P. Xem thêm Murtaugh [88] và thảo luận kèm theo

Các giải thích sai phổ biến về so sánh và dự đoán giá trị P

Một số biến dạng nghiêm trọng nhất của tài liệu khoa học do thử nghiệm thống kê tạo ra liên quan đến việc so sánh và tổng hợp sai kết quả từ các nghiên cứu hoặc phân nhóm nghiên cứu khác nhau. Trong số những điều tồi tệ nhất là

15
Khi cùng một giả thuyết được thử nghiệm trong các nghiên cứu khác nhau và không có hoặc một số ít các thử nghiệm có ý nghĩa thống kê (allP > 0. 05), bằng chứng tổng thể ủng hộ giả thuyết. Không. Niềm tin này thường được sử dụng để tuyên bố rằng một tài liệu hỗ trợ không có tác dụng khi điều ngược lại xảy ra. Nó phản ánh xu hướng của các nhà nghiên cứu là “đánh giá quá cao sức mạnh của hầu hết các nghiên cứu” [89]. Trên thực tế, mọi nghiên cứu có thể không đạt được ý nghĩa thống kê nhưng khi kết hợp lại cho thấy mối liên hệ có ý nghĩa thống kê và bằng chứng thuyết phục về tác động. Ví dụ: nếu có 5 nghiên cứu, mỗi nghiên cứu có P = 0. 10, không có ý nghĩa nào ở mức 0. 05 cấp; . 01. Có rất nhiều ví dụ thực tế về bằng chứng thuyết phục cho những tác động quan trọng khi ít nghiên cứu hoặc thậm chí không có nghiên cứu nào báo cáo về mối liên hệ “có ý nghĩa thống kê” [90, 91]. Do đó, việc thiếu ý nghĩa thống kê của các nghiên cứu riêng lẻ không nên được coi là ngụ ý rằng toàn bộ bằng chứng hỗ trợ không có tác dụng
16
Khi cùng một giả thuyết được kiểm tra ở hai quần thể khác nhau và các giá trị kết quả nằm ở hai phía đối diện của 0. 05, kết quả mâu thuẫn. Không. Các phép kiểm tra thống kê rất nhạy cảm với nhiều khác biệt giữa các quần thể nghiên cứu không liên quan đến việc kết quả của chúng có phù hợp hay không, chẳng hạn như quy mô của các nhóm được so sánh trong mỗi quần thể. Kết quả là, hai nghiên cứu có thể cung cấp các giá trị P rất khác nhau cho cùng một giả thuyết kiểm định nhưng lại hoàn toàn thống nhất với nhau (e. g. , có thể hiển thị các liên kết được quan sát giống hệt nhau). Ví dụ: giả sử chúng ta có hai thử nghiệm ngẫu nhiên A và B về một phương pháp điều trị, giống hệt nhau ngoại trừ thử nghiệm A có sai số chuẩn đã biết là 2 đối với sự khác biệt trung bình giữa các nhóm điều trị trong khi thử nghiệm B có sai số chuẩn đã biết là 1 đối với sự khác biệt. Nếu cả hai thử nghiệm đều quan sát thấy sự khác biệt giữa các nhóm điều trị chính xác là 3, thì phép thử thông thường thông thường sẽ cho kết quả P = 0. 13 trong A nhưng P = 0. 003 trong B. Bất chấp sự khác biệt về giá trị P, kiểm định giả thuyết về việc không có sự khác biệt về hiệu quả giữa các nghiên cứu sẽ có P = 1, phản ánh sự thống nhất hoàn hảo về sự khác biệt trung bình quan sát được từ các nghiên cứu. Sự khác biệt giữa các kết quả phải được đánh giá trực tiếp, ví dụ bằng cách ước tính và kiểm tra những khác biệt đó để tạo ra khoảng tin cậy và giá trị P so sánh kết quả (thường được gọi là phân tích tính không đồng nhất, tương tác hoặc sửa đổi)
17
Khi cùng một giả thuyết được thử nghiệm ở hai quần thể khác nhau và thu được các giá trị P giống nhau, kết quả phù hợp. Không. Một lần nữa, các bài kiểm tra nhạy cảm với nhiều sự khác biệt giữa các quần thể không liên quan đến việc kết quả của chúng có phù hợp hay không. Hai nghiên cứu khác nhau thậm chí có thể thể hiện các giá trị P giống hệt nhau để kiểm tra cùng một giả thuyết nhưng cũng thể hiện các mối liên hệ được quan sát rõ ràng khác nhau. Ví dụ: giả sử thử nghiệm ngẫu nhiên A đã quan sát thấy sự khác biệt trung bình giữa các nhóm điều trị gồm 3. 00 với lỗi tiêu chuẩn 1. 00, trong khi B quan sát thấy sự khác biệt trung bình là 12. 00 với lỗi tiêu chuẩn 4. 00. Sau đó, thử nghiệm bình thường tiêu chuẩn sẽ tạo ra P = 0. 003 trong cả hai; . 03, phản ánh sự khác biệt lớn (12. 00 − 3. 00 = 9. 00) giữa sự khác biệt trung bình
18
Nếu một người quan sát thấy một Pvalue nhỏ, thì rất có thể nghiên cứu tiếp theo sẽ tạo ra một Pvalue ít nhất là nhỏ cho cùng một giả thuyết. Không. Điều này là sai ngay cả trong điều kiện lý tưởng là cả hai nghiên cứu đều độc lập và tất cả các giả định bao gồm cả giả thuyết kiểm tra đều đúng trong cả hai nghiên cứu. Trong trường hợp đó, nếu (giả sử) một người quan sát thấy P = 0. 03, cơ hội mà nghiên cứu mới sẽ hiển thị P ≤ 0. 03 chỉ là 3 %; . Mặt khác, nếu giá trị P nhỏ phát sinh chỉ vì hiệu quả thực sự bằng chính xác ước tính được quan sát của nó, thì sẽ có 50 % khả năng một thử nghiệm lặp lại có thiết kế giống hệt nhau sẽ có giá trị P lớn hơn [37]. Nói chung, kích thước của giá trị P mới sẽ cực kỳ nhạy cảm với quy mô nghiên cứu và mức độ mà giả thuyết kiểm tra hoặc các giả định khác bị vi phạm trong nghiên cứu mới [86];

Cuối cùng, mặc dù (chúng tôi hy vọng rõ ràng là) sai khi làm như vậy, đôi khi người ta thấy giả thuyết không được so sánh với một giả thuyết (thay thế) khác bằng cách sử dụng giá trị P hai phía cho giá trị không và giá trị P một phía cho phương án thay thế. Sự so sánh này thiên về giá trị không ở chỗ phép thử hai phía sẽ loại bỏ sai giá trị không bằng một nửa tần suất như phép thử một phía sẽ loại bỏ sai phương án thay thế (một lần nữa, theo tất cả các giả định được sử dụng để thử nghiệm)

Những hiểu sai phổ biến về khoảng tin cậy

Hầu hết các giải thích sai ở trên chuyển thành một giải thích sai tương tự cho khoảng tin cậy. Ví dụ: một cách hiểu sai khác về P > 0. 05 có nghĩa là giả thuyết thử nghiệm chỉ có 5 % khả năng sai, điều này về mặt khoảng tin cậy trở thành sai lầm phổ biến

19
Khoảng tin cậy 95 % cụ thể do một nghiên cứu trình bày có 95 % khả năng chứa kích thước ảnh hưởng thực. Không. Khoảng tin cậy được báo cáo là một phạm vi giữa hai số. Tần suất mà một khoảng quan sát được (e. g. , 0. 72–2. 88) chứa hiệu ứng thực là 100 % nếu hiệu ứng thực nằm trong khoảng hoặc 0 % nếu không; . Có thể tính toán một khoảng có thể được hiểu là có 95 % xác suất chứa giá trị thực; . Các giả định khác này được tóm tắt trong cái được gọi là phân phối trước và các khoảng kết quả thường được gọi là các khoảng sau Bayesian (hoặc đáng tin cậy) để phân biệt chúng với các khoảng tin cậy [18]

Về mặt đối xứng, việc giải thích sai giá trị P nhỏ khi bác bỏ giả thuyết kiểm tra có thể được chuyển thành

20
Kích thước hiệu ứng nằm ngoài khoảng tin cậy 95% đã bị dữ liệu bác bỏ (hoặc loại trừ). Không. Cũng như giá trị P, khoảng tin cậy được tính toán từ nhiều giả định, việc vi phạm có thể dẫn đến kết quả. Do đó, việc kết hợp dữ liệu với các giả định, cùng với tiêu chí 95 % tùy ý, cần thiết để tuyên bố kích thước hiệu ứng bên ngoài khoảng không tương thích với các quan sát theo một cách nào đó. Ngay cả khi đó, những phán đoán cực đoan như nói rằng kích thước hiệu ứng đã bị bác bỏ hoặc loại trừ sẽ đòi hỏi những điều kiện thậm chí còn mạnh mẽ hơn

Cũng như các giá trị P, việc so sánh ngây thơ các khoảng tin cậy có thể gây hiểu lầm cao

21
Nếu hai khoảng tin cậy trùng nhau, sự khác biệt giữa hai ước tính hoặc nghiên cứu là không đáng kể. Không. Khoảng tin cậy 95 % từ hai nhóm nhỏ hoặc nghiên cứu có thể trùng lặp đáng kể và kiểm tra sự khác biệt giữa chúng vẫn có thể tạo ra P < 0. 05. Ví dụ: giả sử hai khoảng tin cậy 95 % cho các phương tiện từ các quần thể bình thường có phương sai đã biết là (1. 04, 4. 96) và (4. 16, 19. 84); . 03. Cũng như giá trị P, việc so sánh giữa các nhóm yêu cầu số liệu thống kê trực tiếp kiểm tra và ước tính sự khác biệt giữa các nhóm. Tuy nhiên, có thể lưu ý rằng nếu hai khoảng tin cậy 95 % không trùng nhau, thì khi sử dụng cùng một giả định được sử dụng để tính khoảng tin cậy, chúng ta sẽ thấy P < 0. 05 cho sự khác biệt; . 05 cho sự khác biệt

Cuối cùng, như với các giá trị P, các thuộc tính sao chép của khoảng tin cậy thường bị hiểu sai

22
Khoảng tin cậy 95 % được quan sát dự đoán rằng 95 % ước tính từ các nghiên cứu trong tương lai sẽ nằm trong khoảng được quan sát. Không. Tuyên bố này là sai trong một số cách. Quan trọng nhất, theo mô hình, 95 % là tần suất mà các khoảng thời gian không được quan sát khác sẽ chứa tác động thực sự, chứ không phải tần suất một khoảng thời gian được trình bày sẽ chứa các ước tính trong tương lai. Trên thực tế, ngay cả trong những điều kiện lý tưởng, khả năng ước tính trong tương lai sẽ nằm trong khoảng thời gian hiện tại thường sẽ thấp hơn nhiều so với 95%. Ví dụ: nếu hai nghiên cứu độc lập về cùng số lượng đưa ra ước tính điểm bình thường không chệch với cùng sai số chuẩn, thì khả năng khoảng tin cậy 95 % cho nghiên cứu đầu tiên chứa ước tính điểm từ nghiên cứu thứ hai là 83 % (tức là khả năng . 96 lỗi tiêu chuẩn). Một lần nữa, một khoảng thời gian được quan sát có hoặc không chứa hiệu ứng thực sự;
23
Nếu một khoảng tin cậy 95 % bao gồm giá trị null và một khoảng tin cậy khác loại trừ giá trị đó, thì khoảng không bao gồm giá trị null là khoảng chính xác hơn. Không. Khi mô hình đúng, độ chính xác của ước lượng thống kê được đo trực tiếp bằng độ rộng khoảng tin cậy (được đo trên thang đo thích hợp). Đây không phải là vấn đề bao gồm hoặc loại trừ null hoặc bất kỳ giá trị nào khác. Xem xét hai khoảng tin cậy 95 % cho sự khác biệt về phương tiện, một có giới hạn là 5 và 40, khoảng còn lại có giới hạn là -5 và 10. Khoảng đầu tiên không bao gồm giá trị null của 0, nhưng rộng 30 đơn vị. Cái thứ hai bao gồm giá trị null, nhưng rộng bằng một nửa và do đó chính xác hơn nhiều

Ngoài các cách hiểu sai ở trên, khoảng tin cậy 95 % buộc 0. Ngưỡng 05 cấp trên đầu đọc, gộp tất cả các kích thước hiệu ứng lại với nhau với P > 0. 05, và theo cách này cũng tệ như việc trình bày các giá trị P dưới dạng phân đôi. Tuy nhiên, nhiều tác giả đồng ý rằng khoảng tin cậy vượt trội hơn so với các kiểm định và giá trị P vì chúng cho phép người ta chuyển sự tập trung khỏi giả thuyết khống, sang toàn bộ phạm vi kích thước hiệu ứng tương thích với dữ liệu—một sự thay đổi được nhiều tác giả khuyến nghị và số lượng ngày càng tăng . Một cách khác để thu hút sự chú ý đến các giả thuyết không có giá trị là trình bày các giá trị P của chúng;

Cũng như các giá trị P, cần thận trọng hơn nữa để tránh hiểu sai khoảng tin cậy khi cung cấp câu trả lời rõ ràng khi không có gì được đảm bảo. Giả thuyết cho biết ước tính điểm là hiệu ứng chính xác sẽ có giá trị P lớn nhất (P = 1 trong hầu hết các trường hợp) và các giả thuyết bên trong khoảng tin cậy sẽ có giá trị P cao hơn các giả thuyết bên ngoài khoảng tin cậy. Tuy nhiên, các giá trị P sẽ khác nhau rất nhiều giữa các giả thuyết bên trong khoảng cũng như giữa các giả thuyết bên ngoài. Ngoài ra, hai giả thuyết có thể có giá trị P gần bằng nhau mặc dù một trong các giả thuyết nằm trong khoảng và giả thuyết kia nằm ngoài. Vì vậy, nếu chúng ta sử dụng các giá trị P để đo lường mức độ tương thích của các giả thuyết với dữ liệu và muốn so sánh các giả thuyết với thước đo này, chúng ta cần kiểm tra trực tiếp các giá trị P của chúng, chứ không chỉ đơn giản hỏi liệu các giả thuyết nằm trong hay ngoài khoảng. Nhu cầu này đặc biệt cấp thiết khi (như thường lệ) một trong những giả thuyết được xem xét kỹ lưỡng là một giả thuyết không

Những hiểu lầm phổ biến về quyền lực

Sức mạnh của một bài kiểm tra để phát hiện một giả thuyết thay thế đúng là xác suất trước khi nghiên cứu rằng bài kiểm tra sẽ bác bỏ giả thuyết kiểm tra (e. g. , xác suất P sẽ không vượt quá giới hạn được chỉ định trước, chẳng hạn như 0. 05). (Xác suất trước nghiên cứu tương ứng của việc không bác bỏ giả thuyết kiểm tra khi phương án thay thế đúng bằng một trừ đi công suất, còn được gọi là tỷ lệ lỗi loại II hoặc beta) [84] Cũng như giá trị P và khoảng tin cậy, xác suất này . Một nguồn của các giả thuyết thay thế hợp lý là kích thước hiệu ứng đã được sử dụng để tính toán sức mạnh trong đề xuất nghiên cứu. Tuy nhiên, các phép tính công suất trước khi nghiên cứu không đo lường tính tương thích của các phương án này với dữ liệu thực tế được quan sát, trong khi công suất tính toán từ dữ liệu được quan sát là một phép biến đổi trực tiếp (nếu không rõ ràng) của giá trị P null và do đó không cung cấp phép thử cho các phương án. Do đó, việc trình bày công suất không làm giảm nhu cầu đưa ra ước tính khoảng thời gian và thử nghiệm trực tiếp các phương án

Vì những lý do này, nhiều tác giả đã lên án việc sử dụng quyền lực để giải thích các ước tính và kiểm tra thống kê [42, 92–97], lập luận rằng (ngược lại với khoảng tin cậy) nó làm phân tán sự chú ý khỏi việc so sánh trực tiếp các giả thuyết và đưa ra những cách hiểu sai mới, chẳng hạn như

24
Nếu bạn chấp nhận giả thuyết không vì nullPvalue vượt quá 0. 05 và khả năng xét nghiệm của bạn là 90 %, khả năng bạn mắc lỗi (khả năng phát hiện của bạn là âm tính giả) là 10 %. Không. Nếu giả thuyết vô hiệu là sai và bạn chấp nhận nó, khả năng bạn mắc lỗi là 100 % chứ không phải 10 %. Ngược lại, nếu giả thuyết vô hiệu là đúng và bạn chấp nhận nó, khả năng bạn mắc lỗi là 0%. 10 % chỉ đề cập đến tần suất bạn mắc lỗi trong rất nhiều lần sử dụng thử nghiệm trong các nghiên cứu khác nhau khi phương án thay thế cụ thể được sử dụng để tính toán công suất là chính xác và tất cả các giả định khác được sử dụng cho thử nghiệm đều đúng trong tất cả các nghiên cứu. Nó không đề cập đến việc bạn sử dụng thử nghiệm một lần hoặc tỷ lệ lỗi của bạn theo bất kỳ kích thước hiệu ứng thay thế nào khác ngoài kích thước được sử dụng để tính công suất

Đặc biệt có thể gây hiểu lầm khi so sánh kết quả của hai giả thuyết bằng cách trình bày phép thử hoặc giá trị P cho một giả thuyết và lũy thừa cho giả thuyết kia. Ví dụ: kiểm tra null bằng cách xem liệu P ≤ 0. 05 với lũy thừa nhỏ hơn 1 − 0. 05 = 0. 95 đối với phương án thay thế (như được thực hiện thường xuyên) sẽ làm sai lệch so sánh có lợi cho null vì nó kéo theo xác suất từ chối sai null (0. 05) so với việc chấp nhận giá trị rỗng không chính xác khi phương án thay thế là đúng. Do đó, tuyên bố về hỗ trợ hoặc bằng chứng tương đối cần phải dựa trên các biện pháp hỗ trợ hoặc bằng chứng trực tiếp và có thể so sánh được cho cả hai giả thuyết, nếu không sẽ xảy ra những sai lầm như sau

25
Nếu nullPvalue vượt quá 0. 05 và hiệu suất của thử nghiệm này là 90 % ở phương án thay thế, kết quả ủng hộ giá trị không đối với phương án thay thế. Tuyên bố này có vẻ trực quan đối với nhiều người, nhưng rất dễ xây dựng các phản ví dụ trong đó giá trị P null nằm trong khoảng từ 0. 05 và 0. 10, nhưng vẫn có những lựa chọn thay thế có giá trị P riêng vượt quá 0. 10 và công suất bằng 0. 90. Các kết quả song song xảy ra đối với các biện pháp tương thích, bằng chứng và hỗ trợ được chấp nhận khác, chỉ ra rằng dữ liệu cho thấy khả năng tương thích thấp hơn và nhiều bằng chứng chống lại null hơn so với phương án thay thế, mặc dù thực tế là giá trị P null “không đáng kể” ở mức 0. 05 mức alpha và sức mạnh chống lại sự thay thế là “rất cao” [42]

Mặc dù có những thiếu sót trong việc giải thích dữ liệu hiện tại, sức mạnh có thể hữu ích cho việc thiết kế các nghiên cứu và để hiểu tại sao việc sao chép “ý nghĩa thống kê” thường thất bại ngay cả trong điều kiện lý tưởng. Các nghiên cứu thường được thiết kế hoặc tuyên bố là có 80 % sức mạnh so với phương án chính khi sử dụng 0. 05, mặc dù trong quá trình thực thi thường có ít quyền lực hơn do các vấn đề không lường trước được như tuyển dụng đối tượng thấp. Do đó, nếu phương án thay thế là đúng và hiệu quả thực tế của hai nghiên cứu là 80 %, thì khả năng cả hai nghiên cứu sẽ hiển thị P ≤ 0. 05 tốt nhất sẽ chỉ là 0. 80(0. 80) = 64 %; . 05 và cái kia thì không (và do đó sẽ bị hiểu sai là hiển thị kết quả mâu thuẫn) là 2(0. 80)0. 20 = 32 % hay khoảng 1 phần 3 cơ hội. Các tính toán tương tự có tính đến các vấn đề điển hình cho thấy rằng người ta có thể dự đoán một “cuộc khủng hoảng sao chép” ngay cả khi không có sự sai lệch trong xuất bản hoặc báo cáo, đơn giản vì các quy ước thiết kế và thử nghiệm hiện tại coi các kết quả nghiên cứu riêng lẻ là kết quả phân đôi của “đáng kể”/“không đáng kể” hoặc . ”

Một mô hình thống kê không chỉ là một phương trình với các chữ cái Hy Lạp

Danh sách trên có thể được mở rộng bằng cách xem xét các tài liệu nghiên cứu. Tuy nhiên, bây giờ chúng ta sẽ chuyển sang thảo luận trực tiếp về một vấn đề gần đây đã nhận được nhiều sự quan tâm hơn nhưng vẫn bị nhiều người bỏ qua hoặc diễn giải quá hạn hẹp trong giảng dạy và thuyết trình thống kê. Mô hình thống kê được sử dụng để thu được kết quả là chính xác

Quá thường xuyên, mô hình thống kê đầy đủ được coi là một phương trình cấu trúc hoặc hồi quy đơn giản trong đó các hiệu ứng được biểu thị bằng các tham số được biểu thị bằng các chữ cái Hy Lạp. Sau đó, “kiểm tra mô hình” được giới hạn trong các thử nghiệm về sự phù hợp hoặc thử nghiệm các điều khoản bổ sung cho mô hình. Tuy nhiên, bản thân các bài kiểm tra về sự phù hợp này lại đưa ra các giả định xa hơn nên được coi là một phần của mô hình đầy đủ. Ví dụ: tất cả các thử nghiệm thông thường và khoảng tin cậy phụ thuộc vào các giả định về lựa chọn ngẫu nhiên để quan sát hoặc xử lý và mất hoặc thiếu ngẫu nhiên trong các mức độ của các đồng biến được kiểm soát. Những giả định này dần dần được xem xét kỹ lưỡng thông qua phân tích độ nhạy và sai lệch [98], nhưng những phương pháp như vậy vẫn còn xa vời với đào tạo thống kê cơ bản dành cho hầu hết các nhà nghiên cứu

Ít được nêu ra hơn là giả định thậm chí còn quan trọng hơn rằng bản thân các phân tích không được hướng dẫn để tìm ra sự không quan trọng hoặc có ý nghĩa (độ lệch phân tích) và các kết quả phân tích không được báo cáo dựa trên mức độ không có ý nghĩa hoặc tầm quan trọng của chúng (độ lệch báo cáo và độ lệch xuất bản). Báo cáo chọn lọc hiển thị sai ngay cả những ý nghĩa lý tưởng hạn chế về ý nghĩa thống kê, giá trị P và khoảng tin cậy. Bởi vì quyết định báo cáo của tác giả và quyết định biên tập công bố kết quả thường phụ thuộc vào việc giá trị P cao hơn hay thấp hơn 0. 05, báo cáo có chọn lọc đã được xác định là một vấn đề lớn trong phần lớn tài liệu khoa học [99–101]

Mặc dù vấn đề lựa chọn này cũng đã được phân tích độ nhạy, nhưng đã có sự sai lệch trong các nghiên cứu về sai lệch báo cáo và xuất bản. Người ta thường cho rằng những thành kiến này có ý nghĩa quan trọng. Tất nhiên, giả định này đúng khi (như thường lệ) các nhà nghiên cứu chọn kết quả để trình bày khi P ≤ 0. 05, một thói quen có xu hướng phóng đại các liên tưởng [101–105]. Tuy nhiên, xu hướng ủng hộ báo cáo P ≤ 0. 05 không phải lúc nào cũng hợp lý chứ đừng nói đến bằng chứng hoặc lẽ thường. Ví dụ: một người có thể mong đợi lựa chọn cho P > 0. 05 trong các ấn phẩm được tài trợ bởi những người có cổ phần trong việc chấp nhận giả thuyết khống (một thực tế có xu hướng đánh giá thấp các hiệp hội);

Giải quyết những vấn đề như vậy sẽ đòi hỏi ý chí và nỗ lực chính trị cao hơn nhiều so với giải quyết việc hiểu sai số liệu thống kê, chẳng hạn như thực thi đăng ký thử nghiệm, cùng với dữ liệu mở và mã phân tích từ tất cả các nghiên cứu đã hoàn thành (như trong sáng kiến AllTrials, http. //www. tất cả thử nghiệm. mạng lưới/). Trong thời gian chờ đợi, độc giả nên xem xét toàn bộ bối cảnh mà các báo cáo nghiên cứu được tạo ra và xuất hiện khi diễn giải các số liệu thống kê và kết luận được đưa ra bởi các báo cáo

kết luận

Khi nhận ra rằng các bài kiểm tra thống kê thường bị hiểu sai, người ta có thể tự hỏi liệu những bài kiểm tra này có tác dụng gì đối với khoa học hay không?. Ban đầu, chúng được dự định coi tính biến thiên ngẫu nhiên là nguồn gốc của sai số, do đó có vẻ như là một lưu ý thận trọng đối với việc giải thích quá mức các mối liên hệ được quan sát là tác động thực sự hoặc là bằng chứng mạnh mẽ hơn chống lại các giả thuyết không được bảo đảm. Nhưng chẳng bao lâu sau, việc sử dụng đó đã bị lật tẩy để cung cấp sự hỗ trợ sai lầm cho các giả thuyết vô hiệu dưới dạng “không đạt được” hoặc “không đạt được” ý nghĩa thống kê

Chúng tôi chắc chắn rằng những người sáng lập thử nghiệm thống kê hiện đại sẽ kinh hoàng trước các phương pháp điều trị phổ biến cho phát minh của họ. Trong bài báo đầu tiên mô tả cách tiếp cận nhị phân của họ đối với thử nghiệm thống kê, Neyman và Pearson [108] đã viết rằng “điều đáng nghi ngờ là liệu kiến thức [giá trị P] có thực sự bằng 0 hay không. 03 (hoặc 0. 06), thay vì 0. 05…trên thực tế sẽ không bao giờ thay đổi phán đoán của chúng ta” và rằng “Bản thân các bài kiểm tra không đưa ra phán quyết cuối cùng, mà là công cụ giúp người lao động đang sử dụng chúng đưa ra quyết định cuối cùng của mình. ” Pearson [109] sau đó nói thêm, “Không còn nghi ngờ gì nữa, chúng tôi có thể nói một cách thích hợp hơn, ‘quyết định cuối cùng hoặc tạm thời của anh ấy. ’” Fisher [110] còn đi xa hơn, nói rằng “Không một nhà khoa học nào có một mức độ ý nghĩa cố định mà từ năm này qua năm khác, và trong mọi hoàn cảnh, anh ta bác bỏ các giả thuyết; . ” Tuy nhiên, việc sử dụng các bài kiểm tra một cách sai lầm và mang tính nghi thức vẫn tiếp tục lan rộng, bao gồm niềm tin rằng P cao hơn hay thấp hơn 0. 05 là trọng tài khám phá toàn cầu. Vì vậy, đến năm 1965, Hill [111] than thở rằng “chúng ta thường xuyên làm suy yếu khả năng diễn giải dữ liệu và đưa ra các quyết định hợp lý bất kể giá trị của P là bao nhiêu. Và quá thường xuyên, chúng ta suy ra 'không có sự khác biệt' từ 'không có sự khác biệt đáng kể'. ’”

Đáp lại, người ta lập luận rằng một số diễn giải sai là vô hại trong các thí nghiệm được kiểm soát chặt chẽ trên các hệ thống đã được hiểu rõ, trong đó giả thuyết thử nghiệm có thể có sự hỗ trợ đặc biệt từ các lý thuyết đã được thiết lập (e. g. , di truyền học Mendel) và trong đó mọi giả định khác (chẳng hạn như phân bổ ngẫu nhiên) buộc phải tuân theo thiết kế và thực hiện nghiên cứu cẩn thận. Nhưng từ lâu người ta đã khẳng định rằng tác hại của thử nghiệm thống kê trong các môi trường nghiên cứu vô định hình và không thể kiểm soát hơn (chẳng hạn như các lĩnh vực khoa học xã hội, y tế và y tế) vượt xa lợi ích của nó, dẫn đến lời kêu gọi cấm các thử nghiệm như vậy trong các báo cáo nghiên cứu—một lần nữa

Tuy nhiên, do sự thâm nhập sâu sắc của kiểm tra thống kê, cũng như sự vắng mặt của các phương pháp thay thế được chấp nhận rộng rãi, đã có nhiều nỗ lực cứu vãn các giá trị P bằng cách tách chúng ra khỏi việc sử dụng chúng trong các kiểm tra ý nghĩa. Một cách tiếp cận là tập trung vào các giá trị P như các biện pháp tương thích liên tục, như được mô tả trước đó. Mặc dù cách tiếp cận này có những hạn chế riêng (như được mô tả trong các điểm 1, 2, 5, 9, 15, 18, 19), nhưng nó tránh được việc so sánh các giá trị P với các ngưỡng tùy ý như 0. 05, (như được mô tả trong 3, 4, 6–8, 10–13, 15, 16, 21 và 23–25). Một cách tiếp cận khác là dạy và sử dụng các mối quan hệ chính xác của giá trị P với xác suất giả thuyết. Ví dụ, dưới các mô hình thống kê phổ biến, các giá trị P một phía có thể cung cấp các giới hạn thấp hơn về xác suất cho các giả thuyết về hướng tác động [45, 46, 112, 113]. Liệu những giải thích lại như vậy cuối cùng có thể thay thế những giải thích sai phổ biến để có hiệu quả tốt hay không vẫn còn phải xem

Sự thay đổi trọng tâm từ kiểm tra giả thuyết sang ước tính đã được thúc đẩy như một cách đơn giản và tương đối an toàn để cải thiện thực hành [5, 61, 63, 114, 115] dẫn đến việc sử dụng khoảng tin cậy ngày càng nhiều và nhu cầu biên tập đối với chúng; . Các cách tiếp cận khác kết hợp các phép kiểm định giá trị không với các tính toán tiếp theo liên quan đến cả giả thuyết không và giả thuyết thay thế [117, 118];

Đồng thời, với hy vọng giảm thiểu tác hại của thực tiễn hiện tại, chúng tôi có thể đưa ra một số hướng dẫn cho người dùng và người đọc số liệu thống kê, đồng thời nhấn mạnh lại một số cảnh báo chính từ danh sách các cách hiểu sai của chúng tôi

Việc giải thích chính xác và cẩn thận các phép kiểm tra thống kê đòi hỏi phải kiểm tra quy mô của các ước tính tác động và giới hạn độ tin cậy, cũng như các giá trị P chính xác (không chỉ liệu giá trị P có cao hơn hay thấp hơn 0 hay không). 05 hoặc một số ngưỡng khác)
Việc giải thích cẩn thận cũng đòi hỏi phải xem xét kỹ lưỡng các giả định và quy ước được sử dụng cho phân tích thống kê—không chỉ các giả định thống kê thông thường mà còn cả các giả định ẩn về cách kết quả được tạo ra và chọn để trình bày
Đơn giản là sai khi tuyên bố rằng các kết quả không có ý nghĩa thống kê hỗ trợ cho một giả thuyết kiểm định, bởi vì các kết quả tương tự thậm chí có thể tương thích hơn với các giả thuyết thay thế - ngay cả khi sức mạnh của thử nghiệm đối với các lựa chọn thay thế đó là cao
Ước tính khoảng giúp đánh giá liệu dữ liệu có khả năng phân biệt giữa các giả thuyết khác nhau về quy mô hiệu ứng hay không hoặc liệu kết quả thống kê có bị trình bày sai để ủng hộ một giả thuyết hay không khi những kết quả đó được giải thích tốt hơn bằng các giả thuyết khác (xem điểm 4–6). Tuy nhiên, chúng tôi lưu ý rằng khoảng tin cậy thường chỉ là bước đầu tiên trong các nhiệm vụ này. Để so sánh các giả thuyết dựa trên dữ liệu và mô hình thống kê, có thể cần phải tính giá trị P (hoặc khả năng tương đối) của từng giả thuyết. Chúng tôi lưu ý thêm rằng các khoảng tin cậy chỉ cung cấp thước đo trường hợp tốt nhất về độ không chắc chắn hoặc tính không rõ ràng do dữ liệu để lại, trong chừng mực chúng phụ thuộc vào một mô hình thống kê không chắc chắn
Đánh giá thống kê chính xác của nhiều nghiên cứu yêu cầu phân tích tổng hợp hoặc phân tích tổng hợp xử lý chính xác các sai lệch trong nghiên cứu [68, 119–125]. Tuy nhiên, ngay cả khi điều này được thực hiện, tất cả các cảnh báo trước đó vẫn được áp dụng. Hơn nữa, kết quả của bất kỳ quy trình thống kê nào chỉ là một trong nhiều cân nhắc phải được đánh giá khi kiểm tra toàn bộ bằng chứng. Cụ thể, ý nghĩa thống kê không cần thiết cũng không đủ để xác định ý nghĩa khoa học hoặc thực tiễn của một tập hợp các quan sát. Quan điểm này đã được U. S. Tòa án tối cao, (Matrixx Initiatives, Inc. , et al. v. Siracusano và cộng sự. Không. 09–1156. Tranh luận ngày 10 tháng 1 năm 2011, Quyết định ngày 22 tháng 3 năm 2011), và có thể thấy trong các trích dẫn trước đó của chúng tôi từ Neyman và Pearson
Bất kỳ ý kiến nào được đưa ra về xác suất, khả năng xảy ra, sự chắc chắn hoặc thuộc tính tương tự đối với một giả thuyết đều không thể chỉ xuất phát từ các phương pháp thống kê. Cụ thể, bản thân các phép kiểm định mức ý nghĩa và khoảng tin cậy không cung cấp cơ sở hợp lý hợp lý để kết luận có hoặc không có hiệu ứng một cách chắc chắn hoặc xác suất nhất định. Điểm này cần được ghi nhớ bất cứ khi nào người ta thấy một kết luận được đóng khung như một tuyên bố về xác suất, khả năng xảy ra hoặc sự chắc chắn về một giả thuyết. Thông tin về giả thuyết ngoài giả thuyết có trong dữ liệu được phân tích và trong các mô hình thống kê thông thường (chỉ đưa ra xác suất dữ liệu) phải được sử dụng để đưa ra kết luận như vậy; . Thống kê Bayes cung cấp các phương pháp cố gắng kết hợp thông tin cần thiết trực tiếp vào mô hình thống kê;
Tất cả các phương pháp thống kê (dù là phương pháp thường xuyên hay phương pháp Bayes, hoặc để thử nghiệm hoặc ước tính, hoặc để suy luận hoặc quyết định) đều đưa ra các giả định mở rộng về chuỗi sự kiện dẫn đến kết quả được trình bày—không chỉ trong quá trình tạo dữ liệu mà còn trong các lựa chọn phân tích. Do đó, để cho phép đánh giá quan trọng, các báo cáo nghiên cứu (bao gồm cả phân tích tổng hợp) nên mô tả chi tiết toàn bộ chuỗi sự kiện dẫn đến các số liệu thống kê được trình bày, bao gồm động cơ nghiên cứu, thiết kế của nghiên cứu, kế hoạch phân tích ban đầu, các tiêu chí được sử dụng để

Cuối cùng, chúng tôi lưu ý rằng không có phương pháp thống kê nào miễn nhiễm với việc giải thích sai và sử dụng sai, nhưng những người sử dụng số liệu thống kê thận trọng sẽ tránh các phương pháp đặc biệt dễ bị lạm dụng nghiêm trọng. Về vấn đề này, chúng tôi cùng với những người khác chỉ ra sự suy giảm giá trị P thành “có ý nghĩa” và “không có ý nghĩa” như một phương pháp thống kê đặc biệt nguy hiểm [126]

Sự nhìn nhận

SJS nhận tài trợ từ dự án IDEAL được hỗ trợ bởi Chương trình khung thứ bảy của Liên minh Châu Âu để nghiên cứu, phát triển và trình diễn công nghệ theo Thỏa thuận tài trợ số. 602552. Chúng tôi xin cảm ơn Stuart Hurlbert, Deborah Mayo, Keith O'Rourke và Andreas Stang vì những nhận xét hữu ích và Ron Wasserstein vì sự khuyến khích vô giá của ông đối với dự án này

chú thích

Ghi chú của biên tập viên

Bài viết này đã được xuất bản trực tuyến dưới dạng tài liệu bổ sung với một bài báo của Wasserstein RL, Lazar NA. Tuyên bố của ASA về giá trị p. bối cảnh, quá trình và mục đích. Nhà thống kê Mỹ 2016

Albert Hofman, Tổng biên tập EJE

Thông tin cộng tác viên

Sander Greenland, Email. anh. alcu@semodsel .

Stephen J. Senn, Email. ul. hil@nnes. nehpets .

John B. Carlin, Email. ua. bạn. ircm@nilrac. nhoj .

Charles Poole, Email. anh. cnu@eloopc .

Steven N. Goodman, Email. anh. drofnats@namdoog. sự kiện .

Douglas G. Altman, Email. ku. ca. xo. msc@namtla. hướng dẫn .

Người giới thiệu

1. Lang JM, Rothman KJ, Cann CI. Giá trị P gây nhiễu đó. Dịch tễ học. 1998; 9 . 7–8. doi. 10. 1097/00001648-199801000-00004. [PubMed] [CrossRef] [Google Scholar]

2. Trafimow D, Marks M. biên tập. Tâm lý học xã hội ứng dụng cơ bản. 2015; 37 . 1–2. doi. 10. 1080/01973533. 2015. 1012991. [CrossRef] [Google Scholar]

3. Ashworth A. Quyền phủ quyết về việc sử dụng thử nghiệm giả thuyết vô hiệu và khoảng p. đúng hay sai? . 2015. Tài nguyên trực tuyến, http. // biên tập tài nguyên. nhóm taylorandfrancis. com/veto-on-the-use-of-null-hypothesis-testing-and-p-intervals-right-or-sai/. Truy cập ngày 27 tháng 2 năm 2016.

4. Flanagan O. Tạp chí cấm kiểm tra ý nghĩa giả thuyết khống. phản ứng từ đấu trường thống kê. 2015. Thống kê Cuộc sống trực tuyến, https. //www. cuộc sống thống kê. tổ chức. uk/opinion/2114-journal-s-ban-on-null-hypothesis-significance-testing-reactions-from-the-statistical-arena. Truy cập ngày 27 tháng 2 năm 2016.

5. Altman DG, Machin D, Bryant TN, Gardner MJ, biên tập viên. Thống kê đáng tin cậy. 2. London. Sách BMJ; . [Google Scholar]

6. Atkins L, Jarrett D. Tầm quan trọng của “kiểm định ý nghĩa” trong. Irvine J, Miles I, Evans J, biên tập viên. Làm sáng tỏ số liệu thống kê xã hội. Luân Đôn. Diêm Vương ấn; . [Google Scholar]

7. Cox DR. Vai trò của các bài kiểm tra ý nghĩa (có thảo luận) Scand J Stat. 1977; 4 . 49–70. [Google Scholar]

8. Cox DR. kiểm tra ý nghĩa thống kê. Br J Clin Pharmacol. 1982; 14 . 325–331. doi. 10. 1111/j. 1365-2125. 1982. tb01987. x. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

9. Cox DR, Hinkley DV. Thống kê lý thuyết. New York. Chapman và Hội trường; . [Google Scholar]

10. Freedman DA, Pisani R, Purves R. Thống kê. 4. Newyork. Norton; . [Google Scholar]

11. Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Kruger L. Đế chế may rủi. xác suất đã thay đổi khoa học và cuộc sống hàng ngày như thế nào. New York. Nhà xuất bản Đại học Cambridge; . [Google Scholar]

12. Harlow LL, Mulaik SA, Steiger JH. Nếu không có kiểm định ý nghĩa thì sao? New York. Tâm lý báo chí; . [Google Scholar]

13. Hogben L. Lý thuyết thống kê. Luân Đôn. Allen và Unwin; . [Google Scholar]

14. Kaye DH, Freedman DA. Tài liệu tham khảo về thống kê. Trong. Sổ tay tham khảo về bằng chứng khoa học, tái bản lần thứ 3. Washington DC. Trung tâm tư pháp liên bang; . P. 211–302.

15. Morrison DE, Henkel RE, biên tập viên. Tranh cãi về thử nghiệm ý nghĩa. Chicago. anđehit; . [Google Scholar]

16. Oakes M. Suy luận thống kê. một bài bình luận cho khoa học xã hội và hành vi. Chichester. Wiley; . [Google Scholar]

17. Pratt JW. Giải thích Bayesian của các tuyên bố suy luận tiêu chuẩn. J Roy Stat Sóc B. 1965; 27 . 169–203. [Google Scholar]

18. Rothman KJ, Greenland S, Lash TL. Dịch tễ học hiện đại. 3. Philadelphia. Lippincott-Wolters-Kluwer; . [Google Scholar]

19. Ware JH, Mosteller F, Ingelfinger JA. giá trị p. Trong. Bailar JC, Hoaglin DC, biên tập viên. Ch. số 8. Sử dụng y tế của số liệu thống kê. 3. Hoboken, New Jersey. Wiley; . trang. 175–194. [Google Scholar]

20. Ziliak ST, McCloskey DN. Sùng bái ý nghĩa thống kê. lỗi tiêu chuẩn khiến chúng ta mất việc làm, công lý và tính mạng như thế nào. Ann Arbor. Nhà xuất bản U Michigan; . [Google Scholar]

21. Altman DG, Bland JM. Không có bằng chứng không phải là bằng chứng vắng mặt. Br Med J. 1995; 311 . 485. doi. 10. 1136/bmj. 311. 7003. 485. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

22. Anscombe FJ. Tóm tắt các thí nghiệm lâm sàng theo mức ý nghĩa. Thống kê Med. 1990; 9 . 703–708. doi. 10. 1002/sim. 4780090617. [PubMed] [CrossRef] [Google Scholar]

23. Bakan D. Kiểm tra ý nghĩa trong nghiên cứu tâm lý. Psychol Bull. 1966; 66 . 423–437. doi. 10. 1037/h0020412. [PubMed] [CrossRef] [Google Scholar]

24. Bandt CL, Boen JR. Một quan niệm sai lầm phổ biến về cỡ mẫu, ý nghĩa thống kê và tầm quan trọng lâm sàng. J nha chu. 1972; 43 . 181–183. doi. 10. 1902/jo. 1972. 43. 3. 181. [PubMed] [CrossRef] [Google Scholar]

25. Berkson J. Các thử nghiệm về ý nghĩa được coi là bằng chứng. J Am Stat PGS. 1942; 37 . 325–335. doi. 10. 1080/01621459. 1942. 10501760. [CrossRef] [Google Scholar]

26. Bland JM, Altman DG. Thực tiễn tốt nhất (nhưng hay bị lãng quên). thử nghiệm hiệu quả điều trị trong các thử nghiệm ngẫu nhiên bằng các phân tích riêng biệt về những thay đổi so với ban đầu ở mỗi nhóm là một cách tiếp cận sai lầm. Tôi là J Clin Nutr. 2015; 102 . 991–994. doi. 10. 3945/ajcn. 115. 119768. [PubMed] [CrossRef] [Google Scholar]

27. Chia KS. “Significant-itis”—một nỗi ám ảnh với giá trị P. Scand J Work Environ Health. 1997; 23 . 152–154. doi. 10. 5271/sjweh. 193. [PubMed] [CrossRef] [Google Scholar]

28. Cohen J. Trái đất tròn (p Tôi bị tâm thần. 1994; 47 . 997–1003. doi. 10. 1037/0003-066X. 49. 12. 997. [CrossRef] [Google Scholar]

29. Evans SJW, Mills P, Dawson J. Sự kết thúc của giá trị P? . Br Heart J. 1988; 60 . 177–180. doi. 10. 1136/giờ. 60. 3. 177. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

30. Fidler F, Loftus GR. Tại sao các số liệu có thanh lỗi nên thay thế giá trị p. một số lập luận khái niệm và chứng minh thực nghiệm. J Tâm thần. 2009; 217 . 27–37. [Google Scholar]

31. Gardner MA, Altman DG. Khoảng tin cậy thay vì giá trị P. ước tính hơn là kiểm tra giả thuyết. Br Med J. 1986; 292 . 746–750. doi. 10. 1136/bmj. 292. 6522. 746. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

32. Gelman A. Giá trị P và thực hành thống kê. Dịch tễ học. 2013; 24 . 69–72. doi. 10. 1097/EDE. 0b013e31827886f7. [PubMed] [CrossRef] [Google Scholar]

33. Gelman A, Loken E. Cuộc khủng hoảng thống kê trong khoa học. Phân tích phụ thuộc vào dữ liệu—một “khu vườn của các con đường rẽ nhánh”—giải thích lý do tại sao nhiều phép so sánh có ý nghĩa thống kê không theo kịp. khoa học. 2014;102. 460–465. Lỗi tại http. // andrew gelman. com/2014/10/14/didnt-say-part-2/. Truy cập ngày 27 tháng 2 năm 2016.

34. Gelman A, Trường Stern. Sự khác biệt giữa “đáng kể” và “không đáng kể” bản thân nó không có ý nghĩa thống kê. Trạng thái. 2006; 60 . 328–331. doi. 10. 1198/000313006X152649. [CrossRef] [Google Scholar]

35. Gigerenzer G. thống kê vô tâm. J Socioecon. 2004; 33 . 567–606. [Google Scholar]

36. Gigerenzer G, Marewski JN. khoa học thay thế. thần tượng của một phương pháp phổ quát để suy luận khoa học. J Manag. 2015; 41 . 421–440. [Google Scholar]

37. Goodman SN. Nhận xét về sao chép, giá trị p và bằng chứng. Thống kê Med. 1992; 11 . 875–879. doi. 10. 1002/sim. 4780110705. [PubMed] [CrossRef] [Google Scholar]

38. Goodman SN. Giá trị P, kiểm tra giả thuyết và khả năng. ý nghĩa đối với dịch tễ học của một cuộc tranh luận lịch sử bị lãng quên. Am J Epidemiol. 1993; 137 . 485–496. [PubMed] [Google Scholar]

39. Goodman SN. Hướng tới thống kê y tế dựa trên bằng chứng, tôi. ngụy biện giá trị P. Ann Intern Med. 1999; 130 . 995–1004. doi. 10. 7326/0003-4819-130-12-199906150-00008. [PubMed] [CrossRef] [Google Scholar]

40. Goodman SN. Một tá bẩn. mười hai quan niệm sai lầm về giá trị P. Semin Hematol. 2008; 45 . 135–140. doi. 10. 1053/j. bán huyết thanh. 2008. 04. 003. [PubMed] [CrossRef] [Google Scholar]

41. Greenland S. Giải thích sai trong thử nghiệm thống kê và tác động của nó đối với đánh giá rủi ro sức khỏe. Trước Med. 2011; 53 . 225–228. doi. 10. 1016/j. ypmed. 2011. 08. 010. [PubMed] [CrossRef] [Google Scholar]

42. Greenland S. Không quan trọng cộng với sức mạnh cao không có nghĩa là hỗ trợ cho giá trị rỗng so với giải pháp thay thế. Ann Epidemiol. 2012; 22 . 364–368. doi. 10. 1016/j. annepidem. 2012. 02. 007. [PubMed] [CrossRef] [Google Scholar]

43. Greenland S. Minh bạch và công khai, trung lập và cân bằng. chia sẻ giá trị hay chỉ chia sẻ từ ngữ? . J Epidemiol Community Health. 2012; 66 . 967–970. doi. 10. 1136/jech-2011-200459. [PubMed] [CrossRef] [Google Scholar]

44. Greenland S, Poole C. Các vấn đề trong cách diễn giải thông thường về số liệu thống kê trong các bài báo khoa học, báo cáo của chuyên gia và lời khai. Pháp luật. 2011; 51 . 113–129. [Google Scholar]

45. Greenland S, Poole C. Sống với giá trị P. hồi sinh quan điểm Bayes về số liệu thống kê thường xuyên. Dịch tễ học. 2013; 24 . 62–68. doi. 10. 1097/EDE. 0b013e3182785741. [PubMed] [CrossRef] [Google Scholar]

46. Greenland S, Poole C. Sống với số liệu thống kê trong nghiên cứu quan sát. Dịch tễ học. 2013; 24 . 73–78. doi. 10. 1097/EDE. 0b013e3182785a49. [PubMed] [CrossRef] [Google Scholar]

47. Đau lòng AP. Làm thế nào để kiểm tra các giả thuyết nếu bạn phải. Pharm Stat. 2015; 14 . 139–150. doi. 10. 1002/pst. 1667. [PubMed] [CrossRef] [Google Scholar]

48. Hoekstra R, Finch S, Kiers HAL, Johnson A. Xác suất như sự chắc chắn. suy nghĩ phân đôi và lạm dụng giá trị p. Psychon Bull Rev. 2006; 13 . 1033–1037. doi. 10. 3758/BF03213921. [PubMed] [CrossRef] [Google Scholar]

49. Hurlbert Lombardi CM. Sự sụp đổ cuối cùng của khuôn khổ lý thuyết quyết định Neyman–Pearson và sự nổi lên của tân Fisherian. Ann Zool Fenn. 2009; 46 . 311–349. doi. 10. 5735/086. 046. 0501. [CrossRef] [Google Scholar]

50. Kaye DH. Bằng chứng về ý nghĩa thống kê có liên quan không? . Wash Law Rev. 1986; 61 . 1333–1366. [Google Scholar]

51. Lambdin C. Kiểm tra ý nghĩa như phép thuật. khoa học mang tính thực nghiệm—các bài kiểm tra ý nghĩa không phải. Thuyết tâm lý. 2012; 22 (1). 67–90. doi. 10. 1177/0959354311429854. [CrossRef] [Google Scholar]

52. Langman MJS. Hướng tới ước lượng và khoảng tin cậy. BMJ. 1986; 292 . 716. doi. 10. 1136/bmj. 292. 6522. 716. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

53. LeCoutre M-P, Poitevineau J, Lecoutre B. Ngay cả các nhà thống kê cũng không miễn dịch với việc giải thích sai các bài kiểm tra giả thuyết không. Int J Psychol. 2003; 38 . 37–45. doi. 10. 1080/00207590244000250. [CrossRef] [Google Scholar]

54. Lew MJ. Thực hành thống kê kém trong dược lý (và các ngành y sinh cơ bản khác). có thể bạn chưa biết p. Br J Pharmacol. 2012; 166 . 1559–1567. doi. 10. 1111/j. 1476-5381. 2012. 01931. x. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

55. Loftus GR. Tâm lý học sẽ là một ngành khoa học tốt hơn nhiều khi chúng ta thay đổi cách phân tích dữ liệu. Curr Dir Psychol. 1996; 5 . 161–171. doi. 10. 1111/1467-8721. ep11512376. [CrossRef] [Google Scholar]

56. Matthew JNS, Altman DG. tương tác 2. So sánh kích thước hiệu ứng không phải giá trị P. Br Med J. 1996; 313 . 808. doi. 10. 1136/bmj. 313. 7060. 808. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

57. Pocock SJ, Ware JH. Dịch kết quả thống kê sang tiếng Anh đơn giản. Lưỡi giáo. 2009; 373 . 1926–1928. doi. 10. 1016/S0140-6736(09)60499-2. [PubMed] [CrossRef] [Google Scholar]

58. Pocock SJ, Hughes MD, Lee RJ. Các vấn đề thống kê trong báo cáo thử nghiệm lâm sàng. N Eng J Med. 1987; 317 . 426–432. doi. 10. 1056/NEJM198708133170706. [PubMed] [CrossRef] [Google Scholar]

59. Bể bơi C. Ngoài khoảng tin cậy. Tôi là Y tế Công cộng. 1987; 77 . 195–199. doi. 10. 2105/AJPH. 77. 2. 195. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

60. Bể bơi C. Khoảng tin cậy không loại trừ điều gì. Tôi là Y tế Công cộng. 1987; 77 . 492–493. doi. 10. 2105/AJPH. 77. 4. 492. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

61. Bể bơi C. Giá trị P thấp hoặc khoảng tin cậy hẹp. cái nào bền hơn? . Epidemiology. 2001; 12 . 291–294. doi. 10. 1097/00001648-200105000-00005. [PubMed] [CrossRef] [Google Scholar]

62. Rosnow RL, Rosenthal R. Thủ tục thống kê và sự biện minh của kiến thức trong khoa học tâm lý. Tôi bị tâm thần. 1989; 44 . 1276–1284. doi. 10. 1037/0003-066X. 44. 10. 1276. [CrossRef] [Google Scholar]

63. Rothman KJ. Thể hiện sự tự tin. NEJM. 1978; 299 . 1362–1363. doi. 10. 1056/NEJM197812142992410. [PubMed] [CrossRef] [Google Scholar]

64. Rothman KJ. câu hỏi ý nghĩa. Ann Intern Med. 1986; 105 . 445–447. doi. 10. 7326/0003-4819-105-3-445. [PubMed] [CrossRef] [Google Scholar]

65. Rozeboom WM. Sai lầm của kiểm tra ý nghĩa giả thuyết null. Psychol Bull. 1960; 57 . 416–428. doi. 10. 1037/h0042040. [PubMed] [CrossRef] [Google Scholar]

66. Salsburg DS. Tôn giáo của thống kê như được thực hành trong các tạp chí y khoa. Trạng thái. 1985; 39 . 220–223. [Google Scholar]

67. Schmidt FL. Kiểm tra ý nghĩa thống kê và kiến thức tích lũy trong tâm lý học. Ý nghĩa đối với việc đào tạo các nhà nghiên cứu. Phương pháp tâm lý. 1996; 1 . 115–129. doi. 10. 1037/1082-989X. 1. 2. 115. [CrossRef] [Google Scholar]

68. Schmidt FL, Hunter JE. Phương pháp phân tích tổng hợp. sửa lỗi và sai lệch trong kết quả nghiên cứu. 3. Ngàn Sồi. Hiền nhân; . [Google Scholar]

69. Sterne JAC, Davey Smith G. Sàng lọc bằng chứng - có gì sai với các bài kiểm tra ý nghĩa? . Br Med J. 2001; 322 . 226–231. doi. 10. 1136/bmj. 322. 7280. 226. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

70. Thompson WD. Tiêu chí thống kê trong việc giải thích dữ liệu dịch tễ học. Tôi là Y tế Công cộng. 1987; 77 . 191–194. doi. 10. 2105/AJPH. 77. 2. 191. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

71. Thompson B. Cuộc khủng hoảng “ý nghĩa” trong tâm lý học và giáo dục. J Sóc kinh tế. 2004; 33 . 607–613. doi. 10. 1016/j. socec. 2004. 09. 034. [CrossRef] [Google Scholar]

72. Người làm công ăn lương E-J. Một giải pháp thiết thực cho vấn đề phổ biến của các giá trị p. Psychon Bull Rev. 2007; 14 . 779–804. doi. 10. 3758/BF03194105. [PubMed] [CrossRef] [Google Scholar]

73. Walker AM. Báo cáo kết quả nghiên cứu dịch tễ học. Tôi là Y tế Công cộng. 1986; 76 . 556–558. doi. 10. 2105/AJPH. 76. 5. 556. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

74. Wood J, Freemantle N, King M, Nazareth I. Bẫy xu hướng có ý nghĩa thống kê. khả năng giá trị P gần đáng kể trở nên quan trọng hơn với dữ liệu bổ sung. BMJ. 2014; 348 . g2215. doi. 10. 1136/bmj. g2215. [PubMed] [CrossRef] [Google Scholar]

75. Stigler SM. Lịch sử thống kê. Cambridge, MA. Nhà xuất bản Belknap; . [Google Scholar]

76. Neyman J. Sơ lược về lý thuyết ước lượng thống kê dựa trên lý thuyết xác suất cổ điển. Philos Trans R Soc Lond A. 1937; 236 . 333–380. doi. 10. 1098/rsta. 1937. 0005. [CrossRef] [Google Scholar]

77. Edwards W, Lindman H, Savage LJ. Suy luận thống kê Bayesian cho nghiên cứu tâm lý. Psychol Rev. 1963; 70 . 193–242. doi. 10. 1037/h0044139. [CrossRef] [Google Scholar]

78. Berger JO, Sellke TM. Kiểm định một giả thuyết vô hiệu điểm. tính không thể dung hòa của giá trị P và bằng chứng. J Am Stat PGS. 1987; 82 . 112–139. [Google Scholar]

79. Edward AWF. Khả năng xảy ra. 2. Baltimore. Nhà xuất bản Đại học Johns Hopkins; . [Google Scholar]

80. Goodman SN, Royall R. Bằng chứng và nghiên cứu khoa học. Tôi là Y tế Công cộng. 1988; 78 . 1568–1574. doi. 10. 2105/AJPH. 78. 12. 1568. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

81. Royall R. Bằng chứng thống kê. New York. Chapman và Hội trường; . [Google Scholar]

82. Sellke TM, Bayarri MJ, Berger JO. Hiệu chỉnh các giá trị p để kiểm tra các giả thuyết null chính xác. Trạng thái. 2001; 55 . 62–71. doi. 10. 1198/000313001300339950. [CrossRef] [Google Scholar]

83. Goodman SN. Giới thiệu về phương pháp Bayesian I. Đo lường sức mạnh của bằng chứng. Thử nghiệm lâm sàng. 2005; 2 . 282–290. doi. 10. 1191/1740774505cn098oa. [PubMed] [CrossRef] [Google Scholar]

84. Lehmann EL. Kiểm định giả thuyết thống kê. 2. Wiley. Newyork; . [Google Scholar]

85. Senn SJ. Hai cổ vũ cho giá trị P. J Epidemiol Biostat. 2001; 6 (2). 193–204. doi. 10. 1080/135952201753172953. [PubMed] [CrossRef] [Google Scholar]

86. Senn SJ. Thư gửi Tòa soạn lại. Người Tốt 1992. Thống kê Med. 2002; 21 . 2437–2444. doi. 10. 1002/sim. 1072. [PubMed] [CrossRef] [Google Scholar]

87. Mayo DG, Cox DR. Thống kê thường xuyên như một lý thuyết suy luận quy nạp. Trong. J Rojo, biên tập viên. Sự tối ưu. Erich L thứ hai. Hội nghị chuyên đề Lehmann, Loạt bài giảng-chuyên khảo, Viện Thống kê toán học (IMS). 2006;49. 77–97.

88. Murtaugh PA. Bảo vệ giá trị P (có thảo luận) Sinh thái học. 2014; 95 (3). 611–653. doi. 10. 1890/13-0590. 1. [PubMed] [CrossRef] [Google Scholar]

89. Hàng rào LV, Olkin I. Phương pháp kiểm phiếu trong nghiên cứu tổng hợp. Psychol Bull. 1980; 88 . 359–369. doi. 10. 1037/0033-2909. 88. 2. 359. [CrossRef] [Google Scholar]

90. Chalmers TC, Lau J. Những thay đổi trong các thử nghiệm lâm sàng bắt buộc bởi sự ra đời của phân tích tổng hợp. Thống kê Med. 1996; 15 . 1263–1268. doi. 10. 1002/(SICI)1097-0258(19960630)15. 12 [PubMed] [CrossRef] [Google Scholar]

91. Maheshwari S, Sarraj A, Kramer J, El-Serag HB. Tránh thai đường uống và nguy cơ ung thư biểu mô tế bào gan. J Hepatol. 2007; 47 . 506–513. doi. 10. 1016/j. jhep. 2007. 03. 015. [PubMed] [CrossRef] [Google Scholar]

92. Cox DR. Lập kế hoạch thí nghiệm. New York. Wiley; . P. 161. [Google Scholar]

93. Smith AH, Bates M. Các phân tích giới hạn tin cậy nên thay thế các phép tính công suất trong việc giải thích các nghiên cứu dịch tễ học. Dịch tễ học. 1992; 3 . 449–452. doi. 10. 1097/00001648-199209000-00011. [PubMed] [CrossRef] [Google Scholar]

94. Goodman SN. Thư gửi người biên tập lại Smith và Bates. Dịch tễ học. 1994; 5 . 266–268. doi. 10. 1097/00001648-199403000-00025. [PubMed] [CrossRef] [Google Scholar]

95. Goodman SN, Berlin J. Việc sử dụng khoảng tin cậy dự đoán khi lập kế hoạch thử nghiệm và lạm dụng quyền lực khi giải thích kết quả. Ann Intern Med. 1994; 121 . 200–206. doi. 10. 7326/0003-4819-121-3-199408010-00008. [PubMed] [CrossRef] [Google Scholar]

96. Hoenig JM, Heisey DM. Lạm dụng quyền lực. sai lầm phổ biến của tính toán năng lượng để phân tích dữ liệu. Trạng thái. 2001; 55 . 19–24. doi. 10. 1198/000313001300339897. [CrossRef] [Google Scholar]

97. Senn SJ. Quyền lực thực sự không liên quan trong việc giải thích các nghiên cứu đã hoàn thành. BMJ. 2002; 325 . 1304. doi. 10. 1136/bmj. 325. 7375. 1304. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

98. Lash TL, Fox MP, Maclehose RF, Maldonado G, McCandless LC, Greenland S. Thực hành tốt để phân tích sai lệch định lượng. Int J Epidemiol. 2014; 43 . 1969–1985. doi. 10. 1093/ije/dyu149. [PubMed] [CrossRef] [Google Scholar]

99. Dwan K, Gamble C, Williamson PR, Kirkham JJ, Reporting Bias Group Đánh giá một cách có hệ thống các bằng chứng thực nghiệm về thành kiến xuất bản nghiên cứu và thành kiến báo cáo kết quả—một đánh giá cập nhật. PLoS One. 2013; 8 . e66844. doi. 10. 1371/tạp chí. pone. 0066844. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

100. Trang MJ, McKenzie JE, Kirkham J, Dwan K, Kramer S, Green S, Forbes A. Sai lệch do đưa vào có chọn lọc và báo cáo kết quả cũng như phân tích trong tổng quan hệ thống các thử nghiệm ngẫu nhiên về can thiệp chăm sóc sức khỏe. Hệ thống cơ sở dữ liệu Cochrane Rev. 2014;10. MR000035. [Bài báo miễn phí của PMC] [PubMed]

101. You B, Gan HK, Pond G, Chen EX. Tính nhất quán trong phân tích và báo cáo về các tiêu chí chính trong các thử nghiệm ngẫu nhiên có đối chứng về ung thư từ khi đăng ký đến khi xuất bản. một đánh giá có hệ thống. J Clin Oncol. 2012; 30 . 210–216. doi. 10. 1200/JCO. 2011. 37. 0890. [PubMed] [CrossRef] [Google Scholar]

102. Button K, Ioannidis JPA, Mokrysz C, Nosek BA, Flint J, Robinson ESJ, Munafò MR. Mất điện. tại sao kích thước mẫu nhỏ làm suy yếu độ tin cậy của khoa học thần kinh. Nat Rev Thần kinh học. 2013; 14 . 365–376. doi. 10. 1038/nrn3475. [PubMed] [CrossRef] [Google Scholar]

103. Eyding D, Lelgemann M, Grouven U, Härter M, Kromp M, Kaiser T, Kerekes MF, Gerken M, Wieseler B. Reboxetine để điều trị trầm cảm cấp tính. tổng quan hệ thống và phân tích tổng hợp các thử nghiệm đối chứng với thuốc ức chế tái hấp thu serotonin có chọn lọc và giả dược đã công bố và chưa công bố. BMJ. 2010; 341 . c4737. doi. 10. 1136/bmj. c4737. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

104. Đất CE. Ước tính nguy cơ ung thư từ bức xạ ion hóa liều thấp. Khoa học. 1980; 209 . 1197–1203. doi. 10. 1126/khoa học. 7403879. [PubMed] [CrossRef] [Google Scholar]

105. Đất CE. Giới hạn thống kê liên quan đến kích thước mẫu. Góc độ sức khỏe môi trường. 1981; 42 . 15–21. doi. 10. 1289/ehp. 814215. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

106. Greenland S. Đối phó với sự không chắc chắn về sự thiên vị của điều tra viên. tiết lộ là thông tin. J Epidemiol Community Health. 2009; 63 . 593–598. doi. 10. 1136/jech. 2008. 084913. [PubMed] [CrossRef] [Google Scholar]

107. Xu L, Freeman G, Cowling BJ, Schooling CM. Liệu pháp testosterone và các biến cố tim mạch ở nam giới. tổng quan hệ thống và phân tích tổng hợp các thử nghiệm ngẫu nhiên có đối chứng với giả dược. BMC Med. 2013; 11 . 108. doi. 10. 1186/1741-7015-11-108. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar]

108. Neyman J, Pearson ES. Về việc sử dụng và giải thích các tiêu chí kiểm tra nhất định cho mục đích suy luận thống kê. phần tôi. Triệu chứng sinh trắc học. 1928; 20A . 175–240. [Google Scholar]

109. Pearson ES. Khái niệm thống kê trong mối quan hệ với thực tế. J R Stat Sóc B. 1955; 17 . 204–207. [Google Scholar]

110. Fisher RA. Phương pháp thống kê và suy luận khoa học. Edinburgh. Oliver và Boyd; . [Google Scholar]

111. Đồi AB. Môi trường và bệnh tật. hiệp hội hay nguyên nhân? . Proc R Soc Med. 1965; 58 . 295–300. [Bài báo miễn phí của PMC] [PubMed] [Google Scholar]

112. Casella G, Berger RL. Đối chiếu bằng chứng Bayesian và thường xuyên trong vấn đề thử nghiệm một phía. J Am Stat PGS. 1987; 82 . 106–111. doi. 10. 1080/01621459. 1987. 10478396. [CrossRef] [Google Scholar]

113. Casella G, Berger RL. Bình luận. Khoa học thống kê. 1987; 2 . 344–417. doi. 10. 1214/ss/1177013243. [CrossRef] [Google Scholar]

114. Yates F. Ảnh hưởng của phương pháp thống kê đối với người làm công tác nghiên cứu đối với sự phát triển của khoa học thống kê. J Am Stat PGS. 1951; 46 . 19–34. [Google Scholar]

115. Cumming GA. Hiểu số liệu thống kê mới. kích thước hiệu ứng, khoảng tin cậy và phân tích tổng hợp. Luân Đôn. Routledge; . [Google Scholar]

116. Morey RD, Hoekstra R, Rouder JN, Lee MD, Wagenmakers E-J. Sai lầm của việc đặt niềm tin vào khoảng tin cậy. Psychon Bull Rev (trên báo chí). [Bài báo miễn phí của PMC] [PubMed]

117. Rosenthal R, Rubin DB. Giá trị ngược chiều của kích thước hiệu ứng. một thống kê mới. Khoa học tâm lý. 1994; 5 . 329–334. doi. 10. 1111/j. 1467-9280. 1994. tb00281. x. [CrossRef] [Google Scholar]

118. Mayo DG, Spanos A. Thử nghiệm nghiêm ngặt như một khái niệm cơ bản trong triết lý quy nạp Neyman–Pearson. Br J Philos Sci. 2006; 57 . 323–357. doi. 10. 1093/bjps/axl003. [CrossRef] [Google Scholar]

119. Mụn đầu trắng A. Phân tích tổng hợp các thử nghiệm lâm sàng có đối chứng. New York. Wiley; . [Google Scholar]

120. Borenstein M, Hedges LV, Higgins JPT, Rothstein HR. Giới thiệu về phân tích tổng hợp. New York. Wiley; . [Google Scholar]

121. Chen D-G, Peace KE. Phân tích tổng hợp được áp dụng với R. New York. Chapman & Hall/CRC; . [Google Scholar]

122. Cooper H, Hedges LV, Valentine JC. Cẩm nang tổng hợp nghiên cứu và phân tích tổng hợp. Nghìn Sồi. Hiền nhân; . [Google Scholar]

123. Greenland S, O’Rourke K. Phân tích tổng hợp Ch. 33. Trong. Rothman KJ, Greenland S, Lash TL, biên tập viên. Dịch tễ học hiện đại. 3. Philadelphia. Lippincott-Wolters-Kluwer; . trang. 682–685. [Google Scholar]

124. Petitti DB. Phân tích tổng hợp, phân tích quyết định và phân tích hiệu quả chi phí. phương pháp tổng hợp định lượng trong y học.

Điều nào sau đây sẽ là một ví dụ về lỗi thời chức năng?

Ví dụ: một ngôi nhà cũ, hai phòng ngủ trong một khu vực có ba phòng ngủ hiện đại với phòng tắm trong mỗi phòng có thể được xem xét về mặt chức năng . Các mặt hàng khác rất dễ bị lỗi thời chức năng bao gồm đồ điện tử, chẳng hạn như điện thoại thông minh.

Phương pháp tiếp cận dữ liệu thị trường sử dụng nguyên tắc nào để so sánh các tài sản tương tự?

Cách tốt nhất để định giá bất động sản nhà ở hoặc đất trống là sử dụng phương pháp tiếp cận dữ liệu thị trường, tức là xem xét các bất động sản có thể so sánh được. Phương pháp tiếp cận dữ liệu thị trường dựa trên nguyên tắc thay thế , nguyên tắc này nói rằng một tài sản chỉ có giá trị bằng với những gì người ta có thể có được một tài sản khác giống như nó.

Phương pháp đánh giá nào sử dụng nguyên tắc thay thế nhóm lựa chọn câu trả lời?

Phương pháp so sánh doanh số bán hàng (thị trường) . Nguyên tắc này giả định rằng một người mua thận trọng sẽ không trả nhiều hơn cho một bất động sản so với giá mua của một bất động sản tương tự và được mong muốn như nhau.

Loại khấu hao nào cũng không thể chữa được nghĩa là không thể làm được gì?

xuống cấp không thể chữa khỏi

Khỏe Đẹp Son

Cái nào sau đây sẽ được coi là một ví dụ về một đơn vị so sánh?

đánh giá tổng kết

Stephen J. Senn

Kenneth J. Rothman

John B. Carlin

Charles Poole

Steven N. Người đàn ông tốt

Douglas G. người thay thế

trừu tượng

Giới thiệu

Kiểm tra thống kê, giá trị P và khoảng tin cậy. sơn lót ăn da

Mô hình thống kê, giả thuyết và thử nghiệm

Sự không chắc chắn, xác suất và ý nghĩa thống kê

Chuyển từ thử nghiệm sang ước tính

Giá trị P, khoảng tin cậy và tính toán công suất nào không cho chúng ta biết

Giải thích sai phổ biến của các giá trị P đơn lẻ

Các giải thích sai phổ biến về so sánh và dự đoán giá trị P

Những hiểu sai phổ biến về khoảng tin cậy

Những hiểu lầm phổ biến về quyền lực

Một mô hình thống kê không chỉ là một phương trình với các chữ cái Hy Lạp

kết luận

Sự nhìn nhận

chú thích

Thông tin cộng tác viên

Người giới thiệu

Điều nào sau đây sẽ là một ví dụ về lỗi thời chức năng?

Phương pháp tiếp cận dữ liệu thị trường sử dụng nguyên tắc nào để so sánh các tài sản tương tự?

Phương pháp đánh giá nào sử dụng nguyên tắc thay thế nhóm lựa chọn câu trả lời?

Loại khấu hao nào cũng không thể chữa được nghĩa là không thể làm được gì?

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội