Cái nào sau đây sẽ được coi là một ví dụ về một đơn vị so sánh?
Mục tiêu của đánh giá quá trình là theo dõi quá trình học tập của học sinh để cung cấp thông tin phản hồi liên tục mà người hướng dẫn có thể sử dụng để cải thiện việc giảng dạy của họ và học sinh để cải thiện việc học tập của họ. Cụ thể hơn, đánh giá quá trình Show
Đánh giá quá trình nói chung là cổ phần thấp, có nghĩa là chúng có giá trị điểm thấp hoặc không có điểm. Ví dụ về đánh giá quá trình bao gồm yêu cầu học sinh
đánh giá tổng kếtMục tiêu của đánh giá tổng kết là đánh giá việc học tập của học sinh khi kết thúc một đơn vị giảng dạy bằng cách so sánh nó với một số tiêu chuẩn hoặc điểm chuẩn Các đánh giá tổng kết thường có tỷ lệ cược cao, có nghĩa là chúng có giá trị điểm cao. Ví dụ về đánh giá tổng kết bao gồm
Thông tin từ các đánh giá tổng kết có thể được sử dụng một cách chính thức khi sinh viên hoặc giảng viên sử dụng nó để hướng dẫn các nỗ lực và hoạt động của họ trong các khóa học tiếp theo Khoa Dịch tễ học và Khoa Thống kê, Đại học California, Los Angeles, CA Hoa Kỳ Tìm bài viết của Sander Greenland Stephen J. SennTrung tâm Năng lực về Phương pháp và Thống kê, Viện Y tế Luxembourg, Strassen, Luxembourg Tìm bài viết của Stephen J. Senn Kenneth J. RothmanRTI Health Solutions, Research Triangle Institute, Research Triangle Park, NC USA Tìm bài viết của Kenneth J. Rothman John B. CarlinĐơn vị Dịch tễ học và Thống kê Sinh học Lâm sàng, Viện Nghiên cứu Trẻ em Murdoch, Trường Y tế Dân số, Đại học Melbourne, Melbourne, VIC Úc Tìm bài viết của John B. Carlin Charles PooleKhoa Dịch tễ học, Trường Y tế Công cộng Toàn cầu Gillings, Đại học Bắc Carolina, Chapel Hill, NC Hoa Kỳ Tìm bài viết của Charles Poole Steven N. Người đàn ông tốtTrung tâm đổi mới siêu nghiên cứu, Khoa Y và Nghiên cứu Y tế và Chính sách, Trường Y Đại học Stanford, Stanford, CA Hoa Kỳ Tìm bài viết của Steven N. Người đàn ông tốt Douglas G. người thay thếTrung tâm Thống kê Y học, Khoa Chỉnh hình, Thấp khớp và Khoa học Cơ xương Nuffield, Đại học Oxford, Oxford, Vương quốc Anh Tìm bài viết của Douglas G. người thay thế Thông tin tác giả Ghi chú bài báo Thông tin bản quyền và giấy phép Tuyên bố miễn trừ trách nhiệm Khoa Dịch tễ học và Khoa Thống kê, Đại học California, Los Angeles, CA Hoa Kỳ Trung tâm Năng lực về Phương pháp và Thống kê, Viện Y tế Luxembourg, Strassen, Luxembourg RTI Health Solutions, Research Triangle Institute, Research Triangle Park, NC USA Đơn vị Dịch tễ học và Thống kê Sinh học Lâm sàng, Viện Nghiên cứu Trẻ em Murdoch, Trường Y tế Dân số, Đại học Melbourne, Melbourne, VIC Úc Khoa Dịch tễ học, Trường Y tế Công cộng Toàn cầu Gillings, Đại học Bắc Carolina, Chapel Hill, NC Hoa Kỳ Trung tâm đổi mới siêu nghiên cứu, Khoa Y và Nghiên cứu Y tế và Chính sách, Trường Y Đại học Stanford, Stanford, CA Hoa Kỳ Trung tâm Thống kê Y học, Khoa Chỉnh hình, Thấp khớp và Khoa học Cơ xương Nuffield, Đại học Oxford, Oxford, Vương quốc Anh Sander Greenland, Email. anh. alcu@semodsel . Thông tin cộng tác viên Đồng tác giảNhận được ngày 9 tháng 4 năm 2016; Bản quyền © The Author(s) 2016 Truy cập Mở Bài viết này được phân phối theo các điều khoản của Creative Commons Attribution 4. 0 Giấy phép quốc tế (http. //Commons sáng tạo. org/giấy phép/bởi/4. 0/), cho phép sử dụng, phân phối và sao chép không hạn chế ở bất kỳ phương tiện nào, miễn là bạn cung cấp tín dụng phù hợp cho (các) tác giả gốc và nguồn, cung cấp liên kết đến giấy phép Creative Commons và cho biết liệu các thay đổi có được thực hiện hay không trừu tượngGiải thích sai và lạm dụng các bài kiểm tra thống kê, khoảng tin cậy và sức mạnh thống kê đã bị chỉ trích trong nhiều thập kỷ, nhưng vẫn tràn lan. Một vấn đề quan trọng là không có cách giải thích nào về những khái niệm này vừa đơn giản, trực quan, chính xác và dễ hiểu. Thay vào đó, việc sử dụng và giải thích chính xác các số liệu thống kê này đòi hỏi phải chú ý đến từng chi tiết, điều này dường như đòi hỏi sự kiên nhẫn của các nhà khoa học đang làm việc. Nhu cầu nhận thức cao này đã dẫn đến một dịch bệnh của các định nghĩa và diễn giải tắt mà đơn giản là sai, đôi khi là như vậy một cách tai hại—và những diễn giải sai này thống trị phần lớn các tài liệu khoa học. Để giải quyết vấn đề này, chúng tôi cung cấp các định nghĩa và thảo luận về các số liệu thống kê cơ bản mang tính tổng quát và quan trọng hơn so với thường thấy trong các giải trình giới thiệu truyền thống. Mục tiêu của chúng tôi là cung cấp tài nguyên cho những người hướng dẫn, nhà nghiên cứu và người tiêu dùng thống kê có kiến thức về lý thuyết và kỹ thuật thống kê có thể bị hạn chế nhưng muốn tránh và phát hiện ra những diễn giải sai. Chúng tôi nhấn mạnh việc vi phạm các giao thức phân tích thường không được nêu rõ (chẳng hạn như chọn các phân tích để trình bày dựa trên giá trị P mà chúng tạo ra) có thể dẫn đến giá trị P nhỏ ngay cả khi giả thuyết kiểm tra đã công bố là đúng và có thể dẫn đến giá trị P lớn ngay cả khi giả thuyết đó . Sau đó, chúng tôi cung cấp một danh sách giải thích gồm 25 cách giải thích sai về giá trị P, khoảng tin cậy và công suất. Chúng tôi kết luận với các hướng dẫn để cải thiện việc giải thích và báo cáo thống kê Từ khóa. Khoảng tin cậy, Kiểm định giả thuyết, Kiểm định vô hiệu, Giá trị P, Công suất, Kiểm định ý nghĩa, Kiểm định thống kê Giới thiệuViệc giải thích sai và lạm dụng các bài kiểm tra thống kê đã bị lên án trong nhiều thập kỷ, nhưng vẫn tràn lan đến mức một số tạp chí khoa học không khuyến khích sử dụng “ý nghĩa thống kê” (phân loại kết quả là “có ý nghĩa” hoặc không dựa trên giá trị P) [1]. Một tạp chí hiện cấm tất cả các bài kiểm tra thống kê và các thủ tục liên quan đến toán học như khoảng tin cậy [2], điều này đã dẫn đến thảo luận và tranh luận đáng kể về giá trị của các lệnh cấm đó [3, 4] Bất chấp những lệnh cấm như vậy, chúng tôi hy vọng rằng các phương pháp thống kê có vấn đề sẽ đồng hành cùng chúng tôi trong nhiều năm tới. Do đó, chúng tôi nghĩ rằng điều bắt buộc là phải cải thiện việc giảng dạy cơ bản cũng như hiểu biết chung về các phương pháp này. Để đạt được mục đích đó, chúng tôi cố gắng giải thích ý nghĩa của các bài kiểm tra ý nghĩa, khoảng tin cậy và sức mạnh thống kê theo cách tổng quát và quan trọng hơn so với cách làm truyền thống, sau đó xem xét 25 quan niệm sai lầm phổ biến theo cách giải thích của chúng tôi. Chúng tôi cũng thảo luận về một số vấn đề tế nhị hơn nhưng vẫn phổ biến, giải thích lý do tại sao điều quan trọng là phải kiểm tra và tổng hợp tất cả các kết quả liên quan đến một câu hỏi khoa học, thay vì tập trung vào các phát hiện riêng lẻ. Chúng tôi giải thích thêm tại sao các bài kiểm tra thống kê không bao giờ nên là đầu vào duy nhất cho các suy luận hoặc quyết định về mối liên hệ hoặc hiệu ứng. Trong số nhiều lý do, trong hầu hết các bối cảnh khoa học, việc phân loại tùy tiện các kết quả thành “quan trọng” và “không quan trọng” là không cần thiết và thường gây tổn hại cho việc giải thích dữ liệu hợp lệ; Thảo luận chi tiết hơn về các vấn đề chung có thể được tìm thấy trong nhiều bài báo, chương và sách về các phương pháp thống kê và diễn giải của chúng [5–20]. Các vấn đề cụ thể được đề cập chi tiết trong các nguồn này và trong nhiều bài báo được bình duyệt phê phán những cách hiểu sai phổ biến về kiểm định giả thuyết không và “ý nghĩa thống kê” [1, 12, 21–74] Kiểm tra thống kê, giá trị P và khoảng tin cậy. sơn lót ăn daMô hình thống kê, giả thuyết và thử nghiệmMọi phương pháp suy luận thống kê đều phụ thuộc vào một mạng lưới các giả định phức tạp về cách thu thập và phân tích dữ liệu cũng như cách kết quả phân tích được chọn để trình bày. Toàn bộ các giả định được thể hiện trong một mô hình thống kê làm cơ sở cho phương pháp. Mô hình này là một biểu diễn toán học về tính biến thiên của dữ liệu và do đó, lý tưởng nhất là sẽ nắm bắt chính xác tất cả các nguồn của tính biến thiên đó. Tuy nhiên, nhiều vấn đề phát sinh vì mô hình thống kê này thường kết hợp các giả định không thực tế hoặc tốt nhất là không hợp lý. Điều này đúng ngay cả đối với cái gọi là phương pháp “không tham số”, mà (giống như các phương pháp khác) phụ thuộc vào các giả định về lấy mẫu ngẫu nhiên hoặc ngẫu nhiên hóa. Những giả định này thường đơn giản để viết ra bằng toán học, tuy nhiên trong thực tế rất khó thỏa mãn và xác minh, vì chúng có thể phụ thuộc vào việc hoàn thành thành công một chuỗi hành động dài (chẳng hạn như xác định, liên hệ, xin phép, hợp tác và Ngoài ra còn có một vấn đề nghiêm trọng trong việc xác định phạm vi của một mô hình, trong đó nó không chỉ cho phép thể hiện tốt dữ liệu được quan sát mà còn cho dữ liệu thay thế giả định có thể đã được quan sát. Khung tham chiếu cho dữ liệu “có thể đã được quan sát thấy” thường không rõ ràng, ví dụ: nếu nhiều thước đo kết quả hoặc nhiều yếu tố dự đoán đã được đo lường và nhiều quyết định xung quanh các lựa chọn phân tích đã được đưa ra sau khi dữ liệu được thu thập—như trường hợp luôn xảy ra Khó khăn trong việc hiểu và đánh giá các giả định cơ bản trở nên trầm trọng hơn bởi thực tế là mô hình thống kê thường được trình bày ở dạng trừu tượng và cô đọng cao—nếu được trình bày ở tất cả. Do đó, nhiều giả định không được đánh dấu và thường không được người dùng cũng như người tiêu dùng thống kê nhận ra. Tuy nhiên, tất cả các phương pháp và diễn giải thống kê đều dựa trên các giả định của mô hình; Trong hầu hết các ứng dụng của thử nghiệm thống kê, một giả định trong mô hình là giả thuyết rằng một hiệu ứng cụ thể có quy mô cụ thể và đã được nhắm mục tiêu để phân tích thống kê. (Để đơn giản, chúng tôi sử dụng từ “hiệu ứng” khi “liên kết hoặc hiệu ứng” được cho là tốt hơn trong việc cho phép các nghiên cứu phi nhân quả chẳng hạn như hầu hết các cuộc điều tra. ) Giả định mục tiêu này được gọi là giả thuyết nghiên cứu hoặc giả thuyết kiểm tra và các phương pháp thống kê được sử dụng để đánh giá nó được gọi là kiểm tra giả thuyết thống kê. Thông thường, kích thước hiệu ứng được nhắm mục tiêu là giá trị “null” biểu thị hiệu ứng bằng không (e. g. , rằng điều trị nghiên cứu không tạo ra sự khác biệt trong kết quả trung bình), trong trường hợp đó, giả thuyết kiểm tra được gọi là giả thuyết không. Tuy nhiên, cũng có thể kiểm tra các kích thước hiệu ứng khác. Chúng tôi cũng có thể kiểm tra các giả thuyết rằng hiệu ứng có hoặc không nằm trong một phạm vi cụ thể; Nhiều giảng dạy và thực hành thống kê đã phát triển một sự tập trung mạnh mẽ (và không lành mạnh) vào ý tưởng rằng mục đích chính của một nghiên cứu nên là để kiểm tra các giả thuyết không. Trên thực tế, hầu hết các mô tả về kiểm định thống kê chỉ tập trung vào việc kiểm định các giả thuyết không, và toàn bộ chủ đề được gọi là “Kiểm định ý nghĩa giả thuyết không” (NHST). Sự tập trung độc quyền này vào các giả thuyết vô hiệu góp phần gây ra sự hiểu lầm về các bài kiểm tra. Thêm vào sự hiểu lầm là nhiều tác giả (bao gồm cả R. A. Fisher) sử dụng “giả thuyết vô hiệu” để chỉ bất kỳ giả thuyết thử nghiệm nào, mặc dù cách sử dụng này trái ngược với các tác giả khác và với các định nghĩa tiếng Anh thông thường về “không”—cũng như cách sử dụng thống kê của “ý nghĩa” và “độ tin cậy. ” Sự không chắc chắn, xác suất và ý nghĩa thống kêMột mục tiêu tinh tế hơn của phân tích thống kê là đưa ra đánh giá về sự chắc chắn hoặc không chắc chắn về quy mô của một tác động. Việc thể hiện sự chắc chắn như vậy dưới dạng “xác suất” của các giả thuyết là điều tự nhiên. Tuy nhiên, trong các phương pháp thống kê thông thường, “xác suất” không đề cập đến các giả thuyết, mà đề cập đến các đại lượng là tần suất giả định của các mẫu dữ liệu trong một mô hình thống kê giả định. Do đó, những phương pháp này được gọi là phương pháp thường xuyên, và tần số giả thuyết mà chúng dự đoán được gọi là “xác suất tần suất”. ” Mặc dù đã được đào tạo đáng kể nhưng ngược lại, nhiều nhà khoa học được đào tạo về thống kê lại có thói quen diễn giải sai các xác suất tần suất này thành xác suất giả thuyết. (Thậm chí còn khó hiểu hơn, thuật ngữ “xác suất của một giá trị tham số” được các nhà thống kê dành riêng để chỉ xác suất của dữ liệu quan sát được đưa ra giá trị tham số; nó không đề cập đến xác suất tham số nhận giá trị đã cho. ) Không nơi nào những vấn đề này tràn lan hơn trong các ứng dụng của tần suất giả định được gọi là giá trị P, còn được gọi là “mức ý nghĩa quan sát được” đối với giả thuyết thử nghiệm. Các “kiểm định ý nghĩa” thống kê dựa trên khái niệm này đã là một phần trung tâm của các phân tích thống kê trong nhiều thế kỷ [75]. Trọng tâm của các định nghĩa truyền thống về giá trị P và ý nghĩa thống kê là các giả thuyết không, coi tất cả các giả định khác được sử dụng để tính toán giá trị P như thể chúng được biết là đúng. Nhận thấy rằng những giả định khác này thường bị nghi ngờ nếu không muốn nói là không có cơ sở, chúng tôi sẽ áp dụng một quan điểm tổng quát hơn về giá trị P như một bản tóm tắt thống kê về tính tương thích giữa dữ liệu được quan sát và những gì chúng tôi dự đoán hoặc mong đợi sẽ thấy nếu chúng tôi biết toàn bộ mô hình thống kê Cụ thể, khoảng cách giữa dữ liệu và dự đoán mô hình được đo bằng thống kê kiểm tra (chẳng hạn như thống kê t hoặc thống kê bình phương Chi). Giá trị P sau đó là xác suất mà thống kê kiểm tra được chọn ít nhất sẽ lớn bằng giá trị được quan sát của nó nếu mọi giả định của mô hình đều đúng, bao gồm cả giả thuyết kiểm tra. Định nghĩa này thể hiện một điểm quan trọng bị mất trong các định nghĩa truyền thống. Theo thuật ngữ logic, giá trị P kiểm tra tất cả các giả định về cách dữ liệu được tạo (toàn bộ mô hình), không chỉ giả thuyết mục tiêu mà nó phải kiểm tra (chẳng hạn như giả thuyết không). Hơn nữa, những giả định này bao gồm nhiều hơn những gì được trình bày theo cách truyền thống dưới dạng giả định về xác suất hoặc mô hình hóa—chúng bao gồm các giả định về việc tiến hành phân tích, ví dụ như các kết quả phân tích trung gian không được sử dụng để xác định phân tích nào sẽ được trình bày Đúng là giá trị P càng nhỏ thì dữ liệu càng bất thường nếu mọi giả định đơn lẻ đều đúng; . Ví dụ: giá trị P có thể rất nhỏ vì giả thuyết được nhắm mục tiêu là sai; . Ngược lại, giá trị P lớn chỉ cho biết rằng dữ liệu không bất thường trong mô hình, nhưng không ngụ ý rằng mô hình hoặc bất kỳ khía cạnh nào của nó (chẳng hạn như giả thuyết được nhắm mục tiêu) là chính xác; Định nghĩa chung về giá trị P có thể giúp một người hiểu tại sao các bài kiểm tra thống kê cho chúng ta biết ít hơn nhiều so với những gì nhiều người nghĩ. Giá trị P không chỉ không cho chúng ta biết liệu giả thuyết được nhắm mục tiêu để thử nghiệm có đúng hay không; Tuy nhiên, giá trị P có thể được xem như một phép đo liên tục về khả năng tương thích giữa dữ liệu và toàn bộ mô hình được sử dụng để tính toán nó, nằm trong khoảng từ 0 đối với hoàn toàn không tương thích đến 1 đối với khả năng tương thích hoàn hảo và theo nghĩa này có thể được xem là đo lường mức độ phù hợp. . Tuy nhiên, giá trị P thường bị giảm xuống thành một phép phân đôi trong đó kết quả được tuyên bố là “có ý nghĩa thống kê” nếu P rơi vào hoặc thấp hơn ngưỡng (thường là 0. 05) và được tuyên bố là "không đáng kể" nếu không. Các thuật ngữ “mức ý nghĩa” và “mức alpha” (α) thường được sử dụng để chỉ điểm giới hạn; . Sự khác biệt của họ là sâu sắc. giá trị giới hạn α được cho là cố định trước và do đó là một phần của thiết kế nghiên cứu, không thay đổi theo dữ liệu. Ngược lại, giá trị P là một số được tính toán từ dữ liệu và do đó là kết quả phân tích, không xác định được cho đến khi nó được tính toán Chuyển từ thử nghiệm sang ước tínhChúng ta có thể thay đổi giả thuyết kiểm tra trong khi giữ nguyên các giả định khác, để xem giá trị P khác nhau như thế nào giữa các giả thuyết kiểm tra cạnh tranh. Thông thường, các giả thuyết thử nghiệm này chỉ định các kích thước khác nhau cho một hiệu ứng được nhắm mục tiêu; . Kích thước ảnh hưởng mà thử nghiệm tạo ra P = 1 là kích thước tương thích nhất với dữ liệu (theo nghĩa dự đoán những gì được quan sát trên thực tế) nếu tất cả các giả định khác được sử dụng trong thử nghiệm (mô hình thống kê) là chính xác và cung cấp một điểm . Kích thước hiệu ứng mà thử nghiệm tạo ra P > 0. 05 thường sẽ xác định một loạt các kích cỡ (e. g. , từ 11. 0 đến 19. 5) sẽ được coi là tương thích với dữ liệu hơn (theo nghĩa là các quan sát gần với những gì mô hình dự đoán) hơn là các kích thước nằm ngoài phạm vi—một lần nữa, nếu mô hình thống kê là chính xác. Phạm vi này tương ứng với 1 − 0. 05 = 0. khoảng tin cậy 95 hoặc 95 % và cung cấp một cách thuận tiện để tóm tắt kết quả kiểm tra giả thuyết cho nhiều kích cỡ hiệu ứng. Khoảng tin cậy là ví dụ về ước tính khoảng Neyman [76] đề xuất xây dựng khoảng tin cậy theo cách này vì chúng có tính chất sau. Giả sử, nếu một người tính toán lặp đi lặp lại khoảng tin cậy 95 % trong các ứng dụng hợp lệ, thì trung bình 95 % trong số đó sẽ chứa (i. e. , bao gồm hoặc che phủ) kích thước hiệu ứng thực. Do đó, mức độ tin cậy được chỉ định được gọi là xác suất bao phủ. Như Neyman đã nhấn mạnh nhiều lần, xác suất bao phủ này là thuộc tính của một chuỗi dài các khoảng tin cậy được tính toán từ các mô hình hợp lệ, chứ không phải là thuộc tính của bất kỳ khoảng tin cậy đơn lẻ nào. Nhiều tạp chí hiện yêu cầu khoảng tin cậy, nhưng hầu hết các sách giáo khoa và nghiên cứu chỉ thảo luận về giá trị P cho giả thuyết không có hiệu lực. Việc tập trung hoàn toàn vào các giả thuyết vô hiệu trong thử nghiệm không chỉ góp phần gây hiểu lầm về các thử nghiệm và đánh giá thấp ước tính, mà còn che khuất mối quan hệ chặt chẽ giữa giá trị P và khoảng tin cậy, cũng như những điểm yếu mà chúng chia sẻ. Giá trị P, khoảng tin cậy và tính toán công suất nào không cho chúng ta biếtNhiều biến dạng phát sinh từ sự hiểu lầm cơ bản về giá trị P và họ hàng của chúng (chẳng hạn như khoảng tin cậy) không cho chúng ta biết. Do đó, dựa trên các bài viết trong danh sách tham khảo của chúng tôi, chúng tôi xem xét các cách giải thích sai về giá trị P phổ biến như một cách để chuyển sang các cách giải thích và trình bày có thể bào chữa được. Chúng tôi áp dụng định dạng của Goodman [40] trong việc cung cấp danh sách các cách giải thích sai có thể được sử dụng để đánh giá nghiêm túc các kết luận được đưa ra bởi các báo cáo nghiên cứu và đánh giá. Mỗi một tuyên bố in đậm trong danh sách của chúng tôi đã góp phần làm sai lệch thống kê các tài liệu khoa học, và chúng tôi thêm câu nhấn mạnh “Không. ” để nhấn mạnh những tuyên bố không chỉ ngụy biện mà còn không “đủ đúng cho các mục đích thực tế. ” Giải thích sai phổ biến của các giá trị P đơn lẻ
Có những cách giải thích khác về giá trị P đang gây tranh cãi, trong đó liệu câu trả lời phân loại “Không. ” được đảm bảo tùy thuộc vào triết lý thống kê của một người và ý nghĩa chính xác được đưa ra cho các thuật ngữ liên quan. Các tuyên bố gây tranh cãi xứng đáng được công nhận nếu một người muốn tránh tranh cãi như vậy Ví dụ, người ta đã lập luận rằng các giá trị P phóng đại bằng chứng chống lại các giả thuyết thử nghiệm, dựa trên việc so sánh trực tiếp các giá trị P với các đại lượng nhất định (tỷ lệ khả năng xảy ra và các yếu tố Bayes) đóng vai trò trung tâm như là thước đo bằng chứng trong phân tích Bayes [37, 72, 77– . Tuy nhiên, nhiều nhà thống kê khác không chấp nhận những đại lượng này như tiêu chuẩn vàng, và thay vào đó chỉ ra rằng các giá trị P tóm tắt bằng chứng quan trọng cần thiết để đánh giá tỷ lệ lỗi của các quyết định dựa trên các kiểm tra thống kê (mặc dù chúng không đủ để đưa ra các quyết định đó). Do đó, từ quan điểm thường xuyên này, giá trị P không cường điệu hóa bằng chứng và thậm chí có thể được coi là đo lường một khía cạnh của bằng chứng [7, 8, 84–87], với 1 − P đo lường bằng chứng dựa trên mô hình được sử dụng để tính toán giá trị P. Xem thêm Murtaugh [88] và thảo luận kèm theo Các giải thích sai phổ biến về so sánh và dự đoán giá trị PMột số biến dạng nghiêm trọng nhất của tài liệu khoa học do thử nghiệm thống kê tạo ra liên quan đến việc so sánh và tổng hợp sai kết quả từ các nghiên cứu hoặc phân nhóm nghiên cứu khác nhau. Trong số những điều tồi tệ nhất là
Cuối cùng, mặc dù (chúng tôi hy vọng rõ ràng là) sai khi làm như vậy, đôi khi người ta thấy giả thuyết không được so sánh với một giả thuyết (thay thế) khác bằng cách sử dụng giá trị P hai phía cho giá trị không và giá trị P một phía cho phương án thay thế. Sự so sánh này thiên về giá trị không ở chỗ phép thử hai phía sẽ loại bỏ sai giá trị không bằng một nửa tần suất như phép thử một phía sẽ loại bỏ sai phương án thay thế (một lần nữa, theo tất cả các giả định được sử dụng để thử nghiệm) Những hiểu sai phổ biến về khoảng tin cậyHầu hết các giải thích sai ở trên chuyển thành một giải thích sai tương tự cho khoảng tin cậy. Ví dụ: một cách hiểu sai khác về P > 0. 05 có nghĩa là giả thuyết thử nghiệm chỉ có 5 % khả năng sai, điều này về mặt khoảng tin cậy trở thành sai lầm phổ biến
Về mặt đối xứng, việc giải thích sai giá trị P nhỏ khi bác bỏ giả thuyết kiểm tra có thể được chuyển thành
Cũng như các giá trị P, việc so sánh ngây thơ các khoảng tin cậy có thể gây hiểu lầm cao
Cuối cùng, như với các giá trị P, các thuộc tính sao chép của khoảng tin cậy thường bị hiểu sai
Ngoài các cách hiểu sai ở trên, khoảng tin cậy 95 % buộc 0. Ngưỡng 05 cấp trên đầu đọc, gộp tất cả các kích thước hiệu ứng lại với nhau với P > 0. 05, và theo cách này cũng tệ như việc trình bày các giá trị P dưới dạng phân đôi. Tuy nhiên, nhiều tác giả đồng ý rằng khoảng tin cậy vượt trội hơn so với các kiểm định và giá trị P vì chúng cho phép người ta chuyển sự tập trung khỏi giả thuyết khống, sang toàn bộ phạm vi kích thước hiệu ứng tương thích với dữ liệu—một sự thay đổi được nhiều tác giả khuyến nghị và số lượng ngày càng tăng . Một cách khác để thu hút sự chú ý đến các giả thuyết không có giá trị là trình bày các giá trị P của chúng; Cũng như các giá trị P, cần thận trọng hơn nữa để tránh hiểu sai khoảng tin cậy khi cung cấp câu trả lời rõ ràng khi không có gì được đảm bảo. Giả thuyết cho biết ước tính điểm là hiệu ứng chính xác sẽ có giá trị P lớn nhất (P = 1 trong hầu hết các trường hợp) và các giả thuyết bên trong khoảng tin cậy sẽ có giá trị P cao hơn các giả thuyết bên ngoài khoảng tin cậy. Tuy nhiên, các giá trị P sẽ khác nhau rất nhiều giữa các giả thuyết bên trong khoảng cũng như giữa các giả thuyết bên ngoài. Ngoài ra, hai giả thuyết có thể có giá trị P gần bằng nhau mặc dù một trong các giả thuyết nằm trong khoảng và giả thuyết kia nằm ngoài. Vì vậy, nếu chúng ta sử dụng các giá trị P để đo lường mức độ tương thích của các giả thuyết với dữ liệu và muốn so sánh các giả thuyết với thước đo này, chúng ta cần kiểm tra trực tiếp các giá trị P của chúng, chứ không chỉ đơn giản hỏi liệu các giả thuyết nằm trong hay ngoài khoảng. Nhu cầu này đặc biệt cấp thiết khi (như thường lệ) một trong những giả thuyết được xem xét kỹ lưỡng là một giả thuyết không Những hiểu lầm phổ biến về quyền lựcSức mạnh của một bài kiểm tra để phát hiện một giả thuyết thay thế đúng là xác suất trước khi nghiên cứu rằng bài kiểm tra sẽ bác bỏ giả thuyết kiểm tra (e. g. , xác suất P sẽ không vượt quá giới hạn được chỉ định trước, chẳng hạn như 0. 05). (Xác suất trước nghiên cứu tương ứng của việc không bác bỏ giả thuyết kiểm tra khi phương án thay thế đúng bằng một trừ đi công suất, còn được gọi là tỷ lệ lỗi loại II hoặc beta) [84] Cũng như giá trị P và khoảng tin cậy, xác suất này . Một nguồn của các giả thuyết thay thế hợp lý là kích thước hiệu ứng đã được sử dụng để tính toán sức mạnh trong đề xuất nghiên cứu. Tuy nhiên, các phép tính công suất trước khi nghiên cứu không đo lường tính tương thích của các phương án này với dữ liệu thực tế được quan sát, trong khi công suất tính toán từ dữ liệu được quan sát là một phép biến đổi trực tiếp (nếu không rõ ràng) của giá trị P null và do đó không cung cấp phép thử cho các phương án. Do đó, việc trình bày công suất không làm giảm nhu cầu đưa ra ước tính khoảng thời gian và thử nghiệm trực tiếp các phương án Vì những lý do này, nhiều tác giả đã lên án việc sử dụng quyền lực để giải thích các ước tính và kiểm tra thống kê [42, 92–97], lập luận rằng (ngược lại với khoảng tin cậy) nó làm phân tán sự chú ý khỏi việc so sánh trực tiếp các giả thuyết và đưa ra những cách hiểu sai mới, chẳng hạn như
Đặc biệt có thể gây hiểu lầm khi so sánh kết quả của hai giả thuyết bằng cách trình bày phép thử hoặc giá trị P cho một giả thuyết và lũy thừa cho giả thuyết kia. Ví dụ: kiểm tra null bằng cách xem liệu P ≤ 0. 05 với lũy thừa nhỏ hơn 1 − 0. 05 = 0. 95 đối với phương án thay thế (như được thực hiện thường xuyên) sẽ làm sai lệch so sánh có lợi cho null vì nó kéo theo xác suất từ chối sai null (0. 05) so với việc chấp nhận giá trị rỗng không chính xác khi phương án thay thế là đúng. Do đó, tuyên bố về hỗ trợ hoặc bằng chứng tương đối cần phải dựa trên các biện pháp hỗ trợ hoặc bằng chứng trực tiếp và có thể so sánh được cho cả hai giả thuyết, nếu không sẽ xảy ra những sai lầm như sau
Mặc dù có những thiếu sót trong việc giải thích dữ liệu hiện tại, sức mạnh có thể hữu ích cho việc thiết kế các nghiên cứu và để hiểu tại sao việc sao chép “ý nghĩa thống kê” thường thất bại ngay cả trong điều kiện lý tưởng. Các nghiên cứu thường được thiết kế hoặc tuyên bố là có 80 % sức mạnh so với phương án chính khi sử dụng 0. 05, mặc dù trong quá trình thực thi thường có ít quyền lực hơn do các vấn đề không lường trước được như tuyển dụng đối tượng thấp. Do đó, nếu phương án thay thế là đúng và hiệu quả thực tế của hai nghiên cứu là 80 %, thì khả năng cả hai nghiên cứu sẽ hiển thị P ≤ 0. 05 tốt nhất sẽ chỉ là 0. 80(0. 80) = 64 %; . 05 và cái kia thì không (và do đó sẽ bị hiểu sai là hiển thị kết quả mâu thuẫn) là 2(0. 80)0. 20 = 32 % hay khoảng 1 phần 3 cơ hội. Các tính toán tương tự có tính đến các vấn đề điển hình cho thấy rằng người ta có thể dự đoán một “cuộc khủng hoảng sao chép” ngay cả khi không có sự sai lệch trong xuất bản hoặc báo cáo, đơn giản vì các quy ước thiết kế và thử nghiệm hiện tại coi các kết quả nghiên cứu riêng lẻ là kết quả phân đôi của “đáng kể”/“không đáng kể” hoặc . ” Một mô hình thống kê không chỉ là một phương trình với các chữ cái Hy LạpDanh sách trên có thể được mở rộng bằng cách xem xét các tài liệu nghiên cứu. Tuy nhiên, bây giờ chúng ta sẽ chuyển sang thảo luận trực tiếp về một vấn đề gần đây đã nhận được nhiều sự quan tâm hơn nhưng vẫn bị nhiều người bỏ qua hoặc diễn giải quá hạn hẹp trong giảng dạy và thuyết trình thống kê. Mô hình thống kê được sử dụng để thu được kết quả là chính xác Quá thường xuyên, mô hình thống kê đầy đủ được coi là một phương trình cấu trúc hoặc hồi quy đơn giản trong đó các hiệu ứng được biểu thị bằng các tham số được biểu thị bằng các chữ cái Hy Lạp. Sau đó, “kiểm tra mô hình” được giới hạn trong các thử nghiệm về sự phù hợp hoặc thử nghiệm các điều khoản bổ sung cho mô hình. Tuy nhiên, bản thân các bài kiểm tra về sự phù hợp này lại đưa ra các giả định xa hơn nên được coi là một phần của mô hình đầy đủ. Ví dụ: tất cả các thử nghiệm thông thường và khoảng tin cậy phụ thuộc vào các giả định về lựa chọn ngẫu nhiên để quan sát hoặc xử lý và mất hoặc thiếu ngẫu nhiên trong các mức độ của các đồng biến được kiểm soát. Những giả định này dần dần được xem xét kỹ lưỡng thông qua phân tích độ nhạy và sai lệch [98], nhưng những phương pháp như vậy vẫn còn xa vời với đào tạo thống kê cơ bản dành cho hầu hết các nhà nghiên cứu Ít được nêu ra hơn là giả định thậm chí còn quan trọng hơn rằng bản thân các phân tích không được hướng dẫn để tìm ra sự không quan trọng hoặc có ý nghĩa (độ lệch phân tích) và các kết quả phân tích không được báo cáo dựa trên mức độ không có ý nghĩa hoặc tầm quan trọng của chúng (độ lệch báo cáo và độ lệch xuất bản). Báo cáo chọn lọc hiển thị sai ngay cả những ý nghĩa lý tưởng hạn chế về ý nghĩa thống kê, giá trị P và khoảng tin cậy. Bởi vì quyết định báo cáo của tác giả và quyết định biên tập công bố kết quả thường phụ thuộc vào việc giá trị P cao hơn hay thấp hơn 0. 05, báo cáo có chọn lọc đã được xác định là một vấn đề lớn trong phần lớn tài liệu khoa học [99–101] Mặc dù vấn đề lựa chọn này cũng đã được phân tích độ nhạy, nhưng đã có sự sai lệch trong các nghiên cứu về sai lệch báo cáo và xuất bản. Người ta thường cho rằng những thành kiến này có ý nghĩa quan trọng. Tất nhiên, giả định này đúng khi (như thường lệ) các nhà nghiên cứu chọn kết quả để trình bày khi P ≤ 0. 05, một thói quen có xu hướng phóng đại các liên tưởng [101–105]. Tuy nhiên, xu hướng ủng hộ báo cáo P ≤ 0. 05 không phải lúc nào cũng hợp lý chứ đừng nói đến bằng chứng hoặc lẽ thường. Ví dụ: một người có thể mong đợi lựa chọn cho P > 0. 05 trong các ấn phẩm được tài trợ bởi những người có cổ phần trong việc chấp nhận giả thuyết khống (một thực tế có xu hướng đánh giá thấp các hiệp hội); Giải quyết những vấn đề như vậy sẽ đòi hỏi ý chí và nỗ lực chính trị cao hơn nhiều so với giải quyết việc hiểu sai số liệu thống kê, chẳng hạn như thực thi đăng ký thử nghiệm, cùng với dữ liệu mở và mã phân tích từ tất cả các nghiên cứu đã hoàn thành (như trong sáng kiến AllTrials, http. //www. tất cả thử nghiệm. mạng lưới/). Trong thời gian chờ đợi, độc giả nên xem xét toàn bộ bối cảnh mà các báo cáo nghiên cứu được tạo ra và xuất hiện khi diễn giải các số liệu thống kê và kết luận được đưa ra bởi các báo cáo kết luậnKhi nhận ra rằng các bài kiểm tra thống kê thường bị hiểu sai, người ta có thể tự hỏi liệu những bài kiểm tra này có tác dụng gì đối với khoa học hay không?. Ban đầu, chúng được dự định coi tính biến thiên ngẫu nhiên là nguồn gốc của sai số, do đó có vẻ như là một lưu ý thận trọng đối với việc giải thích quá mức các mối liên hệ được quan sát là tác động thực sự hoặc là bằng chứng mạnh mẽ hơn chống lại các giả thuyết không được bảo đảm. Nhưng chẳng bao lâu sau, việc sử dụng đó đã bị lật tẩy để cung cấp sự hỗ trợ sai lầm cho các giả thuyết vô hiệu dưới dạng “không đạt được” hoặc “không đạt được” ý nghĩa thống kê Chúng tôi chắc chắn rằng những người sáng lập thử nghiệm thống kê hiện đại sẽ kinh hoàng trước các phương pháp điều trị phổ biến cho phát minh của họ. Trong bài báo đầu tiên mô tả cách tiếp cận nhị phân của họ đối với thử nghiệm thống kê, Neyman và Pearson [108] đã viết rằng “điều đáng nghi ngờ là liệu kiến thức [giá trị P] có thực sự bằng 0 hay không. 03 (hoặc 0. 06), thay vì 0. 05…trên thực tế sẽ không bao giờ thay đổi phán đoán của chúng ta” và rằng “Bản thân các bài kiểm tra không đưa ra phán quyết cuối cùng, mà là công cụ giúp người lao động đang sử dụng chúng đưa ra quyết định cuối cùng của mình. ” Pearson [109] sau đó nói thêm, “Không còn nghi ngờ gì nữa, chúng tôi có thể nói một cách thích hợp hơn, ‘quyết định cuối cùng hoặc tạm thời của anh ấy. ’” Fisher [110] còn đi xa hơn, nói rằng “Không một nhà khoa học nào có một mức độ ý nghĩa cố định mà từ năm này qua năm khác, và trong mọi hoàn cảnh, anh ta bác bỏ các giả thuyết; . ” Tuy nhiên, việc sử dụng các bài kiểm tra một cách sai lầm và mang tính nghi thức vẫn tiếp tục lan rộng, bao gồm niềm tin rằng P cao hơn hay thấp hơn 0. 05 là trọng tài khám phá toàn cầu. Vì vậy, đến năm 1965, Hill [111] than thở rằng “chúng ta thường xuyên làm suy yếu khả năng diễn giải dữ liệu và đưa ra các quyết định hợp lý bất kể giá trị của P là bao nhiêu. Và quá thường xuyên, chúng ta suy ra 'không có sự khác biệt' từ 'không có sự khác biệt đáng kể'. ’” Đáp lại, người ta lập luận rằng một số diễn giải sai là vô hại trong các thí nghiệm được kiểm soát chặt chẽ trên các hệ thống đã được hiểu rõ, trong đó giả thuyết thử nghiệm có thể có sự hỗ trợ đặc biệt từ các lý thuyết đã được thiết lập (e. g. , di truyền học Mendel) và trong đó mọi giả định khác (chẳng hạn như phân bổ ngẫu nhiên) buộc phải tuân theo thiết kế và thực hiện nghiên cứu cẩn thận. Nhưng từ lâu người ta đã khẳng định rằng tác hại của thử nghiệm thống kê trong các môi trường nghiên cứu vô định hình và không thể kiểm soát hơn (chẳng hạn như các lĩnh vực khoa học xã hội, y tế và y tế) vượt xa lợi ích của nó, dẫn đến lời kêu gọi cấm các thử nghiệm như vậy trong các báo cáo nghiên cứu—một lần nữa Tuy nhiên, do sự thâm nhập sâu sắc của kiểm tra thống kê, cũng như sự vắng mặt của các phương pháp thay thế được chấp nhận rộng rãi, đã có nhiều nỗ lực cứu vãn các giá trị P bằng cách tách chúng ra khỏi việc sử dụng chúng trong các kiểm tra ý nghĩa. Một cách tiếp cận là tập trung vào các giá trị P như các biện pháp tương thích liên tục, như được mô tả trước đó. Mặc dù cách tiếp cận này có những hạn chế riêng (như được mô tả trong các điểm 1, 2, 5, 9, 15, 18, 19), nhưng nó tránh được việc so sánh các giá trị P với các ngưỡng tùy ý như 0. 05, (như được mô tả trong 3, 4, 6–8, 10–13, 15, 16, 21 và 23–25). Một cách tiếp cận khác là dạy và sử dụng các mối quan hệ chính xác của giá trị P với xác suất giả thuyết. Ví dụ, dưới các mô hình thống kê phổ biến, các giá trị P một phía có thể cung cấp các giới hạn thấp hơn về xác suất cho các giả thuyết về hướng tác động [45, 46, 112, 113]. Liệu những giải thích lại như vậy cuối cùng có thể thay thế những giải thích sai phổ biến để có hiệu quả tốt hay không vẫn còn phải xem Sự thay đổi trọng tâm từ kiểm tra giả thuyết sang ước tính đã được thúc đẩy như một cách đơn giản và tương đối an toàn để cải thiện thực hành [5, 61, 63, 114, 115] dẫn đến việc sử dụng khoảng tin cậy ngày càng nhiều và nhu cầu biên tập đối với chúng; . Các cách tiếp cận khác kết hợp các phép kiểm định giá trị không với các tính toán tiếp theo liên quan đến cả giả thuyết không và giả thuyết thay thế [117, 118]; Đồng thời, với hy vọng giảm thiểu tác hại của thực tiễn hiện tại, chúng tôi có thể đưa ra một số hướng dẫn cho người dùng và người đọc số liệu thống kê, đồng thời nhấn mạnh lại một số cảnh báo chính từ danh sách các cách hiểu sai của chúng tôi
Cuối cùng, chúng tôi lưu ý rằng không có phương pháp thống kê nào miễn nhiễm với việc giải thích sai và sử dụng sai, nhưng những người sử dụng số liệu thống kê thận trọng sẽ tránh các phương pháp đặc biệt dễ bị lạm dụng nghiêm trọng. Về vấn đề này, chúng tôi cùng với những người khác chỉ ra sự suy giảm giá trị P thành “có ý nghĩa” và “không có ý nghĩa” như một phương pháp thống kê đặc biệt nguy hiểm [126] Sự nhìn nhậnSJS nhận tài trợ từ dự án IDEAL được hỗ trợ bởi Chương trình khung thứ bảy của Liên minh Châu Âu để nghiên cứu, phát triển và trình diễn công nghệ theo Thỏa thuận tài trợ số. 602552. Chúng tôi xin cảm ơn Stuart Hurlbert, Deborah Mayo, Keith O'Rourke và Andreas Stang vì những nhận xét hữu ích và Ron Wasserstein vì sự khuyến khích vô giá của ông đối với dự án này chú thíchGhi chú của biên tập viên Bài viết này đã được xuất bản trực tuyến dưới dạng tài liệu bổ sung với một bài báo của Wasserstein RL, Lazar NA. Tuyên bố của ASA về giá trị p. bối cảnh, quá trình và mục đích. Nhà thống kê Mỹ 2016 Albert Hofman, Tổng biên tập EJE Thông tin cộng tác viênSander Greenland, Email. anh. alcu@semodsel . Stephen J. Senn, Email. ul. hil@nnes. nehpets . John B. Carlin, Email. ua. bạn. ircm@nilrac. nhoj . Charles Poole, Email. anh. cnu@eloopc . Steven N. Goodman, Email. anh. drofnats@namdoog. sự kiện . Douglas G. Altman, Email. ku. ca. xo. msc@namtla. hướng dẫn . Người giới thiệu1. Lang JM, Rothman KJ, Cann CI. Giá trị P gây nhiễu đó. Dịch tễ học. 1998; 9 . 7–8. doi. 10. 1097/00001648-199801000-00004. [PubMed] [CrossRef] [Google Scholar] 2. Trafimow D, Marks M. biên tập. Tâm lý học xã hội ứng dụng cơ bản. 2015; 37 . 1–2. doi. 10. 1080/01973533. 2015. 1012991. [CrossRef] [Google Scholar] 3. Ashworth A. Quyền phủ quyết về việc sử dụng thử nghiệm giả thuyết vô hiệu và khoảng p. đúng hay sai? . 2015. Tài nguyên trực tuyến, http. // biên tập tài nguyên. nhóm taylorandfrancis. com/veto-on-the-use-of-null-hypothesis-testing-and-p-intervals-right-or-sai/. Truy cập ngày 27 tháng 2 năm 2016. 4. Flanagan O. Tạp chí cấm kiểm tra ý nghĩa giả thuyết khống. phản ứng từ đấu trường thống kê. 2015. Thống kê Cuộc sống trực tuyến, https. //www. cuộc sống thống kê. tổ chức. uk/opinion/2114-journal-s-ban-on-null-hypothesis-significance-testing-reactions-from-the-statistical-arena. Truy cập ngày 27 tháng 2 năm 2016. 5. Altman DG, Machin D, Bryant TN, Gardner MJ, biên tập viên. Thống kê đáng tin cậy. 2. London. Sách BMJ; . [Google Scholar] 6. Atkins L, Jarrett D. Tầm quan trọng của “kiểm định ý nghĩa” trong. Irvine J, Miles I, Evans J, biên tập viên. Làm sáng tỏ số liệu thống kê xã hội. Luân Đôn. Diêm Vương ấn; . [Google Scholar] 7. Cox DR. Vai trò của các bài kiểm tra ý nghĩa (có thảo luận) Scand J Stat. 1977; 4 . 49–70. [Google Scholar] 8. Cox DR. kiểm tra ý nghĩa thống kê. Br J Clin Pharmacol. 1982; 14 . 325–331. doi. 10. 1111/j. 1365-2125. 1982. tb01987. x. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 9. Cox DR, Hinkley DV. Thống kê lý thuyết. New York. Chapman và Hội trường; . [Google Scholar] 10. Freedman DA, Pisani R, Purves R. Thống kê. 4. Newyork. Norton; . [Google Scholar] 11. Gigerenzer G, Swijtink Z, Porter T, Daston L, Beatty J, Kruger L. Đế chế may rủi. xác suất đã thay đổi khoa học và cuộc sống hàng ngày như thế nào. New York. Nhà xuất bản Đại học Cambridge; . [Google Scholar] 12. Harlow LL, Mulaik SA, Steiger JH. Nếu không có kiểm định ý nghĩa thì sao? New York. Tâm lý báo chí; . [Google Scholar] 13. Hogben L. Lý thuyết thống kê. Luân Đôn. Allen và Unwin; . [Google Scholar] 14. Kaye DH, Freedman DA. Tài liệu tham khảo về thống kê. Trong. Sổ tay tham khảo về bằng chứng khoa học, tái bản lần thứ 3. Washington DC. Trung tâm tư pháp liên bang; . P. 211–302. 15. Morrison DE, Henkel RE, biên tập viên. Tranh cãi về thử nghiệm ý nghĩa. Chicago. anđehit; . [Google Scholar] 16. Oakes M. Suy luận thống kê. một bài bình luận cho khoa học xã hội và hành vi. Chichester. Wiley; . [Google Scholar] 17. Pratt JW. Giải thích Bayesian của các tuyên bố suy luận tiêu chuẩn. J Roy Stat Sóc B. 1965; 27 . 169–203. [Google Scholar] 18. Rothman KJ, Greenland S, Lash TL. Dịch tễ học hiện đại. 3. Philadelphia. Lippincott-Wolters-Kluwer; . [Google Scholar] 19. Ware JH, Mosteller F, Ingelfinger JA. giá trị p. Trong. Bailar JC, Hoaglin DC, biên tập viên. Ch. số 8. Sử dụng y tế của số liệu thống kê. 3. Hoboken, New Jersey. Wiley; . trang. 175–194. [Google Scholar] 20. Ziliak ST, McCloskey DN. Sùng bái ý nghĩa thống kê. lỗi tiêu chuẩn khiến chúng ta mất việc làm, công lý và tính mạng như thế nào. Ann Arbor. Nhà xuất bản U Michigan; . [Google Scholar] 21. Altman DG, Bland JM. Không có bằng chứng không phải là bằng chứng vắng mặt. Br Med J. 1995; 311 . 485. doi. 10. 1136/bmj. 311. 7003. 485. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 22. Anscombe FJ. Tóm tắt các thí nghiệm lâm sàng theo mức ý nghĩa. Thống kê Med. 1990; 9 . 703–708. doi. 10. 1002/sim. 4780090617. [PubMed] [CrossRef] [Google Scholar] 23. Bakan D. Kiểm tra ý nghĩa trong nghiên cứu tâm lý. Psychol Bull. 1966; 66 . 423–437. doi. 10. 1037/h0020412. [PubMed] [CrossRef] [Google Scholar] 24. Bandt CL, Boen JR. Một quan niệm sai lầm phổ biến về cỡ mẫu, ý nghĩa thống kê và tầm quan trọng lâm sàng. J nha chu. 1972; 43 . 181–183. doi. 10. 1902/jo. 1972. 43. 3. 181. [PubMed] [CrossRef] [Google Scholar] 25. Berkson J. Các thử nghiệm về ý nghĩa được coi là bằng chứng. J Am Stat PGS. 1942; 37 . 325–335. doi. 10. 1080/01621459. 1942. 10501760. [CrossRef] [Google Scholar] 26. Bland JM, Altman DG. Thực tiễn tốt nhất (nhưng hay bị lãng quên). thử nghiệm hiệu quả điều trị trong các thử nghiệm ngẫu nhiên bằng các phân tích riêng biệt về những thay đổi so với ban đầu ở mỗi nhóm là một cách tiếp cận sai lầm. Tôi là J Clin Nutr. 2015; 102 . 991–994. doi. 10. 3945/ajcn. 115. 119768. [PubMed] [CrossRef] [Google Scholar] 27. Chia KS. “Significant-itis”—một nỗi ám ảnh với giá trị P. Scand J Work Environ Health. 1997; 23 . 152–154. doi. 10. 5271/sjweh. 193. [PubMed] [CrossRef] [Google Scholar] 28. Cohen J. Trái đất tròn (p Tôi bị tâm thần. 1994; 47 . 997–1003. doi. 10. 1037/0003-066X. 49. 12. 997. [CrossRef] [Google Scholar] 29. Evans SJW, Mills P, Dawson J. Sự kết thúc của giá trị P? . Br Heart J. 1988; 60 . 177–180. doi. 10. 1136/giờ. 60. 3. 177. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 30. Fidler F, Loftus GR. Tại sao các số liệu có thanh lỗi nên thay thế giá trị p. một số lập luận khái niệm và chứng minh thực nghiệm. J Tâm thần. 2009; 217 . 27–37. [Google Scholar] 31. Gardner MA, Altman DG. Khoảng tin cậy thay vì giá trị P. ước tính hơn là kiểm tra giả thuyết. Br Med J. 1986; 292 . 746–750. doi. 10. 1136/bmj. 292. 6522. 746. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 32. Gelman A. Giá trị P và thực hành thống kê. Dịch tễ học. 2013; 24 . 69–72. doi. 10. 1097/EDE. 0b013e31827886f7. [PubMed] [CrossRef] [Google Scholar] 33. Gelman A, Loken E. Cuộc khủng hoảng thống kê trong khoa học. Phân tích phụ thuộc vào dữ liệu—một “khu vườn của các con đường rẽ nhánh”—giải thích lý do tại sao nhiều phép so sánh có ý nghĩa thống kê không theo kịp. khoa học. 2014;102. 460–465. Lỗi tại http. // andrew gelman. com/2014/10/14/didnt-say-part-2/. Truy cập ngày 27 tháng 2 năm 2016. 34. Gelman A, Trường Stern. Sự khác biệt giữa “đáng kể” và “không đáng kể” bản thân nó không có ý nghĩa thống kê. Trạng thái. 2006; 60 . 328–331. doi. 10. 1198/000313006X152649. [CrossRef] [Google Scholar] 35. Gigerenzer G. thống kê vô tâm. J Socioecon. 2004; 33 . 567–606. [Google Scholar] 36. Gigerenzer G, Marewski JN. khoa học thay thế. thần tượng của một phương pháp phổ quát để suy luận khoa học. J Manag. 2015; 41 . 421–440. [Google Scholar] 37. Goodman SN. Nhận xét về sao chép, giá trị p và bằng chứng. Thống kê Med. 1992; 11 . 875–879. doi. 10. 1002/sim. 4780110705. [PubMed] [CrossRef] [Google Scholar] 38. Goodman SN. Giá trị P, kiểm tra giả thuyết và khả năng. ý nghĩa đối với dịch tễ học của một cuộc tranh luận lịch sử bị lãng quên. Am J Epidemiol. 1993; 137 . 485–496. [PubMed] [Google Scholar] 39. Goodman SN. Hướng tới thống kê y tế dựa trên bằng chứng, tôi. ngụy biện giá trị P. Ann Intern Med. 1999; 130 . 995–1004. doi. 10. 7326/0003-4819-130-12-199906150-00008. [PubMed] [CrossRef] [Google Scholar] 40. Goodman SN. Một tá bẩn. mười hai quan niệm sai lầm về giá trị P. Semin Hematol. 2008; 45 . 135–140. doi. 10. 1053/j. bán huyết thanh. 2008. 04. 003. [PubMed] [CrossRef] [Google Scholar] 41. Greenland S. Giải thích sai trong thử nghiệm thống kê và tác động của nó đối với đánh giá rủi ro sức khỏe. Trước Med. 2011; 53 . 225–228. doi. 10. 1016/j. ypmed. 2011. 08. 010. [PubMed] [CrossRef] [Google Scholar] 42. Greenland S. Không quan trọng cộng với sức mạnh cao không có nghĩa là hỗ trợ cho giá trị rỗng so với giải pháp thay thế. Ann Epidemiol. 2012; 22 . 364–368. doi. 10. 1016/j. annepidem. 2012. 02. 007. [PubMed] [CrossRef] [Google Scholar] 43. Greenland S. Minh bạch và công khai, trung lập và cân bằng. chia sẻ giá trị hay chỉ chia sẻ từ ngữ? . J Epidemiol Community Health. 2012; 66 . 967–970. doi. 10. 1136/jech-2011-200459. [PubMed] [CrossRef] [Google Scholar] 44. Greenland S, Poole C. Các vấn đề trong cách diễn giải thông thường về số liệu thống kê trong các bài báo khoa học, báo cáo của chuyên gia và lời khai. Pháp luật. 2011; 51 . 113–129. [Google Scholar] 45. Greenland S, Poole C. Sống với giá trị P. hồi sinh quan điểm Bayes về số liệu thống kê thường xuyên. Dịch tễ học. 2013; 24 . 62–68. doi. 10. 1097/EDE. 0b013e3182785741. [PubMed] [CrossRef] [Google Scholar] 46. Greenland S, Poole C. Sống với số liệu thống kê trong nghiên cứu quan sát. Dịch tễ học. 2013; 24 . 73–78. doi. 10. 1097/EDE. 0b013e3182785a49. [PubMed] [CrossRef] [Google Scholar] 47. Đau lòng AP. Làm thế nào để kiểm tra các giả thuyết nếu bạn phải. Pharm Stat. 2015; 14 . 139–150. doi. 10. 1002/pst. 1667. [PubMed] [CrossRef] [Google Scholar] 48. Hoekstra R, Finch S, Kiers HAL, Johnson A. Xác suất như sự chắc chắn. suy nghĩ phân đôi và lạm dụng giá trị p. Psychon Bull Rev. 2006; 13 . 1033–1037. doi. 10. 3758/BF03213921. [PubMed] [CrossRef] [Google Scholar] 49. Hurlbert Lombardi CM. Sự sụp đổ cuối cùng của khuôn khổ lý thuyết quyết định Neyman–Pearson và sự nổi lên của tân Fisherian. Ann Zool Fenn. 2009; 46 . 311–349. doi. 10. 5735/086. 046. 0501. [CrossRef] [Google Scholar] 50. Kaye DH. Bằng chứng về ý nghĩa thống kê có liên quan không? . Wash Law Rev. 1986; 61 . 1333–1366. [Google Scholar] 51. Lambdin C. Kiểm tra ý nghĩa như phép thuật. khoa học mang tính thực nghiệm—các bài kiểm tra ý nghĩa không phải. Thuyết tâm lý. 2012; 22 (1). 67–90. doi. 10. 1177/0959354311429854. [CrossRef] [Google Scholar] 52. Langman MJS. Hướng tới ước lượng và khoảng tin cậy. BMJ. 1986; 292 . 716. doi. 10. 1136/bmj. 292. 6522. 716. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 53. LeCoutre M-P, Poitevineau J, Lecoutre B. Ngay cả các nhà thống kê cũng không miễn dịch với việc giải thích sai các bài kiểm tra giả thuyết không. Int J Psychol. 2003; 38 . 37–45. doi. 10. 1080/00207590244000250. [CrossRef] [Google Scholar] 54. Lew MJ. Thực hành thống kê kém trong dược lý (và các ngành y sinh cơ bản khác). có thể bạn chưa biết p. Br J Pharmacol. 2012; 166 . 1559–1567. doi. 10. 1111/j. 1476-5381. 2012. 01931. x. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 55. Loftus GR. Tâm lý học sẽ là một ngành khoa học tốt hơn nhiều khi chúng ta thay đổi cách phân tích dữ liệu. Curr Dir Psychol. 1996; 5 . 161–171. doi. 10. 1111/1467-8721. ep11512376. [CrossRef] [Google Scholar] 56. Matthew JNS, Altman DG. tương tác 2. So sánh kích thước hiệu ứng không phải giá trị P. Br Med J. 1996; 313 . 808. doi. 10. 1136/bmj. 313. 7060. 808. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 57. Pocock SJ, Ware JH. Dịch kết quả thống kê sang tiếng Anh đơn giản. Lưỡi giáo. 2009; 373 . 1926–1928. doi. 10. 1016/S0140-6736(09)60499-2. [PubMed] [CrossRef] [Google Scholar] 58. Pocock SJ, Hughes MD, Lee RJ. Các vấn đề thống kê trong báo cáo thử nghiệm lâm sàng. N Eng J Med. 1987; 317 . 426–432. doi. 10. 1056/NEJM198708133170706. [PubMed] [CrossRef] [Google Scholar] 59. Bể bơi C. Ngoài khoảng tin cậy. Tôi là Y tế Công cộng. 1987; 77 . 195–199. doi. 10. 2105/AJPH. 77. 2. 195. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 60. Bể bơi C. Khoảng tin cậy không loại trừ điều gì. Tôi là Y tế Công cộng. 1987; 77 . 492–493. doi. 10. 2105/AJPH. 77. 4. 492. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 61. Bể bơi C. Giá trị P thấp hoặc khoảng tin cậy hẹp. cái nào bền hơn? . Epidemiology. 2001; 12 . 291–294. doi. 10. 1097/00001648-200105000-00005. [PubMed] [CrossRef] [Google Scholar] 62. Rosnow RL, Rosenthal R. Thủ tục thống kê và sự biện minh của kiến thức trong khoa học tâm lý. Tôi bị tâm thần. 1989; 44 . 1276–1284. doi. 10. 1037/0003-066X. 44. 10. 1276. [CrossRef] [Google Scholar] 63. Rothman KJ. Thể hiện sự tự tin. NEJM. 1978; 299 . 1362–1363. doi. 10. 1056/NEJM197812142992410. [PubMed] [CrossRef] [Google Scholar] 64. Rothman KJ. câu hỏi ý nghĩa. Ann Intern Med. 1986; 105 . 445–447. doi. 10. 7326/0003-4819-105-3-445. [PubMed] [CrossRef] [Google Scholar] 65. Rozeboom WM. Sai lầm của kiểm tra ý nghĩa giả thuyết null. Psychol Bull. 1960; 57 . 416–428. doi. 10. 1037/h0042040. [PubMed] [CrossRef] [Google Scholar] 66. Salsburg DS. Tôn giáo của thống kê như được thực hành trong các tạp chí y khoa. Trạng thái. 1985; 39 . 220–223. [Google Scholar] 67. Schmidt FL. Kiểm tra ý nghĩa thống kê và kiến thức tích lũy trong tâm lý học. Ý nghĩa đối với việc đào tạo các nhà nghiên cứu. Phương pháp tâm lý. 1996; 1 . 115–129. doi. 10. 1037/1082-989X. 1. 2. 115. [CrossRef] [Google Scholar] 68. Schmidt FL, Hunter JE. Phương pháp phân tích tổng hợp. sửa lỗi và sai lệch trong kết quả nghiên cứu. 3. Ngàn Sồi. Hiền nhân; . [Google Scholar] 69. Sterne JAC, Davey Smith G. Sàng lọc bằng chứng - có gì sai với các bài kiểm tra ý nghĩa? . Br Med J. 2001; 322 . 226–231. doi. 10. 1136/bmj. 322. 7280. 226. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 70. Thompson WD. Tiêu chí thống kê trong việc giải thích dữ liệu dịch tễ học. Tôi là Y tế Công cộng. 1987; 77 . 191–194. doi. 10. 2105/AJPH. 77. 2. 191. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 71. Thompson B. Cuộc khủng hoảng “ý nghĩa” trong tâm lý học và giáo dục. J Sóc kinh tế. 2004; 33 . 607–613. doi. 10. 1016/j. socec. 2004. 09. 034. [CrossRef] [Google Scholar] 72. Người làm công ăn lương E-J. Một giải pháp thiết thực cho vấn đề phổ biến của các giá trị p. Psychon Bull Rev. 2007; 14 . 779–804. doi. 10. 3758/BF03194105. [PubMed] [CrossRef] [Google Scholar] 73. Walker AM. Báo cáo kết quả nghiên cứu dịch tễ học. Tôi là Y tế Công cộng. 1986; 76 . 556–558. doi. 10. 2105/AJPH. 76. 5. 556. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 74. Wood J, Freemantle N, King M, Nazareth I. Bẫy xu hướng có ý nghĩa thống kê. khả năng giá trị P gần đáng kể trở nên quan trọng hơn với dữ liệu bổ sung. BMJ. 2014; 348 . g2215. doi. 10. 1136/bmj. g2215. [PubMed] [CrossRef] [Google Scholar] 75. Stigler SM. Lịch sử thống kê. Cambridge, MA. Nhà xuất bản Belknap; . [Google Scholar] 76. Neyman J. Sơ lược về lý thuyết ước lượng thống kê dựa trên lý thuyết xác suất cổ điển. Philos Trans R Soc Lond A. 1937; 236 . 333–380. doi. 10. 1098/rsta. 1937. 0005. [CrossRef] [Google Scholar] 77. Edwards W, Lindman H, Savage LJ. Suy luận thống kê Bayesian cho nghiên cứu tâm lý. Psychol Rev. 1963; 70 . 193–242. doi. 10. 1037/h0044139. [CrossRef] [Google Scholar] 78. Berger JO, Sellke TM. Kiểm định một giả thuyết vô hiệu điểm. tính không thể dung hòa của giá trị P và bằng chứng. J Am Stat PGS. 1987; 82 . 112–139. [Google Scholar] 79. Edward AWF. Khả năng xảy ra. 2. Baltimore. Nhà xuất bản Đại học Johns Hopkins; . [Google Scholar] 80. Goodman SN, Royall R. Bằng chứng và nghiên cứu khoa học. Tôi là Y tế Công cộng. 1988; 78 . 1568–1574. doi. 10. 2105/AJPH. 78. 12. 1568. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 81. Royall R. Bằng chứng thống kê. New York. Chapman và Hội trường; . [Google Scholar] 82. Sellke TM, Bayarri MJ, Berger JO. Hiệu chỉnh các giá trị p để kiểm tra các giả thuyết null chính xác. Trạng thái. 2001; 55 . 62–71. doi. 10. 1198/000313001300339950. [CrossRef] [Google Scholar] 83. Goodman SN. Giới thiệu về phương pháp Bayesian I. Đo lường sức mạnh của bằng chứng. Thử nghiệm lâm sàng. 2005; 2 . 282–290. doi. 10. 1191/1740774505cn098oa. [PubMed] [CrossRef] [Google Scholar] 84. Lehmann EL. Kiểm định giả thuyết thống kê. 2. Wiley. Newyork; . [Google Scholar] 85. Senn SJ. Hai cổ vũ cho giá trị P. J Epidemiol Biostat. 2001; 6 (2). 193–204. doi. 10. 1080/135952201753172953. [PubMed] [CrossRef] [Google Scholar] 86. Senn SJ. Thư gửi Tòa soạn lại. Người Tốt 1992. Thống kê Med. 2002; 21 . 2437–2444. doi. 10. 1002/sim. 1072. [PubMed] [CrossRef] [Google Scholar] 87. Mayo DG, Cox DR. Thống kê thường xuyên như một lý thuyết suy luận quy nạp. Trong. J Rojo, biên tập viên. Sự tối ưu. Erich L thứ hai. Hội nghị chuyên đề Lehmann, Loạt bài giảng-chuyên khảo, Viện Thống kê toán học (IMS). 2006;49. 77–97. 88. Murtaugh PA. Bảo vệ giá trị P (có thảo luận) Sinh thái học. 2014; 95 (3). 611–653. doi. 10. 1890/13-0590. 1. [PubMed] [CrossRef] [Google Scholar] 89. Hàng rào LV, Olkin I. Phương pháp kiểm phiếu trong nghiên cứu tổng hợp. Psychol Bull. 1980; 88 . 359–369. doi. 10. 1037/0033-2909. 88. 2. 359. [CrossRef] [Google Scholar] 90. Chalmers TC, Lau J. Những thay đổi trong các thử nghiệm lâm sàng bắt buộc bởi sự ra đời của phân tích tổng hợp. Thống kê Med. 1996; 15 . 1263–1268. doi. 10. 1002/(SICI)1097-0258(19960630)15. 12 [PubMed] [CrossRef] [Google Scholar] 91. Maheshwari S, Sarraj A, Kramer J, El-Serag HB. Tránh thai đường uống và nguy cơ ung thư biểu mô tế bào gan. J Hepatol. 2007; 47 . 506–513. doi. 10. 1016/j. jhep. 2007. 03. 015. [PubMed] [CrossRef] [Google Scholar] 92. Cox DR. Lập kế hoạch thí nghiệm. New York. Wiley; . P. 161. [Google Scholar] 93. Smith AH, Bates M. Các phân tích giới hạn tin cậy nên thay thế các phép tính công suất trong việc giải thích các nghiên cứu dịch tễ học. Dịch tễ học. 1992; 3 . 449–452. doi. 10. 1097/00001648-199209000-00011. [PubMed] [CrossRef] [Google Scholar] 94. Goodman SN. Thư gửi người biên tập lại Smith và Bates. Dịch tễ học. 1994; 5 . 266–268. doi. 10. 1097/00001648-199403000-00025. [PubMed] [CrossRef] [Google Scholar] 95. Goodman SN, Berlin J. Việc sử dụng khoảng tin cậy dự đoán khi lập kế hoạch thử nghiệm và lạm dụng quyền lực khi giải thích kết quả. Ann Intern Med. 1994; 121 . 200–206. doi. 10. 7326/0003-4819-121-3-199408010-00008. [PubMed] [CrossRef] [Google Scholar] 96. Hoenig JM, Heisey DM. Lạm dụng quyền lực. sai lầm phổ biến của tính toán năng lượng để phân tích dữ liệu. Trạng thái. 2001; 55 . 19–24. doi. 10. 1198/000313001300339897. [CrossRef] [Google Scholar] 97. Senn SJ. Quyền lực thực sự không liên quan trong việc giải thích các nghiên cứu đã hoàn thành. BMJ. 2002; 325 . 1304. doi. 10. 1136/bmj. 325. 7375. 1304. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 98. Lash TL, Fox MP, Maclehose RF, Maldonado G, McCandless LC, Greenland S. Thực hành tốt để phân tích sai lệch định lượng. Int J Epidemiol. 2014; 43 . 1969–1985. doi. 10. 1093/ije/dyu149. [PubMed] [CrossRef] [Google Scholar] 99. Dwan K, Gamble C, Williamson PR, Kirkham JJ, Reporting Bias Group Đánh giá một cách có hệ thống các bằng chứng thực nghiệm về thành kiến xuất bản nghiên cứu và thành kiến báo cáo kết quả—một đánh giá cập nhật. PLoS One. 2013; 8 . e66844. doi. 10. 1371/tạp chí. pone. 0066844. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 100. Trang MJ, McKenzie JE, Kirkham J, Dwan K, Kramer S, Green S, Forbes A. Sai lệch do đưa vào có chọn lọc và báo cáo kết quả cũng như phân tích trong tổng quan hệ thống các thử nghiệm ngẫu nhiên về can thiệp chăm sóc sức khỏe. Hệ thống cơ sở dữ liệu Cochrane Rev. 2014;10. MR000035. [Bài báo miễn phí của PMC] [PubMed] 101. You B, Gan HK, Pond G, Chen EX. Tính nhất quán trong phân tích và báo cáo về các tiêu chí chính trong các thử nghiệm ngẫu nhiên có đối chứng về ung thư từ khi đăng ký đến khi xuất bản. một đánh giá có hệ thống. J Clin Oncol. 2012; 30 . 210–216. doi. 10. 1200/JCO. 2011. 37. 0890. [PubMed] [CrossRef] [Google Scholar] 102. Button K, Ioannidis JPA, Mokrysz C, Nosek BA, Flint J, Robinson ESJ, Munafò MR. Mất điện. tại sao kích thước mẫu nhỏ làm suy yếu độ tin cậy của khoa học thần kinh. Nat Rev Thần kinh học. 2013; 14 . 365–376. doi. 10. 1038/nrn3475. [PubMed] [CrossRef] [Google Scholar] 103. Eyding D, Lelgemann M, Grouven U, Härter M, Kromp M, Kaiser T, Kerekes MF, Gerken M, Wieseler B. Reboxetine để điều trị trầm cảm cấp tính. tổng quan hệ thống và phân tích tổng hợp các thử nghiệm đối chứng với thuốc ức chế tái hấp thu serotonin có chọn lọc và giả dược đã công bố và chưa công bố. BMJ. 2010; 341 . c4737. doi. 10. 1136/bmj. c4737. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 104. Đất CE. Ước tính nguy cơ ung thư từ bức xạ ion hóa liều thấp. Khoa học. 1980; 209 . 1197–1203. doi. 10. 1126/khoa học. 7403879. [PubMed] [CrossRef] [Google Scholar] 105. Đất CE. Giới hạn thống kê liên quan đến kích thước mẫu. Góc độ sức khỏe môi trường. 1981; 42 . 15–21. doi. 10. 1289/ehp. 814215. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 106. Greenland S. Đối phó với sự không chắc chắn về sự thiên vị của điều tra viên. tiết lộ là thông tin. J Epidemiol Community Health. 2009; 63 . 593–598. doi. 10. 1136/jech. 2008. 084913. [PubMed] [CrossRef] [Google Scholar] 107. Xu L, Freeman G, Cowling BJ, Schooling CM. Liệu pháp testosterone và các biến cố tim mạch ở nam giới. tổng quan hệ thống và phân tích tổng hợp các thử nghiệm ngẫu nhiên có đối chứng với giả dược. BMC Med. 2013; 11 . 108. doi. 10. 1186/1741-7015-11-108. [Bài viết miễn phí của PMC] [PubMed] [CrossRef] [Google Scholar] 108. Neyman J, Pearson ES. Về việc sử dụng và giải thích các tiêu chí kiểm tra nhất định cho mục đích suy luận thống kê. phần tôi. Triệu chứng sinh trắc học. 1928; 20A . 175–240. [Google Scholar] 109. Pearson ES. Khái niệm thống kê trong mối quan hệ với thực tế. J R Stat Sóc B. 1955; 17 . 204–207. [Google Scholar] 110. Fisher RA. Phương pháp thống kê và suy luận khoa học. Edinburgh. Oliver và Boyd; . [Google Scholar] 111. Đồi AB. Môi trường và bệnh tật. hiệp hội hay nguyên nhân? . Proc R Soc Med. 1965; 58 . 295–300. [Bài báo miễn phí của PMC] [PubMed] [Google Scholar] 112. Casella G, Berger RL. Đối chiếu bằng chứng Bayesian và thường xuyên trong vấn đề thử nghiệm một phía. J Am Stat PGS. 1987; 82 . 106–111. doi. 10. 1080/01621459. 1987. 10478396. [CrossRef] [Google Scholar] 113. Casella G, Berger RL. Bình luận. Khoa học thống kê. 1987; 2 . 344–417. doi. 10. 1214/ss/1177013243. [CrossRef] [Google Scholar] 114. Yates F. Ảnh hưởng của phương pháp thống kê đối với người làm công tác nghiên cứu đối với sự phát triển của khoa học thống kê. J Am Stat PGS. 1951; 46 . 19–34. [Google Scholar] 115. Cumming GA. Hiểu số liệu thống kê mới. kích thước hiệu ứng, khoảng tin cậy và phân tích tổng hợp. Luân Đôn. Routledge; . [Google Scholar] 116. Morey RD, Hoekstra R, Rouder JN, Lee MD, Wagenmakers E-J. Sai lầm của việc đặt niềm tin vào khoảng tin cậy. Psychon Bull Rev (trên báo chí). [Bài báo miễn phí của PMC] [PubMed] 117. Rosenthal R, Rubin DB. Giá trị ngược chiều của kích thước hiệu ứng. một thống kê mới. Khoa học tâm lý. 1994; 5 . 329–334. doi. 10. 1111/j. 1467-9280. 1994. tb00281. x. [CrossRef] [Google Scholar] 118. Mayo DG, Spanos A. Thử nghiệm nghiêm ngặt như một khái niệm cơ bản trong triết lý quy nạp Neyman–Pearson. Br J Philos Sci. 2006; 57 . 323–357. doi. 10. 1093/bjps/axl003. [CrossRef] [Google Scholar] 119. Mụn đầu trắng A. Phân tích tổng hợp các thử nghiệm lâm sàng có đối chứng. New York. Wiley; . [Google Scholar] 120. Borenstein M, Hedges LV, Higgins JPT, Rothstein HR. Giới thiệu về phân tích tổng hợp. New York. Wiley; . [Google Scholar] 121. Chen D-G, Peace KE. Phân tích tổng hợp được áp dụng với R. New York. Chapman & Hall/CRC; . [Google Scholar] 122. Cooper H, Hedges LV, Valentine JC. Cẩm nang tổng hợp nghiên cứu và phân tích tổng hợp. Nghìn Sồi. Hiền nhân; . [Google Scholar] 123. Greenland S, O’Rourke K. Phân tích tổng hợp Ch. 33. Trong. Rothman KJ, Greenland S, Lash TL, biên tập viên. Dịch tễ học hiện đại. 3. Philadelphia. Lippincott-Wolters-Kluwer; . trang. 682–685. [Google Scholar] 124. Petitti DB. Phân tích tổng hợp, phân tích quyết định và phân tích hiệu quả chi phí. phương pháp tổng hợp định lượng trong y học.
|