Thống kê mô tả trong python
Trở về Mục lục cuốn sách Show Trị trung bình và kỳ vọngỞ chương trước, tôi đã đề cập đến ba đặc trưng thống kê—trị trung bình, phương sai và trung vị—mà không giải thích ý nghĩa của chúng. Vì vậy, trước khi đi tiếp, ta sẽ làm rõ điều này. Nếu bạn có một mẫu gồm
n giá trị, xi, thì giá trị trung bình, μ, là tổng của các giá trị trên chia cho số các giá trị; nói cách khác
Đôi khi trị trung bình là một cách mô tả tốt một tập hợp các giá trị. Chẳng hạn, các quả táo nói chung đều có kích thước gần bằng nhau (ít ra là táo bày bán ở siêu thị). Vì vậy nếu tôi mua 6 quả táo và khối lượng tổng cộng là 3 pound thì cũng có lý khi nói rằng mỗi quả táo nặng cỡ nửa pound. Nhưng bí đỏ thì đa dạng hơn. Chẳng hạn ở vườn nhà, tôi trồng bí và một ngày kia thua hoạch được 3 quả bí để bày, mỗi quả nặng 1 pound và hai quả bí pie, mỗi quả nặng 3 pound, và một quả bí Atlantic Giant nặng đến 591 pound. Trị trung bình của mẫu này là 100 pound, nhưng nếu tôi nói “Quả bí trung bình ở vườn nhà tôi nặng 100 pound,” thì sẽ là sai, hoặc chí ít sẽ gây ngộ nhận. Trong trường hợp này, không có trung bình nào có ý nghĩa vì không có quả bí điển hình nào có khối lượng như vậy. Phương saiNếu không có một con số nào đặc trưng được cho khối lượng quả bí thì tốt hơn là chúng ta dùng hai con số: trị trung bình và phương sai. Cũng như việc trị trung bình được dùng vào mục đích mô tả khuynh hướng trung tâm, phương sai được dùng để mô tả độ phân tán. Phương sai của một tập hợp giá trị thì bằng
Nếu có kinh nghiệm, bạn có thể đã thấy một công thức tính phương sai với n - 1 ở mẫu số, thay vì n. Đặc trưng thống kê này có tên là “phương sai mẫu,” và nó được dùng để ước tính phương sai trong một tổng thể bằng cách dùng một mẫu. Ta sẽ quay trở lại vấn đề này trong Chương 8. Phân bốCác đặc trưng thống kê tuy gọn nhưng nguy hiểm ở chỗ chúng che khuất đi số liệu. Một cách làm khác là nhìn vào phân bố của số liệu, vốn miêu tả mỗi giá trị xuất hiện bao nhiêu lần. Cách biểu thị chung nhất cho một phân bố là biểu đồ tần số, vốn là một đồ thị cho thấy các tần số hay tần suất của mỗi giá trị. Ở đây, tần số nghĩa là số lần xuất hiện của một giá trị trong tập dữ liệu—nó không có gì liên quan đến độ
cao thấp của âm thanh hay việc chỉnh núm vặn của ra-đi-ô. Một tần suất là một tần số được biểu diễn dưới dạng tỷ lệ so với kích thước mẫu, n. Trong Python, một cách hiệu quả để biểu diễn các tần số là dùng từ điển. Với một dãy giá trị đã cho,
Kết quả là một từ điển cho tương ứng (ánh xạ) mỗi giá trị với một tần số. Để chuyển từ tần số sang tần suất, ta đem chia cho n; cách này được gọi là chuẩn hóa:
Biểu đồ tần suất (sau khi chuẩn hóa) được gọi là PMF, viết tắt cho “probability mass function” (hàm khối xác suất); tức là một hàm ánh xạ từ giá trị đến tần suất (còn ý nghĩa của “mass” [khối lượng] sẽ được giải thích ở Mục {mật độ xác suất}). Có thể sẽ dễ lẫn khi gọi một từ điển của Python là một hàm. Trong toán học, một hàm là phép ánh xạ từ một tập giá trị tới một tập giá trị khác. Trong Python, ta thường biểu diễn hàm toán học với các đối tượng hàm, nhưng trong trường hợp này ta dùng một từ điển (từ điển đôi khi cũng được gọi là “ánh xạ,” bạn có thể gặp tên gọi này ở đâu đó). Thể hiện biểu đồ tần sốTôi đã viết một module Python có tên Hàm
Các đối tượng Hist cung cấp những phương thức để tra tìm giá trị cùng với tần suất tương ứng.
Nếu bạn tra tìm một giá trị mà thực tế không xảy ra, tần số sẽ bằng 0.
Để lặp qua các giá trị theo thứ tự, bạn có thể dùng hàm lập sẵn
Nếu bạn dự định tra tìm tất cả các tần số, cách tốt hơn là dùng
Vẽ đồ thị tần sốCó một số gói Python đảm nhiệm việc vẽ hình và biểu đồ. Tôi sẽ trình bày gói Gói này được kèm trong nhiều bản cài đặt Python. Để xem liệu máy của bạn đã có nó chưa, hãy bật trình thông dịch Python và chạy đoạn chương trình:
Nếu đã có
Tôi đã viết một module có tên
Biểu đồ tần số rất có ích vì nó khiến cho những đặc điểm sau được rõ ràng ngay: Số đông:Giá trị thường gặp nhất trong một phân bố được gọi là số đông. Trên Hình {nsfg_hist} rõ ràng có một số đông là 39 tuần. Ở trường hợp này, số đông là đặc trưng thống kê vì nó mô tả được rõ nhất giá trị điển hình.Hình dạng:Xung quanh số đông, phân bố này có tính bất đối xứng; nó nhanh chóng giảm sút về phía tay phải nhưng chỉ giảm từ từ về phía tay trái. Theo quan điểm y học, điều này có nghĩa. Trẻ sơ sinh thường được ra đời sớm, nhưng hiếm khi muộn hơn 42 tuần. Ngoài ra, phần bên phải của phân bố này bị chặn lại bởi bác sĩ thường can thiệp với những ca thai nghén quá 42 tuần.Điểm biệt lập:Giá trị nằm cách xa số đông được gọi là điểm biệt lập. Có điểm biệt lập do trường hợp hy hữu, như trẻ sinh ra vào tuần thứ 30. Nhưng đa số điểm biệt lập có thể do lỗi, trong quá trình báo cáo số liệu hoặc ghi chép số liệu.Mặc dù biểu đồ tần số đã làm rõ một số đặc điểm, nhưng chúng thường không giúp ích cho việc so sánh hai dạng phân bố. Trong ví dụ này, số trẻ đầu lòng thì ít hơn số trẻ sinh sau, nên một phần biểu hiện khác nhau là do hai mẫu có kích thước khác nhau. Ta có thể giải quyết vấn đề này bằng cách dùng PMF. Biểu diễn PMF
Để tạo ra một đối tượng Pmf, hãy dùng
Các đối tượng Pmf và Hist giống nhau về nhiều mặt. Các phương thức Để tra tìm tần suất ứng với một giá trị, hãy dùng
Bạn có thể sửa lại một Pmf đã có bằng cách tăng tần suất ứng với một giá trị:
Hoặc bạn có thể nhân xác suất với một hệ số:
Nếu sửa đổi một Pmf, kết quả có thể sẽ không được chuẩn hóa; nghĩa là các tần suất cộng lại sẽ không bằng 1 nữa. Để kiểm tra, bạn có thể gọi
Để chuẩn hóa lại, hãy gọi
Đối tượng Pmf có
một phương thức
Vẽ đồ thị các PMFCó hai cách thường dùng để vẽ các Pmf:
Hình trên cho thấy PMF của các quãng thời gian mang thai được biểu diễn dưới dạng biểu đồ cột. Bằng cách dùng PMF, ta có thể thấy rõ hơn được sự khác biệt giữa hai phân bố. Trẻ đầu lòng thường có vẻ ít chào đời đúng tuần 39, mà thường có thiên hướng muộn (các tuần 41 và 42). Mã lệnh để tạo ra các hình vẽ trong chương này có sẵn ở Điểm biệt lậpĐiểm biệt lập là giá trị nằm cách xa xu hướng trung tâm. Điểm biệt lập có thể gây bởi các lỗi trong quá trình thu thập và xử lý số liệu, hoặc có thể đo đúng nhưng gặp hiện tượng bất thường. Bạn nên luôn kiểm tra các điểm biệt lập, và đôi khi việc loại bỏ nó là cần thiết và xác đáng. Trong danh sách các khoảng thời gian mang thai các ca đẻ thành công, 10 giá trị thấp nhất là {0, 4, 9, 13, 17, 17, 18, 19, 20, 21}. Các giá trị thấp hơn 20 tuần rõ ràng là có lỗi, và các giá trị cao hơn 30 tuần có lẽ là hợp lệ. Nhưng các giá trị nằm giữa 20 và 30 thì khó phân giải. Ở đầu kia, các giá trị cao nhất là:
Một lần nữa, có một số giá trị gần như chắc chắn là có lỗi, nhưng ta rất khó biết được toàn bộ. Một cách lựa chọn là tỉa bớt dữ liệu bằng cách bỏ đi một phần gồm các giá trị cao nhất và thấp nhất (xem Những cách hiển thị khácBiểu đồ tần số và PMF rất có ích cho việc phân tích khám phá số liệu; một khi bạn đã có ý tưởng về hiện tượng xảy ra thì thường sẽ cần sắp đặt để hiển thị số liệu nhằm tập trung vào hiệu ứng biểu kiến. Trong bộ số liệu NSFG, khác biệt lớn nhất giữa hai phân bố xảy ra ở gần số đông. Vì vậy sẽ có ý nghĩa khi ta phóng to phần đó của đồ ghị, và thực hiện chuyển đổi số liệu để làm nổi bật sự khác biệt. Hình {nsfg_diffs} cho thấy sự khác biệt giữa hai đường PMF trong tuần từ 35–45. Tôi đã nhân lên 100 lần để biểu thị độ chênh lệch tính theo phần trăm.
Hình vẽ này làm cho kiểu mẫu càng rõ hơn: trẻ đầu lòng thường ít chào đời vào tuần 39, và dễ chào đời vào các tuần 41 và 42 so với trẻ sinh sau. Rủi ro tương đốiChúng ta đã bắt đầu với câu hỏi, “Liệu trẻ đầu lòng có chào đời muộn không?” Chuẩn xác hơn, ta hãy nói rằng đứa trẻ được gọi là chào đời sớm nếu nó được sinh ra từ tuần 37 hoặc sớm hơn, ra đời đúng hạn nếu sinh vào các tuần 38, 39, hoặc 40; và ra đời muộn nếu sinh vào tuần 41 hoặc muộn hơn. Các khoảng như vậy, được dùng để nhóm dữ liệu, có tên gọi là ngăn.
Xác suất có điều kiệnHãy tưởng tượng rằng một người mà bạn biết đang mang bầu, bước vào tuần 39. Khả năng đứa trẻ sẽ được sinh ra vào tuần tới là bao nhiêu? Đáp số sẽ thay đổi thế nào nếu đó là trẻ đầu lòng? Chúng ta có thể trả lời các câu hỏi trên bằng cách tính xác suất có điều kiện, vốn (a hèm!) là một xác suất phụ thuộc vào điều kiện nào đó. Trong trường hợp này, điều kiện là ta đã biết rằng đứa trẻ không sinh ra vào các tuần 0–38. Sau đây là một cách tính:
Thuật toán này về khái niệm thì rất rõ ràng, nhưng không hiệu quả lắm. Một cách làm khác đơn giản hơn là xóa bỏ các giá trị nhỏ hơn 39 trong phân bố rồi chuẩn hóa lại.
Báo cáo kết quảĐến lúc này ta đã khảo sát xong số liệu và thấy được một số hiệu ứng biểu kiến. Hiện giờ, hãy tạm giả thiết rằng những hiệu ứng này là thật (nhớ rằng đây mới chỉ là giả thiết). Làm thế nào để ta báo cáo những kết quả này? Câu trả lời có thể tùy thuộc vào người hỏi. Chẳng hạn, một nhà khoa học có thể quan tâm đến bất kì một hiệu ứng (thật) nào, bất kể nó nhỏ đến bao nhiêu. Một bác sĩ có thể chỉ quan tâm đến các hiệu ứng có ý nghĩa về y học; tức là những khác biệt có ảnh hưởng đến quyết định điều trị. Một phụ nữ mang thai có thể quan tâm đến những kết quả có liên quan tới cô ấy, như các xác suất có điều kiện trong mục trước. Cách mà bạn báo cáo kết quả cũng phụ thuộc vào mục tiêu của bạn. Nếu phải biểu diễn ý nghĩa của một hiệu ứng, bạn có thể chọn đặc trưng thống kê, như rủi ro tương đối, để nhấn mạnh sự khác biệt. Nếu bạn cần trấn an bệnh nhân, bạn có thể chọn số thống kê có tính đến sự khác biệt.
Thuật ngữxu thế trung tâm:Đặc tính của một mẫu hoặc tổng thể; theo trực giác, đó là giá trị trung bình nhất.phân tán:Đặc tính của một mẫu hoặc tổng thể; theo trực giác, nó mô tả độ biến động là bao nhiêu.phương sai:Đặc trưng thống kê thường được dùng để lượng hóa mức phân tán.độ lệch chuẩn:Căn bậc hai của phương sai, cũng được dùng để đo mức phân tán.tần số:Số lần mà một giá trị xuất hiện trong mẫu.biểu đồ tần số:Một ánh xạ từ giá trị đến tần số, hoặc một biểu đồ thể hiện ánh xạ này.tần suất:Tần số được biểu thị dưới dạng tỉ lệ của kích thước mẫu.chuẩn hóa:Việc chia tần số cho kích thước mẫu để thu được tần suất.phân bố:Dạng tóm tắt các giá trị xuất hiện trong một mẫu cùng với tần số, hay tần suất, của mỗi giá trị.PMF:Hàm khối xác suất (probability mass function): cách biểu diễn một phân bố dưới dạng hàm ánh xạ từ giá trị đến tần suất.số đông:Giá trị hay gặp nhất trong mẫu.điểm biệt lập:Giá trị nằm cách xa xu thế trung tâm.tỉa bớt:Xóa bỏ những điểm biệt lập khỏi tập số liệu.ngăn:Một khoảng dùng để nhóm các giá trị gần bằng nhau.rủi ro tương đối:Tỉ số giữa hai tần suất, thường được dùng để đo độ khác biệt giữa hai phân bố. xác suất có điều kiện:Xác suất được tính theo giả thiết rằng một điều kiện nào đó phải được đảm bảo.có ý nghĩa về y học:Kết quả, chẳng hạn một khác biệt giữa hai nhóm, có liên quan trong thực tế ngành y. |