Hướng dẫn dùng median data python
|
Vietnamese (Tiếng Việt) translation by Dai Phong (you can also view the original English article) Phân tích số liệu thống kê giúp chúng ta hiểu được toàn bộ thông tin. Điều này ứng dụng trong rất nhiều lĩnh vực như thống kê sinh vật học và phân tích kinh doanh. Thay vì duyệt qua các data point riêng lẻ, thì chỉ cần nhìn vào giá trị trung bình hoặc phương sai của bộ dữ liệu là có thể biết được xu hướng và các đặc trưng mà chúng ta có thể đã bỏ qua khi quan sát tất cả các dữ liệu ở định dạng thô. Nó cũng làm cho việc so sánh giữa hai bộ dữ liệu lớn trở nên dễ dàng và có ý nghĩa hơn. Nhận ra những nhu cầu này, Python đã cung cấp cho chúng ta module statistics. Trong hướng dẫn này, bạn sẽ học về các cách khác nhau để tính trung bình và đo lường độ chênh (spread) của một tập hợp dữ liệu nhất định. Trừ khi có những quy ước khác, tất cả các hàm trong mô-đun này hỗ trợ các tập dữ liệu đầu vào cơ bản Tính Trung bìnhBạn có thể sử dụng hàm import statistics
from fractions import Fraction as F
from decimal import Decimal as D
statistics.mean([11, 2, 13, 14, 44])
# returns 16.8
statistics.mean([F(8, 10), F(11, 20), F(2, 5), F(28, 5)])
# returns Fraction(147, 80)
statistics.mean([D("1.5"), D("5.75"), D("10.625"), D("2.375")])
# returns Decimal('5.0625')
Bạn đã học được rất nhiều hàm để tạo ra các số ngẫu nhiên trong hướng dẫn trước của chúng tôi. Hãy sử dụng chúng ngay bây giờ để tạo ra dữ liệu của chúng ta và xem liệu trung bình cuối cùng có bằng với những gì chúng ta mong đợi hay không. import random import statistics data_points = [ random.randint(1, 100) for x in range(1,1001) ] statistics.mean(data_points) # returns 50.618 data_points = [ random.triangular(1, 100, 80) for x in range(1,1001) ] statistics.mean(data_points) # returns 59.93292281437689 Với hàm Tính ModeMean là một chỉ số xác định giá trị trung bình rất tốt, nhưng một vài giá trị phân cực có thể dẫn đến một trung bình xa điểm giữa thật sự. Trong một số trường hợp, cần xác định data-point thường xuyên nhất trong một tập dữ liệu. Hàm import random import statistics data_points = [ random.randint(1, 100) for x in range(1,1001) ] statistics.mode(data_points) # returns 94 data_points = [ random.randint(1, 100) for x in range(1,1001) ] statistics.mode(data_points) # returns 49 data_points = [ random.randint(1, 100) for x in range(1,1001) ] statistics.mode(data_points) # returns 32 mode(["cat", "dog", "dog", "cat", "monkey", "monkey", "dog"]) # returns 'dog' Mode của các số nguyên được tạo ngẫu nhiên trong một phạm vi nhất định có thể là bất kỳ số nào vì tần suất xuất hiện của mỗi số không dự đoán được. Ba ví dụ trong đoạn code ở trên chứng minh điểm đó. Ví dụ cuối cùng trình bày cho chúng ta thấy cách chúng ta có thể tính được mode của dữ liệu không phải là số. Tính Trung vịDựa vào mode để tính toán một giá trị trung điểm có thể gây chút hiểu nhầm. Như chúng ta đã thấy trong phần trước, nó sẽ luôn là data point phổ biến nhất, bất kể tất cả các giá trị khác trong bộ dữ liệu. Một cách khác để xác định trung vị là sử dụng hàm Vấn đề với hàm import random import statistics data_points = [ random.randint(1, 100) for x in range(1,50) ] statistics.median(data_points) # returns 53 data_points = [ random.randint(1, 100) for x in range(1,51) ] statistics.median(data_points) # returns 51.0 data_points = [ random.randint(1, 100) for x in range(1,51) ] statistics.median(data_points) # returns 49.0 data_points = [ random.randint(1, 100) for x in range(1,51) ] statistics.median_low(data_points) # returns 50 statistics.median_high(data_points) # returns 52 statistics.median(data_points) # returns 51.0 Trong trường hợp cuối cùng, trung vị thấp và cao là 50 và 52. Điều này có nghĩa là không có data point có giá trị 51 trong tập dữ liệu của chúng ta, nhưng hàm Đo Độ lệch của Dữ liệuXác định có bao nhiêu data point lệch khỏi giá trị điển hình hoặc trung bình của bộ dữ liệu cũng quan trọng không kém tính giá trị trung tâm hoặc trung bình. Mô-đun statistics có bốn hàm khác nhau để giúp chúng ta tính toán độ lệch này của dữ liệu. Bạn có thể sử dụng hàm Đối số thứ hai trong trường hợp này là không bắt buộc. Giá trị của mu, khi được cung cấp, phải bằng với trung bình của dữ liệu nhất định. Trung bình được tính tự động nếu giá trị bị thiếu. Hàm này rất hữu ích khi bạn muốn tính phương sai của toàn bộ tập hợp. Nếu dữ liệu của bạn chỉ là một mẫu của tập hợp, bạn có thể sử dụng hàm Để tính toán độ rõ tiêu chuẩn của tập hợp và độ lệch tiêu chuẩn của mẫu dữ liệu, bạn có thể sử dụng các hàm import statistics from fractions import Fraction as F data = [1, 2, 3, 4, 5, 6, 7, 8, 9] statistics.pvariance(data) # returns 6.666666666666667 statistics.pstdev(data) # returns 2.581988897471611 statistics.variance(data) # returns 7.5 statistics.stdev(data) # returns 2.7386127875258306 more_data = [3, 4, 5, 5, 5, 5, 5, 6, 6] statistics.pvariance(more_data) # returns 0.7654320987654322 statistics.pstdev(more_data) # returns 0.8748897637790901 some_fractions = [F(5, 6), F(2, 3), F(11, 12)] statistics.variance(some_fractions) # returns Fraction(7, 432) Như minh chứng từ ví dụ trên, phương sai nhỏ hơn hàm ý rằng nhiều data point có giá trị gần hơn với giá trị trung bình. Bạn cũng có thể tính độ lệch chuẩn của các số thập phân và phân số. Phần Tóm tắtTrong hướng dẫn cuối cùng của loạt bài này, chúng ta đã tìm hiểu về các hàm khác nhau có sẵn trong mô-đun statistics. Bạn có thể đã quan sát thấy rằng dữ liệu đưa ra cho các hàm đã được sắp xếp trong hầu hết các trường hợp, nhưng không bắt buộc phải làm như vậy. Tôi đã sử dụng các danh sách được sắp xếp trong hướng dẫn này vì chúng giúp dễ dàng hơn để hiểu cách giá trị trả về bởi các hàm khác nhau có liên quan đến dữ liệu đầu vào. |
Bài Viết Liên Quan
Hướng dẫn how do i get the full path of an uploaded file in python? - làm cách nào để lấy đường dẫn đầy đủ của tệp đã tải lên trong python?
Tôi đang nhận được một tệp đăng từ một tệp:file = request.post[ufile] Tôi muốn có được con đường. Làm thế nào tôi có thể nhận được nó? HALFER19.7K17 ...
Những nhóm nhạc sẽ giải tán trong năm 2023
Mới đây, cộng đồng fan của BLACKPINK đã truyền tay đoạn clip do một tài khoản là fan của cô nàng Rosé đăng tải. Theo đó, clip được chia sẻ với dòng trạng ...
Hướng dẫn how do i install python 2.7 3 on ubuntu? - làm cách nào để cài đặt python 2.7 3 trên ubuntu?
Tiếp tục ghi lại điều này cho Ubuntu Release1: cho máy chủ Ubuntu 16.04.1, Python mặc định là phiên bản 3.5 và Python 2.7 không được cài đặt theo mặc định. Khi ...
Hướng dẫn can you call a function in a variable javascript? - bạn có thể gọi một hàm trong một biến javascript không?
Chắc chắn tránh sử dụng eval để làm một cái gì đó như thế này, hoặc bạn sẽ mở ra các lỗ hổng XSS (kịch bản chéo trang).Ví dụ: nếu bạn sử dụng các ...
Hướng dẫn how do you remove punctuation in excel? - làm thế nào để bạn loại bỏ dấu chấm câu trong excel?
Lời khuyên ExcelChức năng ExcelCông thức ExcelBiểu đồ ExcelLời khuyên từLời khuyên OutlookVí dụ, có nhiều dấu chấm câu tồn tại trong các ô, chẳng hạn như ...
Hướng dẫn javascript compare two arrays of objects and remove duplicates - javascript so sánh hai mảng đối tượng và loại bỏ các bản sao
Tất cả những gì tôi cần làm là so sánh hai mảng các đối tượng và xóa các mục trong cái thứ hai có cùng giá trị thuộc tính. Ví dụ:var a = [{name:bob, ...
Kết quả bốc thăm chia bảng Asian Cup 2023
Bách khoa toàn thư mở Wikipedia Cúp bóng đá châu Á 20232023 AFC Asian Cup - Qatar(tiếng Anh)كأس آسيا 2023 (tiếng Ả Rập)Chi tiết giải ...
Hướng dẫn how do you keep an element right in css? - làm thế nào để bạn giữ một phần tử ngay trong css?
Thuộc tính right CSS tham gia chỉ định vị trí ngang của một phần tử được định vị. Nó không có tác dụng đối với các yếu tố không có vị trí.right CSS ...
Hướng dẫn is it ok to use php 8? - là nó ok để sử dụng php 8?
Sáng nay, tôi đã đọc một bình luận của một trong những thành viên cộng đồng trực tuyến của chúng tôi thảo luận về một số lý do đằng sau việc áp ...
Hướng dẫn php array destructuring - cấu trúc mảng php
# Danh sách hoặc []Trong PHP, $array = [ 1 => a, 2 => b, 3 => c, ];3 hoặc $array = [ 1 => a, 2 => b, 3 => c, ];4 là một cấu trúc ...
Taắt swap và tạo lại swap trong linux 16.04
Trong bài hướng dẫn này mình sẽ chỉ các bạn cách tạo và kích hoạt Swap trên Linux.I. Swap là gì?Swap hay còn được gọi là RAM ảo, được sử dụng để ...
Hướng dẫn python programming style - phong cách lập trình python
Tác giả: Guido Van Rossum, Barry Warsaw, Nick Coghlan Tình trạng: Activetype: ProcessCreated: 05-Jul-2001post-History: 05-Jul-2001, 01-Aug-2013:Guido van Rossum , Barry Warsaw , Nick Coghlan ...
Để sử dụng được makefile trong linux
Si muốn chạy hoặc cập nhật một tác vụ khi các tệp nhất định được cập nhật, tiện ích làm cho có thể có ích. Tiện ích make yêu cầu một tệp, makefile, ...
Vẽ đồ thị y=ax+b trong excel 2010
Vẽ đồ thị và khớp hàm đơn giản bằng Microsoft ExcelThread này nhằm giúp những thao tác đơn giản để vẽ đồ thị và có những xử lý số liệu đơn giản, ...
Hướng dẫn create circular mask python - tạo mặt nạ tròn python
Thuật toán bạn trực tuyến là một phần sai, ít nhất là cho mục đích của bạn. Nếu chúng ta có hình ảnh sau, chúng ta muốn nó che dấu như vậy: Cách dễ nhất ...
Hướng dẫn global scope and local scope in javascript - phạm vi toàn cầu và phạm vi cục bộ trong javascript
Phạm vi xác định khả năng truy cập (khả năng hiển thị) của các biến.JavaScript có 3 loại phạm vi:Phạm vi khốiPhạm vi chức năngPhạm vi toàn cầuPhạm vi ...
Hướng dẫn how do you count the number of digits in a string in python? - làm thế nào để bạn đếm số chữ số trong một chuỗi trong python?
Bỏ qua bất cứ điều gì khác có thể đúng hoặc không đúng với mã sửa đổi của bạn, vấn đề gây ra lỗi hiện được trích dẫn trong câu hỏi của bạn ...
2022-2023 academic planner
High Quality PaperWe use high quality grades of paper to provide you with a premium writing experience. You can rely on our paper to keep your notes clear and legible without the distraction of ink ...
Bản đồ quy hoạch tp tuy hòa đến năm 2023
Phú Yên quy hoạch TP Tuy Hòa là đô thị hạt nhân của tỉnh. Tỉnh Phú Yên quy hoạch TP Tuy Hòa là đô thị hạt nhân, trung tâm động lực của tỉnh với tổng ...
Hướng dẫn n-ary tree implementation in c++ - triển khai cây n-ary trong c ++
Chỉ phân bổ bộ nhớ cho thành viên child trước khi sử dụng nó:current_node->child = malloc(3 * sizeof(node *)); for (i=0; i<3; i++) { current_node->child[i] = ...
