Hướng dẫn statistical data analysis to be performed using python - phân tích dữ liệu thống kê được thực hiện bằng python

Trong kỷ nguyên của dữ liệu lớn và trí tuệ nhân tạo, khoa học dữ liệu và học máy đã trở nên cần thiết trong nhiều lĩnh vực khoa học và công nghệ. Một khía cạnh cần thiết của việc làm việc với dữ liệu là khả năng mô tả, tóm tắt và biểu thị dữ liệu trực quan. Các thư viện thống kê Python là các công cụ toàn diện, phổ biến và được sử dụng rộng rãi sẽ hỗ trợ bạn làm việc với dữ liệu.Python statistics libraries are comprehensive, popular, and widely used tools that will assist you in working with data.

Trong hướng dẫn này, bạn sẽ học:

  • Số lượng số nào bạn có thể sử dụng để mô tả và tóm tắt bộ dữ liệu của bạnnumerical quantities you can use to describe and summarize your datasets
  • Cách tính toán số liệu thống kê mô tả trong Python thuần túycalculate descriptive statistics in pure Python
  • Cách nhận số liệu thống kê mô tả với các thư viện Python có sẵndescriptive statistics with available Python libraries
  • Cách trực quan hóa bộ dữ liệu của bạnvisualize your datasets

Hiểu số liệu thống kê mô tả

Thống kê mô tả là về mô tả và tóm tắt dữ liệu. Nó sử dụng hai cách tiếp cận chính: is about describing and summarizing data. It uses two main approaches:

  1. Phương pháp định lượng mô tả và tóm tắt dữ liệu bằng số. describes and summarizes data numerically.
  2. Cách tiếp cận trực quan minh họa dữ liệu với biểu đồ, sơ đồ, biểu đồ và các biểu đồ khác. illustrates data with charts, plots, histograms, and other graphs.

Bạn có thể áp dụng số liệu thống kê mô tả cho một hoặc nhiều bộ dữ liệu hoặc biến. Khi bạn mô tả và tóm tắt một biến duy nhất, bạn đã thực hiện phân tích đơn biến. Khi bạn tìm kiếm mối quan hệ thống kê giữa một cặp biến, bạn đã thực hiện phân tích bivariate. Tương tự, một phân tích đa biến liên quan đến nhiều biến cùng một lúc.univariate analysis. When you search for statistical relationships among a pair of variables, you’re doing a bivariate analysis. Similarly, a multivariate analysis is concerned with multiple variables at once.

Các loại biện pháp

Trong hướng dẫn này, bạn sẽ tìm hiểu về các loại biện pháp sau trong thống kê mô tả:

  • Xu hướng trung tâm cho bạn biết về các trung tâm của dữ liệu. Các biện pháp hữu ích bao gồm trung bình, trung bình và chế độ. tells you about the centers of the data. Useful measures include the mean, median, and mode.
  • Sự thay đổi cho bạn biết về sự lây lan của dữ liệu. Các biện pháp hữu ích bao gồm phương sai và độ lệch chuẩn. tells you about the spread of the data. Useful measures include variance and standard deviation.
  • Tương quan hoặc biến đổi chung cho bạn biết về mối quan hệ giữa một cặp biến trong bộ dữ liệu. Các biện pháp hữu ích bao gồm hiệp phương sai và hệ số tương quan. tells you about the relation between a pair of variables in a dataset. Useful measures include covariance and the correlation coefficient.

Bạn sẽ học cách hiểu và tính toán các biện pháp này với Python.

Dân số và mẫu

Trong số liệu thống kê, dân số là một tập hợp tất cả các yếu tố hoặc vật phẩm mà bạn quan tâm. Dân số thường rất lớn, điều này khiến chúng không phù hợp để thu thập và phân tích dữ liệu. Đó là lý do tại sao các nhà thống kê thường cố gắng đưa ra một số kết luận về dân số bằng cách chọn và kiểm tra một tập hợp con đại diện của dân số đó.population is a set of all elements or items that you’re interested in. Populations are often vast, which makes them inappropriate for collecting and analyzing data. That’s why statisticians usually try to make some conclusions about a population by choosing and examining a representative subset of that population.

Tập hợp con của một dân số được gọi là một mẫu. Lý tưởng nhất, mẫu nên bảo tồn các đặc điểm thống kê thiết yếu của dân số đến một mức độ thỏa đáng. Bằng cách đó, bạn sẽ có thể sử dụng mẫu để kết luận về dân số.sample. Ideally, the sample should preserve the essential statistical features of the population to a satisfactory extent. That way, you’ll be able to use the sample to glean conclusions about the population.

Outliers

Một ngoại lệ là một điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu được lấy từ một mẫu hoặc dân số. Có nhiều nguyên nhân có thể gây ra các ngoại lệ, nhưng đây là một số ít để bắt đầu bạn:outlier is a data point that differs significantly from the majority of the data taken from a sample or population. There are many possible causes of outliers, but here are a few to start you off:

  • Sự thay đổi tự nhiên trong dữ liệu in data
  • Thay đổi hành vi của hệ thống quan sát in the behavior of the observed system
  • Lỗi trong thu thập dữ liệu in data collection

Lỗi thu thập dữ liệu là một nguyên nhân đặc biệt nổi bật của các ngoại lệ. Ví dụ, các hạn chế của các dụng cụ hoặc thủ tục đo lường có thể có nghĩa là dữ liệu chính xác đơn giản là không thể đạt được. Các lỗi khác có thể được gây ra bởi tính toán sai lầm, ô nhiễm dữ liệu, lỗi của con người, v.v.

Có một định nghĩa toán học chính xác về các ngoại lệ. Bạn phải dựa vào kinh nghiệm, kiến ​​thức về chủ đề quan tâm và ý thức chung để xác định xem một điểm dữ liệu có phải là một ngoại lệ và cách xử lý nó.

Chọn thư viện thống kê Python

Có nhiều thư viện thống kê Python ngoài kia để bạn làm việc, nhưng trong hướng dẫn này, bạn sẽ tìm hiểu về một số trong những cuốn sách phổ biến và được sử dụng rộng rãi nhất:

  • Python sườn

    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    11 là một thư viện Python tích hợp cho các số liệu thống kê mô tả. Bạn có thể sử dụng nó nếu bộ dữ liệu của bạn không quá lớn hoặc nếu bạn có thể dựa vào việc nhập các thư viện khác. is a built-in Python library for descriptive statistics. You can use it if your datasets are not too large or if you can’t rely on importing other libraries.

  • Numpy là một thư viện của bên thứ ba để tính toán số, được tối ưu hóa để làm việc với các mảng đơn và đa chiều. Loại chính của nó là loại mảng được gọi là

    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    12. Thư viện này chứa nhiều thói quen để phân tích thống kê. is a third-party library for numerical computing, optimized for working with single- and multi-dimensional arrays. Its primary type is the array type called
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    12. This library contains many routines for statistical analysis.

  • Scipy là một thư viện của bên thứ ba để điện toán khoa học dựa trên Numpy. Nó cung cấp chức năng bổ sung so với Numpy, bao gồm

    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    13 để phân tích thống kê. is a third-party library for scientific computing based on NumPy. It offers additional functionality compared to NumPy, including
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    13 for statistical analysis.

  • Pandas là một thư viện của bên thứ ba cho điện toán số dựa trên Numpy. Nó vượt trội trong việc xử lý dữ liệu một chiều [1D] với các đối tượng

    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 và dữ liệu hai chiều [2D] với các đối tượng
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    15.
    is a third-party library for numerical computing based on NumPy. It excels in handling labeled one-dimensional [1D] data with
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 objects and two-dimensional [2D] data with
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    15 objects.

  • Matplotlib là một thư viện của bên thứ ba để trực quan hóa dữ liệu. Nó hoạt động tốt kết hợp với Numpy, Scipy và Pandas. is a third-party library for data visualization. It works well in combination with NumPy, SciPy, and Pandas.

Lưu ý rằng, trong nhiều trường hợp, các đối tượng

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 có thể được sử dụng thay cho các mảng numpy. Thông thường, bạn có thể chỉ cần chuyển chúng đến một chức năng thống kê numpy hoặc scipy. Ngoài ra, bạn có thể nhận dữ liệu không được gắn nhãn từ
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 hoặc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 dưới dạng đối tượng
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

20 bằng cách gọi
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

21 hoặc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

22.

Bắt đầu với các thư viện thống kê Python

Thư viện Python

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

11 tích hợp có một số lượng tương đối nhỏ các chức năng thống kê quan trọng nhất. Tài liệu chính thức là một nguồn tài nguyên quý giá để tìm các chi tiết. Nếu bạn giới hạn ở Python thuần túy, thì thư viện Python
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

11 có thể là lựa chọn đúng đắn.

Một nơi tốt để bắt đầu tìm hiểu về Numpy là hướng dẫn sử dụng chính thức, đặc biệt là các phần nhanh và cơ bản. Tài liệu tham khảo chính thức có thể giúp bạn làm mới bộ nhớ của bạn về các khái niệm Numpy cụ thể. Trong khi bạn đọc hướng dẫn này, bạn cũng có thể muốn xem phần Thống kê và tài liệu tham khảo chính thức

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

13.

Nếu bạn muốn học gấu trúc, thì trang bắt đầu chính thức là một nơi tuyệt vời để bắt đầu. Giới thiệu về cấu trúc dữ liệu có thể giúp bạn tìm hiểu về các loại dữ liệu cơ bản,

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15. Tương tự như vậy, hướng dẫn giới thiệu chính thức tuyệt vời nhằm cung cấp cho bạn đủ thông tin để bắt đầu sử dụng gấu trúc trong thực tế.

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

28 có hướng dẫn sử dụng chính thức toàn diện mà bạn có thể sử dụng để đi sâu vào các chi tiết sử dụng thư viện. Giải phẫu của Matplotlib là một nguồn tài nguyên tuyệt vời cho những người mới bắt đầu muốn bắt đầu làm việc với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

28 và các thư viện liên quan của nó.

Hãy bắt đầu sử dụng các thư viện thống kê Python này!

Tính toán thống kê mô tả

Bắt đầu bằng cách nhập tất cả các gói bạn cần:

>>>

>>> import math
>>> import statistics
>>> import numpy as np
>>> import scipy.stats
>>> import pandas as pd

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

Hãy để tạo ra một số dữ liệu để làm việc. Bạn sẽ bắt đầu với các danh sách Python có chứa một số dữ liệu số tùy ý:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.not-a-number value [
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35]
. In data science, missing values are common, and you’ll often replace them with
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35.

Hãy để tạo ra một số dữ liệu để làm việc. Bạn sẽ bắt đầu với các danh sách Python có chứa một số dữ liệu số tùy ý:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

Hãy để tạo ra một số dữ liệu để làm việc. Bạn sẽ bắt đầu với các danh sách Python có chứa một số dữ liệu số tùy ý:

Bây giờ bạn có danh sách
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

33. Chúng gần như giống nhau, với sự khác biệt mà
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

33 chứa giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Điều quan trọng là phải hiểu hành vi của các thói quen thống kê Python khi chúng bắt gặp một giá trị không phải là một số [
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35]. Trong khoa học dữ liệu, các giá trị bị thiếu là phổ biến và bạn sẽ thường thay thế chúng bằng
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35.

Bây giờ, hãy tạo các đối tượng

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

20 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

39 tương ứng với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

33:measures of central tendency show the central or middle values of datasets. There are several definitions of what’s considered to be the center of a dataset. In this tutorial, you’ll learn how to identify and calculate these measures of central tendency:

  • Bây giờ bạn có hai mảng numpy [
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    42 và
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    43] và hai gấu trúc
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 [
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    45 và
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    46]. Tất cả đều là chuỗi 1D của các giá trị.
  • Bạn có thể chỉ định một nhãn cho từng giá trị trong
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    45 và
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    46.
  • Biện pháp của xu hướng trung ương
  • Các biện pháp của xu hướng trung tâm cho thấy các giá trị trung tâm hoặc trung bình của các bộ dữ liệu. Có một số định nghĩa về những gì mà người coi là trung tâm của một bộ dữ liệu. Trong hướng dẫn này, bạn sẽ học cách xác định và tính toán các biện pháp này về xu hướng trung tâm:
  • Bần tiện
  • Có trọng số trung bình

Bây giờ bạn có hai mảng numpy [
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

43] và hai gấu trúc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 [
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

45 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

46]. Tất cả đều là chuỗi 1D của các giá trị.

Bạn có thể chỉ định một nhãn cho từng giá trị trong

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

45 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

46.sample mean, also called the sample arithmetic mean or simply the average, is the arithmetic average of all the items in a dataset. The mean of a dataset 𝑥 is mathematically expressed as Σᵢ𝑥ᵢ/𝑛, where 𝑖 = 1, 2, …, 𝑛. In other words, it’s the sum of all the elements 𝑥ᵢ divided by the number of items in the dataset 𝑥.

Biện pháp của xu hướng trung ương

Các biện pháp của xu hướng trung tâm cho thấy các giá trị trung tâm hoặc trung bình của các bộ dữ liệu. Có một số định nghĩa về những gì mà người coi là trung tâm của một bộ dữ liệu. Trong hướng dẫn này, bạn sẽ học cách xác định và tính toán các biện pháp này về xu hướng trung tâm:

Bần tiện

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

Hãy để tạo ra một số dữ liệu để làm việc. Bạn sẽ bắt đầu với các danh sách Python có chứa một số dữ liệu số tùy ý:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

Hãy để tạo ra một số dữ liệu để làm việc. Bạn sẽ bắt đầu với các danh sách Python có chứa một số dữ liệu số tùy ý:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

>>>

>>> mean_ = y.mean[]
>>> mean_
8.7

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan

Đây là tất cả các gói mà bạn cần để tính toán thống kê Python. Thông thường, bạn đã thắng được sử dụng gói

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

30 tích hợp của Python, nhưng nó sẽ hữu ích trong hướng dẫn này. Sau đó, bạn sẽ nhập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 để trực quan hóa dữ liệu.

>>>

>>> np.nanmean[y_with_nan]
8.7

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

73 Chỉ cần bỏ qua tất cả các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Nó trả về giá trị tương tự như
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

51 nếu bạn áp dụng nó vào tập dữ liệu mà không có các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35.

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

39 Các đối tượng cũng có phương thức
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

65:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

0

Như bạn có thể thấy, nó đã sử dụng tương tự như trong trường hợp của Numpy. Tuy nhiên,

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

65 từ Pandas bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 theo mặc định:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

1

Hành vi này là kết quả của giá trị mặc định của tham số tùy chọn

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

81. Bạn có thể thay đổi tham số này để sửa đổi hành vi.

Có trọng số trung bình

Giá trị trung bình có trọng số, còn được gọi là trung bình số học có trọng số hoặc trung bình có trọng số, là một khái quát của nghĩa số học cho phép bạn xác định sự đóng góp tương đối của từng điểm dữ liệu vào kết quả.weighted mean, also called the weighted arithmetic mean or weighted average, is a generalization of the arithmetic mean that enables you to define the relative contribution of each data point to the result.

Bạn xác định một trọng số 𝑤ᵢ cho mỗi điểm dữ liệu 𝑥ᵢ của bộ dữ liệu, trong đó 𝑖 = 1, 2,,, và là số lượng các mục trong. Sau đó, bạn nhân mỗi điểm dữ liệu với trọng số tương ứng, tổng tất cả các sản phẩm và chia tổng thu được với tổng trọng số: σᵢ [𝑤ᵢ𝑥ᵢ] /.weight 𝑤ᵢ for each data point 𝑥ᵢ of the dataset 𝑥, where 𝑖 = 1, 2, …, 𝑛 and 𝑛 is the number of items in 𝑥. Then, you multiply each data point with the corresponding weight, sum all the products, and divide the obtained sum with the sum of weights: Σᵢ[𝑤ᵢ𝑥ᵢ] / Σᵢ𝑤ᵢ.

Giá trị trung bình có trọng số rất tiện dụng khi bạn cần giá trị trung bình của một bộ dữ liệu chứa các mục xảy ra với tần số tương đối. Ví dụ: giả sử rằng bạn có một tập hợp trong đó 20% tất cả các mục bằng 2, 50% các mặt hàng bằng 4 và 30% các mục còn lại bằng 8. bạn có thể tính giá trị trung bình của Một bộ như vậy như thế này:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

2

Ở đây, bạn tính đến tần số với các trọng số. Với phương pháp này, bạn không cần biết tổng số mặt hàng.

Bạn có thể thực hiện trung bình có trọng số trong Python thuần túy bằng cách kết hợp

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

49 với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

83 hoặc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

84:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

3

Một lần nữa, đây là một triển khai sạch sẽ và thanh lịch, nơi bạn không cần nhập bất kỳ thư viện nào.

Tuy nhiên, nếu bạn có bộ dữ liệu lớn, thì Numpy có khả năng cung cấp một giải pháp tốt hơn. Bạn có thể sử dụng

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

85 để có được giá trị trung bình của các mảng numpy hoặc gấu trúc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

4

Kết quả giống như trong trường hợp thực hiện Python thuần túy. Bạn cũng có thể sử dụng phương pháp này trên danh sách và bộ dữ liệu thông thường.

Một giải pháp khác là sử dụng sản phẩm yếu tố khôn ngoan

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

87 với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

88 hoặc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

89:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

5

Đó là nó! Bạn đã tính toán trung bình có trọng số.

Tuy nhiên, hãy cẩn thận nếu bộ dữ liệu của bạn chứa các giá trị

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

6

Trong trường hợp này,

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

91 trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35, phù hợp với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

63.

Có nghĩa là điều hòa

Giá trị trung bình hài hòa là đối ứng của giá trị trung bình của đối ứng của tất cả các mục trong bộ dữ liệu: 𝑛 / σᵢ [1 / 𝑥ᵢ], trong đó 𝑖 = 1, 2, Hồi, 𝑛 và 𝑛 là số lượng các mục trong bộ dữ liệu. Một biến thể của việc thực hiện Python thuần túy của giá trị trung bình hài hòa là:harmonic mean is the reciprocal of the mean of the reciprocals of all items in the dataset: 𝑛 / Σᵢ[1/𝑥ᵢ], where 𝑖 = 1, 2, …, 𝑛 and 𝑛 is the number of items in the dataset 𝑥. One variant of the pure Python implementation of the harmonic mean is this:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

7

Nó khá khác với giá trị của trung bình số học cho cùng một dữ liệu

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32, mà bạn tính là 8,7.

Bạn cũng có thể tính toán biện pháp này với

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

95:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

8

Ví dụ trên cho thấy một triển khai của

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

95. Nếu bạn có giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong bộ dữ liệu, thì nó sẽ trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Nếu có ít nhất một
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99, thì nó sẽ trả lại
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99. Nếu bạn cung cấp ít nhất một số âm, thì bạn sẽ nhận được
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
01:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

9

Hãy ghi nhớ ba kịch bản này khi bạn sử dụng phương pháp này!

Cách thứ ba để tính toán trung bình hài hòa là sử dụng

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
02:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
0

Một lần nữa, đây là một triển khai khá đơn giản. Tuy nhiên, nếu bộ dữ liệu của bạn chứa

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35,
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99, một số âm hoặc bất cứ thứ gì ngoại trừ số dương, thì bạn sẽ nhận được
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
05!

Trung bình hình học

Giá trị trung bình hình học là gốc của sản phẩm của tất cả các phần tử 𝑥ᵢ trong bộ dữ liệu 𝑥: ⁿ √ [πᵢ𝑥ᵢ], trong đó 𝑖 = 1, 2, Hồi,. Hình dưới đây minh họa các phương tiện số học, điều hòa và hình học của bộ dữ liệu:geometric mean is the 𝑛-th root of the product of all 𝑛 elements 𝑥ᵢ in a dataset 𝑥: ⁿ√[Πᵢ𝑥ᵢ], where 𝑖 = 1, 2, …, 𝑛. The following figure illustrates the arithmetic, harmonic, and geometric means of a dataset:

Một lần nữa, các chấm màu xanh lá cây đại diện cho các điểm dữ liệu 1, 2.5, 4, 8 và 28. Đường đứt nét màu đỏ là giá trị trung bình. Đường đứt nét màu xanh là giá trị trung bình hài hòa và đường đứt nét màu vàng là giá trị trung bình hình học.

Bạn có thể thực hiện trung bình hình học trong Python thuần túy như thế này:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
1

Như bạn có thể thấy, giá trị của giá trị trung bình hình học, trong trường hợp này, khác biệt đáng kể so với các giá trị của số học [8,7] và điều hòa [2.76] có nghĩa là cho cùng một bộ dữ liệu

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32.

Python 3.8 đã giới thiệu

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
07, chuyển đổi tất cả các giá trị thành các số điểm nổi và trả về giá trị trung bình hình học của chúng:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
2

Bạn đã có kết quả tương tự như trong ví dụ trước, nhưng với lỗi làm tròn tối thiểu.

Nếu bạn truyền dữ liệu với các giá trị

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35, thì
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
07 sẽ hoạt động như hầu hết các chức năng tương tự và trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
3

Thật vậy, điều này phù hợp với hành vi của

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

57,
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

58 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

95. Nếu có số 0 hoặc số âm trong số dữ liệu của bạn, thì
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
07 sẽ tăng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
01.

Bạn cũng có thể nhận được giá trị trung bình hình học với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
16:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
4

Bạn đã thu được kết quả tương tự như với việc triển khai Python thuần túy.

Nếu bạn có giá trị

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong bộ dữ liệu, thì
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
18 sẽ trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Nếu có ít nhất một
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99, thì nó sẽ trả lại
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
21 và đưa ra cảnh báo. Nếu bạn cung cấp ít nhất một số âm, thì bạn sẽ nhận được
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 và cảnh báo.

Trung bình

Trung bình mẫu là phần tử giữa của bộ dữ liệu được sắp xếp. Bộ dữ liệu có thể được sắp xếp theo thứ tự tăng hoặc giảm. Nếu số lượng phần tử 𝑛 của bộ dữ liệu là số lẻ, thì trung bình là giá trị ở vị trí giữa: 0,5 [𝑛 + 1]. Nếu 𝑛 chẵn, thì trung bình là giá trị trung bình của hai giá trị ở giữa, nghĩa là các mục tại các vị trí 0,5𝑛 và 0,5𝑛 + 1.sample median is the middle element of a sorted dataset. The dataset can be sorted in increasing or decreasing order. If the number of elements 𝑛 of the dataset is odd, then the median is the value at the middle position: 0.5[𝑛 + 1]. If 𝑛 is even, then the median is the arithmetic mean of the two values in the middle, that is, the items at the positions 0.5𝑛 and 0.5𝑛 + 1.

Ví dụ: nếu bạn có các điểm dữ liệu 2, 4, 1, 8 và 9, thì giá trị trung bình là 4, ở giữa bộ dữ liệu được sắp xếp [1, 2, 4, 8, 9]. Nếu các điểm dữ liệu là 2, 4, 1 và 8, thì trung bình là 3, là trung bình của hai phần tử giữa của chuỗi được sắp xếp [2 và 4]. Hình sau đây minh họa điều này:

Các điểm dữ liệu là các chấm màu xanh lá cây và các đường màu tím hiển thị trung bình cho mỗi bộ dữ liệu. Giá trị trung bình cho bộ dữ liệu trên [1, 2,5, 4, 8 và 28] là 4. Nếu bạn loại bỏ ngoại lệ 28 khỏi bộ dữ liệu dưới, thì trung bình sẽ trở thành trung bình số học giữa 2,5 và 4, là 3,25.

Hình dưới đây cho thấy cả trung bình và trung bình của các điểm dữ liệu 1, 2.5, 4, 8 và 28:

Một lần nữa, giá trị trung bình là đường đứt nét màu đỏ, trong khi trung vị là đường màu tím.

Sự khác biệt chính giữa hành vi của giá trị trung bình và trung bình có liên quan đến các ngoại lệ hoặc cực đoan của bộ dữ liệu. Giá trị trung bình bị ảnh hưởng nặng nề bởi các ngoại lệ, nhưng trung bình chỉ phụ thuộc vào các ngoại lệ hơi hoặc không. Xem xét con số sau:outliers or extremes. The mean is heavily affected by outliers, but the median only depends on outliers either slightly or not at all. Consider the following figure:

Bộ dữ liệu phía trên một lần nữa có các mục 1, 2,5, 4, 8 và 28. Giá trị trung bình của nó là 8,7 và trung bình là 5, như bạn đã thấy trước đó. Bộ dữ liệu thấp hơn cho thấy những gì diễn ra khi bạn di chuyển điểm ngoài cùng bên phải với giá trị 28:

  • Nếu bạn tăng giá trị của nó [di chuyển nó sang phải], thì giá trị trung bình sẽ tăng, nhưng giá trị trung bình đã giành được thay đổi., then the mean will rise, but the median value won’t ever change.
  • Nếu bạn giảm giá trị của nó [di chuyển nó sang trái], thì giá trị trung bình sẽ giảm, nhưng trung bình sẽ giữ nguyên cho đến khi giá trị của điểm di chuyển lớn hơn hoặc bằng 4., then the mean will drop, but the median will remain the same until the value of the moving point is greater than or equal to 4.

Bạn có thể so sánh giá trị trung bình và trung bình là một cách để phát hiện các ngoại lệ và sự bất đối xứng trong dữ liệu của bạn. Việc giá trị trung bình hay giá trị trung bình có hữu ích hơn cho bạn hay không phụ thuộc vào bối cảnh của vấn đề cụ thể của bạn.

Đây là một trong nhiều triển khai Python thuần túy có thể của trung bình:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
5

Hai bước quan trọng nhất của việc thực hiện này như sau:

  1. Sắp xếp các yếu tố của bộ dữ liệu the elements of the dataset
  2. Tìm [các] phần tử giữa trong bộ dữ liệu được sắp xếp the middle element[s] in the sorted dataset

Bạn có thể nhận được trung bình với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
23:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
6

Phiên bản được sắp xếp của

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 là
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
25, vì vậy phần tử ở giữa là
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
26. Phiên bản được sắp xếp của
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
27, đó là
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 mà không có mục cuối cùng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
29, là
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
30. Bây giờ, có hai yếu tố giữa,
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
31 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
26. Trung bình của chúng là
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
33.

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
34 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
35 là hai chức năng khác liên quan đến trung bình trong thư viện Python
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

11. Họ luôn trả về một phần tử từ bộ dữ liệu:

  • Nếu số lượng các phần tử là lẻ, thì có một giá trị trung bình duy nhất, vì vậy các hàm này hoạt động giống như
    >>> y, y_with_nan = np.array[x], np.array[x_with_nan]
    >>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
    >>> y
    array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
    >>> y_with_nan
    array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
    >>> z
    0     8.0
    1     1.0
    2     2.5
    3     4.0
    4    28.0
    dtype: float64
    >>> z_with_nan
    0     8.0
    1     1.0
    2     2.5
    3     NaN
    4     4.0
    5    28.0
    dtype: float64
    
    37.
    , then there’s a single middle value, so these functions behave just like
    >>> y, y_with_nan = np.array[x], np.array[x_with_nan]
    >>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
    >>> y
    array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
    >>> y_with_nan
    array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
    >>> z
    0     8.0
    1     1.0
    2     2.5
    3     4.0
    4    28.0
    dtype: float64
    >>> z_with_nan
    0     8.0
    1     1.0
    2     2.5
    3     NaN
    4     4.0
    5    28.0
    dtype: float64
    
    37.
  • Nếu số lượng các phần tử là chẵn, thì có hai giá trị giữa. Trong trường hợp này,
    >>> y, y_with_nan = np.array[x], np.array[x_with_nan]
    >>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
    >>> y
    array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
    >>> y_with_nan
    array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
    >>> z
    0     8.0
    1     1.0
    2     2.5
    3     4.0
    4    28.0
    dtype: float64
    >>> z_with_nan
    0     8.0
    1     1.0
    2     2.5
    3     NaN
    4     4.0
    5    28.0
    dtype: float64
    
    34 trả về thấp hơn và
    >>> y, y_with_nan = np.array[x], np.array[x_with_nan]
    >>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
    >>> y
    array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
    >>> y_with_nan
    array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
    >>> z
    0     8.0
    1     1.0
    2     2.5
    3     4.0
    4    28.0
    dtype: float64
    >>> z_with_nan
    0     8.0
    1     1.0
    2     2.5
    3     NaN
    4     4.0
    5    28.0
    dtype: float64
    
    35 giá trị trung bình cao hơn.
    , then there are two middle values. In this case,
    >>> y, y_with_nan = np.array[x], np.array[x_with_nan]
    >>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
    >>> y
    array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
    >>> y_with_nan
    array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
    >>> z
    0     8.0
    1     1.0
    2     2.5
    3     4.0
    4    28.0
    dtype: float64
    >>> z_with_nan
    0     8.0
    1     1.0
    2     2.5
    3     NaN
    4     4.0
    5    28.0
    dtype: float64
    
    34 returns the lower and
    >>> y, y_with_nan = np.array[x], np.array[x_with_nan]
    >>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
    >>> y
    array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
    >>> y_with_nan
    array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
    >>> z
    0     8.0
    1     1.0
    2     2.5
    3     4.0
    4    28.0
    dtype: float64
    >>> z_with_nan
    0     8.0
    1     1.0
    2     2.5
    3     NaN
    4     4.0
    5    28.0
    dtype: float64
    
    35 the higher middle value.

Bạn có thể sử dụng các chức năng này giống như bạn sử dụng

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
37:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
7

Một lần nữa, phiên bản được sắp xếp của

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
27 là
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
30. Hai yếu tố ở giữa là
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
31 [thấp] và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
26 [cao].

Không giống như hầu hết các chức năng khác từ thư viện Python

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

11,
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
37,
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
34 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
35 don lồng return
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 Khi có các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong số các điểm dữ liệu:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
8

Coi chừng hành vi này bởi vì nó có thể không phải là những gì bạn muốn!

Bạn cũng có thể nhận được trung bình với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
51:

>>>

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
9

Bạn đã đạt được các giá trị tương tự với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
23 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
51.

Tuy nhiên, nếu có giá trị

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong bộ dữ liệu của bạn, thì
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
51 phát hành
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
56 và trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Nếu hành vi này không phải là thứ bạn muốn, thì bạn có thể sử dụng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
58 để bỏ qua tất cả các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
0

Các kết quả thu được giống như với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
23 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
51 được áp dụng cho các bộ dữ liệu
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42.

Các đối tượng Pandas

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 có phương thức
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
65 bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 theo mặc định:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
1

Hành vi của

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
65 phù hợp với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

65 trong gấu trúc. Bạn có thể thay đổi hành vi này với tham số tùy chọn
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

81.

Cách thức

Chế độ mẫu là giá trị trong bộ dữ liệu xảy ra thường xuyên nhất. Nếu có một giá trị như vậy, thì tập hợp là đa phương thức vì nó có nhiều giá trị phương thức. Ví dụ, trong tập hợp chứa các điểm 2, 3, 2, 8 và 12, số 2 là chế độ vì nó xảy ra hai lần, không giống như các mục khác chỉ xảy ra một lần.sample mode is the value in the dataset that occurs most frequently. If there isn’t a single such value, then the set is multimodal since it has multiple modal values. For example, in the set that contains the points 2, 3, 2, 8, and 12, the number 2 is the mode because it occurs twice, unlike the other items that occur only once.

Đây là cách bạn có thể có được chế độ với Python Pure Python:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
2

Bạn sử dụng

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
70 để có được số lần xuất hiện của từng mục trong
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
71. Mục có số lần xuất hiện tối đa là chế độ. Lưu ý rằng bạn không phải sử dụng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
72. Thay vào đó, bạn có thể thay thế nó chỉ bằng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
71 và lặp lại trong toàn bộ danh sách.

Bạn có thể lấy chế độ với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
74 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
75:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
3

Như bạn có thể thấy,

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
76 đã trả về một giá trị duy nhất, trong khi
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
77 trả về danh sách chứa kết quả. Tuy nhiên, đây là sự khác biệt duy nhất giữa hai chức năng. Nếu có nhiều hơn một giá trị phương thức, thì
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
76 sẽ tăng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
79, trong khi
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
77 trả về danh sách với tất cả các chế độ:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
4

Bạn nên đặc biệt chú ý đến kịch bản này và cẩn thận khi bạn chọn giữa hai chức năng này.

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
74 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
75 Xử lý các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 làm giá trị thông thường và có thể trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 dưới dạng giá trị phương thức:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
5

Trong ví dụ đầu tiên ở trên, số

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
85 xảy ra hai lần và là giá trị phương thức. Trong ví dụ thứ hai,
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 là giá trị phương thức vì nó xảy ra hai lần, trong khi các giá trị khác chỉ xảy ra một lần.

Bạn cũng có thể nhận chế độ với

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
87:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
6

Hàm này trả về đối tượng với giá trị phương thức và số lần nó xảy ra. Nếu có nhiều giá trị phương thức trong tập dữ liệu, thì chỉ có giá trị nhỏ nhất được trả về.smallest value is returned.

Bạn có thể nhận được chế độ và số lần xuất hiện của nó dưới dạng mảng numpy với ký hiệu chấm:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
7

Mã này sử dụng

>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
88 để trả về chế độ nhỏ nhất [
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
89] trong mảng
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
90 và
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
91 để trả về số lần xảy ra [
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
92].
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
87 cũng linh hoạt với các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Nó cho phép bạn xác định hành vi mong muốn với tham số tùy chọn
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
95. Tham số này có thể nhận các giá trị
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
96,
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
97 [lỗi] hoặc
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
98.

Các đối tượng Pandas

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 có phương thức
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
00 xử lý tốt các giá trị đa phương thức và bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 theo mặc định:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
8

Như bạn có thể thấy,

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
00 trả về một
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

39 mới chứa tất cả các giá trị phương thức. Nếu bạn muốn
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
00 đưa các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 vào tài khoản, thì chỉ cần chuyển đối số tùy chọn
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
06.

Các biện pháp biến đổi

Các biện pháp của xu hướng trung tâm aren đủ để mô tả dữ liệu. Bạn cũng sẽ cần các biện pháp biến thiên để định lượng sự lây lan của các điểm dữ liệu. Trong phần này, bạn sẽ học cách xác định và tính toán các biện pháp biến đổi sau:measures of variability that quantify the spread of data points. In this section, you’ll learn how to identify and calculate the following variability measures:

  • Phương sai
  • Độ lệch chuẩn
  • Độ lệch
  • Phần trăm
  • Các dãy

Phương sai

Độ lệch chuẩnsample variance quantifies the spread of the data. It shows numerically how far the data points are from the mean. You can express the sample variance of the dataset 𝑥 with 𝑛 elements mathematically as 𝑠² = Σᵢ[𝑥ᵢ − mean[𝑥]]² / [𝑛 − 1], where 𝑖 = 1, 2, …, 𝑛 and mean[𝑥] is the sample mean of 𝑥. If you want to understand deeper why you divide the sum with 𝑛 − 1 instead of 𝑛, then you can dive deeper into Bessel’s correction.

Độ lệch

Phần trăm

  1. Các dãy This dataset has a smaller variance or a smaller average difference from the mean. It also has a smaller range or a smaller difference between the largest and smallest item.
  2. Phương sai mẫu định lượng sự lây lan của dữ liệu. Nó cho thấy số lượng các điểm dữ liệu từ giá trị trung bình bao xa. Bạn có thể biểu thị phương sai mẫu của bộ dữ liệu 𝑥 với các phần tử về mặt toán học là 𝑠² = σᵢ [𝑥ᵢ - trung bình [𝑥]] ² / [𝑛 - 1], trong đó 𝑖 = 1, 2, Giá trị trung bình mẫu của 𝑥. Nếu bạn muốn hiểu sâu hơn tại sao bạn chia tổng với 𝑛 - 1 thay vì 𝑛, thì bạn có thể đi sâu hơn vào sự điều chỉnh của Bessel. This dataset has a larger variance or a larger average difference from the mean. It also has a bigger range or a bigger difference between the largest and smallest item.

Hình sau đây cho bạn thấy lý do tại sao nó rất quan trọng để xem xét phương sai khi mô tả các bộ dữ liệu:

Có hai bộ dữ liệu trong hình này:

>>>

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
9

Cách tiếp cận này là đủ và tính toán tốt phương sai mẫu. Tuy nhiên, giải pháp ngắn hơn và thanh lịch hơn là gọi chức năng hiện có

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
07:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
0

Bạn đã thu được kết quả tương tự cho phương sai như trên.

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
08 có thể tránh tính toán trung bình nếu bạn cung cấp giá trị trung bình rõ ràng như đối số thứ hai:
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
09.

Nếu bạn có giá trị

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong số dữ liệu của mình, thì
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
07 sẽ trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
1

Hành vi này phù hợp với

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

51 và hầu hết các chức năng khác từ thư viện Python
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

11.

Bạn cũng có thể tính toán phương sai mẫu với Numpy. Bạn nên sử dụng chức năng

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
15 hoặc phương pháp tương ứng
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
16:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
2

Nó rất quan trọng để chỉ định tham số

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
17. Đó là cách mà bạn đặt các mức độ tự do của Delta thành
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
18. Tham số này cho phép tính toán thích hợp của 𝑠², với [𝑛 - 1] trong mẫu số thay vì.

Nếu bạn có các giá trị

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong tập dữ liệu, thì
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
15 và
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
16 sẽ trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
3

Điều này phù hợp với

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

63 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

85. Nếu bạn muốn bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35, thì bạn nên sử dụng
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
26:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
4

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
26 bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Nó cũng cần bạn chỉ định
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
17.

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

39 Đối tượng có phương thức
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
16 bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 theo mặc định:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
5

Nó cũng có tham số

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
33, nhưng giá trị mặc định của nó là
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
18, do đó bạn có thể bỏ qua nó. Nếu bạn muốn có một hành vi khác liên quan đến các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35, thì hãy sử dụng tham số tùy chọn
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

81.

Bạn tính toán phương sai dân số tương tự như phương sai mẫu. Tuy nhiên, bạn phải sử dụng 𝑛 trong mẫu số thay vì 𝑛 - 1: σᵢ [𝑥ᵢ - trung bình [𝑥]] ² /. Trong trường hợp này, 𝑛 là số lượng các mặt hàng trong toàn bộ dân số. Bạn có thể nhận được phương sai dân số tương tự như phương sai mẫu, với những khác biệt sau:population variance similarly to the sample variance. However, you have to use 𝑛 in the denominator instead of 𝑛 − 1: Σᵢ[𝑥ᵢ − mean[𝑥]]² / 𝑛. In this case, 𝑛 is the number of items in the entire population. You can get the population variance similar to the sample variance, with the following differences:

  • Thay thế
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    37 bằng
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    38 trong triển khai Python thuần túy.
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    37 with
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    38 in the pure Python implementation.
  • Sử dụng
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    39 thay vì
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    07.
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    39 instead of
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    07.
  • Chỉ định tham số
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    41 nếu bạn sử dụng Numpy hoặc Pandas. Trong Numpy, bạn có thể bỏ qua
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    33 vì giá trị mặc định của nó là
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    99.
    the parameter
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    41 if you use NumPy or Pandas. In NumPy, you can omit
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    33 because its default value is
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    99.

Lưu ý rằng bạn nên luôn luôn biết liệu bạn có làm việc với một mẫu hay toàn bộ dân số bất cứ khi nào bạn tính toán phương sai!

Độ lệch chuẩn

Độ lệch chuẩn mẫu là một thước đo khác của việc lan truyền dữ liệu. Nó kết nối với phương sai mẫu, vì độ lệch chuẩn, 𝑠, là căn bậc hai dương của phương sai mẫu. Độ lệch chuẩn thường thuận tiện hơn phương sai vì nó có cùng đơn vị với các điểm dữ liệu. Khi bạn nhận được phương sai, bạn có thể tính toán độ lệch chuẩn với Python thuần túy:sample standard deviation is another measure of data spread. It’s connected to the sample variance, as standard deviation, 𝑠, is the positive square root of the sample variance. The standard deviation is often more convenient than the variance because it has the same unit as the data points. Once you get the variance, you can calculate the standard deviation with pure Python:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
6

Mặc dù giải pháp này hoạt động, bạn cũng có thể sử dụng

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
44:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
7

Tất nhiên, kết quả giống như trước đây. Giống như

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
08,
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
46 không tính toán giá trị trung bình nếu bạn cung cấp nó một cách rõ ràng như đối số thứ hai:
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
47.

Bạn có thể có được độ lệch chuẩn với Numpy theo cách tương tự. Bạn có thể sử dụng hàm

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
48 và phương pháp tương ứng
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
49 để tính độ lệch chuẩn. Nếu có các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 trong tập dữ liệu, thì chúng sẽ trả về
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35. Để bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35, bạn nên sử dụng
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
53. Bạn sử dụng
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
48,
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
49 và
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
56 từ Numpy như bạn sẽ sử dụng
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
57,
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
16 và
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
59:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
8

Don Tiết quên đặt các mức độ tự do của đồng bằng thành

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
18!

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

39 Các đối tượng cũng có phương thức
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
49 bỏ qua
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 theo mặc định:

>>>

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
9

Tham số

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
33 mặc định là
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
18, do đó bạn có thể bỏ qua nó. Một lần nữa, nếu bạn muốn xử lý các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 khác nhau, thì hãy áp dụng tham số
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

81.

Độ lệch chuẩn dân số đề cập đến toàn bộ dân số. Nó có căn bậc hai dương của phương sai dân số. Bạn có thể tính toán nó giống như độ lệch chuẩn mẫu, với những khác biệt sau:population standard deviation refers to the entire population. It’s the positive square root of the population variance. You can calculate it just like the sample standard deviation, with the following differences:

  • Tìm căn bậc hai của phương sai dân số trong việc thực hiện Python thuần túy. the square root of the population variance in the pure Python implementation.
  • Sử dụng
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    68 thay vì
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    44.
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    68 instead of
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    44.
  • Chỉ định tham số
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    41 nếu bạn sử dụng Numpy hoặc Pandas. Trong Numpy, bạn có thể bỏ qua
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    33 vì giá trị mặc định của nó là
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    99.
    the parameter
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    41 if you use NumPy or Pandas. In NumPy, you can omit
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    33 because its default value is
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    99.

Lưu ý rằng bạn nên luôn luôn biết liệu bạn có làm việc với một mẫu hay toàn bộ dân số bất cứ khi nào bạn tính toán phương sai!

Độ lệch chuẩn

Độ lệch chuẩn mẫu là một thước đo khác của việc lan truyền dữ liệu. Nó kết nối với phương sai mẫu, vì độ lệch chuẩn, 𝑠, là căn bậc hai dương của phương sai mẫu. Độ lệch chuẩn thường thuận tiện hơn phương sai vì nó có cùng đơn vị với các điểm dữ liệu. Khi bạn nhận được phương sai, bạn có thể tính toán độ lệch chuẩn với Python thuần túy:sample skewness measures the asymmetry of a data sample.

Có một số định nghĩa toán học về độ lệch. Một biểu thức phổ biến để tính độ lệch của bộ dữ liệu 𝑥 với các phần tử là [𝑛² / [[𝑛 - 1] [𝑛 - 2]]] [σᵢ [𝑥ᵢ - trung bình [𝑥]] ³ / [𝑛𝑠³]]. Một biểu thức đơn giản hơn là σᵢ [𝑥ᵢ - trung bình [𝑥]] ³ / [[𝑛 - 1] [𝑛 - 2] . Độ lệch được định nghĩa như thế này được gọi là hệ số mô men tiêu chuẩn Fisher-Pearson được điều chỉnh.adjusted Fisher-Pearson standardized moment coefficient.

Con số trước cho thấy hai bộ dữ liệu khá đối xứng. Nói cách khác, điểm của họ có khoảng cách tương tự so với giá trị trung bình. Ngược lại, hình ảnh sau đây minh họa hai bộ không đối xứng:

Bộ đầu tiên được đại diện bởi các chấm màu xanh lá cây và thứ hai với các điểm trắng. Thông thường, các giá trị độ lệch âm cho thấy rằng có một đuôi chiếm ưu thế ở phía bên trái, mà bạn có thể thấy với bộ đầu tiên. Các giá trị độ lệch dương tương ứng với đuôi dài hơn hoặc béo hơn ở phía bên phải, mà bạn có thể thấy trong tập thứ hai. Nếu độ lệch gần với 0 [ví dụ, trong khoảng từ .5 0,5 đến 0,5], thì bộ dữ liệu được coi là khá đối xứng.negative skewness values indicate that there’s a dominant tail on the left side, which you can see with the first set. Positive skewness values correspond to a longer or fatter tail on the right side, which you can see in the second set. If the skewness is close to 0 [for example, between −0.5 and 0.5], then the dataset is considered quite symmetrical.

Khi bạn đã tính toán kích thước của bộ dữ liệu

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
38, mẫu trung bình
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
74 và độ lệch chuẩn
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
75, bạn có thể nhận được độ lệch mẫu với Python thuần túy:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
0

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

Bạn cũng có thể tính toán độ lệch mẫu với

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
77:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
1

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

Bạn cũng có thể tính toán độ lệch mẫu với

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
77:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
2

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

Bạn cũng có thể tính toán độ lệch mẫu với
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
77:

Kết quả thu được giống như việc thực hiện Python thuần túy. Tham số

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
78 được đặt thành
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
79 để cho phép hiệu chỉnh cho sai lệch thống kê. Tham số tùy chọn
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
95 có thể lấy các giá trị
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
96,
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
97 hoặc
>>> y, y_with_nan = np.array[x], np.array[x_with_nan]
>>> z, z_with_nan = pd.Series[x], pd.Series[x_with_nan]
>>> y
array[[ 8. ,  1. ,  2.5, 4. , 28. ]]
>>> y_with_nan
array[[ 8. ,  1. ,  2.5,  nan,  4. , 28. ]]
>>> z
0     8.0
1     1.0
2     2.5
3     4.0
4    28.0
dtype: float64
>>> z_with_nan
0     8.0
1     1.0
2     2.5
3     NaN
4     4.0
5    28.0
dtype: float64
98. Nó cho phép bạn kiểm soát cách bạn xử lý các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35.sample 𝑝 percentile is the element in the dataset such that 𝑝% of the elements in the dataset are less than or equal to that value. Also, [100 − 𝑝]% of the elements are greater than or equal to that value. If there are two such elements in the dataset, then the sample 𝑝 percentile is their arithmetic mean. Each dataset has three quartiles, which are the percentiles that divide the dataset into four parts:

  • Các đối tượng Pandas
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 có phương thức
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    86 cũng trả về độ lệch của bộ dữ liệu:
    is the sample 25th percentile. It divides roughly 25% of the smallest items from the rest of the dataset.
  • Giống như các phương thức khác,
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    86 bỏ qua các giá trị
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    35 theo mặc định, do giá trị mặc định của tham số tùy chọn
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    81.
    is the sample 50th percentile or the median. Approximately 25% of the items lie between the first and second quartiles and another 25% between the second and third quartiles.
  • Phần trăm is the sample 75th percentile. It divides roughly 25% of the largest items from the rest of the dataset.

Mẫu phần trăm là phần tử trong bộ dữ liệu sao cho 𝑝% các phần tử trong tập dữ liệu nhỏ hơn hoặc bằng giá trị đó. Ngoài ra, [100 - 𝑝]% của các phần tử lớn hơn hoặc bằng giá trị đó. Nếu có hai yếu tố như vậy trong bộ dữ liệu, thì phần trăm mẫu là giá trị trung bình số học của chúng. Mỗi bộ dữ liệu có ba bộ tứ, là phần trăm chia tập dữ liệu thành bốn phần:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
3

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

Bạn cũng có thể tính toán độ lệch mẫu với

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
77:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
4

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
5

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

Bạn cũng có thể tính toán độ lệch mẫu với

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
77:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
6

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

Bạn cũng có thể tính toán độ lệch mẫu với

>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
77:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
7

Độ lệch là dương, vì vậy

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 có đuôi bên phải.

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

39 Các đối tượng có phương thức
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
11:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
8

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
11 cũng cần bạn cung cấp giá trị lượng tử làm đối số. Giá trị này có thể là một số từ 0 đến 1 hoặc một chuỗi số. Trong trường hợp đầu tiên,
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
11 trả về vô hướng. Trong trường hợp thứ hai, nó trả về một
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 mới giữ kết quả.

Các dãy

Phạm vi dữ liệu là sự khác biệt giữa phần tử tối đa và tối thiểu trong tập dữ liệu. Bạn có thể nhận được nó với chức năng

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
15:range of data is the difference between the maximum and minimum element in the dataset. You can get it with the function
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
15:

>>>

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
9

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
11 cũng cần bạn cung cấp giá trị lượng tử làm đối số. Giá trị này có thể là một số từ 0 đến 1 hoặc một chuỗi số. Trong trường hợp đầu tiên,
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
11 trả về vô hướng. Trong trường hợp thứ hai, nó trả về một
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 mới giữ kết quả.

Các dãy

  • Phạm vi dữ liệu là sự khác biệt giữa phần tử tối đa và tối thiểu trong tập dữ liệu. Bạn có thể nhận được nó với chức năng
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    15:
  • Hàm này trả về
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    35 nếu có các giá trị
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    35 trong mảng numpy của bạn. Nếu bạn sử dụng đối tượng gấu trúc
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14, thì nó sẽ trả về một số.
  • Ngoài ra, bạn có thể sử dụng các hàm và phương pháp Python, Numpy hoặc Pandas tích hợp để tính toán cực đại và cực tiểu của các chuỗi:
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    19 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    20 từ Thư viện tiêu chuẩn Python
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    21 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    22 từ Numpy

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
23 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
24 từ Numpy đến bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
0

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
26 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
27 từ Numpy

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
26 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
27 từ gấu trúc đến bỏ qua các giá trị
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

35 theo mặc địnhinterquartile range is the difference between the first and third quartile. Once you calculate the quartiles, you can take their difference:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
1

Dưới đây là một số ví dụ về cách bạn sẽ sử dụng các thói quen này:

Đó là cách bạn có được phạm vi dữ liệu.

Phạm vi liên vùng là sự khác biệt giữa bộ tứ thứ nhất và thứ ba. Khi bạn tính toán các nhóm tứ phân, bạn có thể lấy sự khác biệt của chúng:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
2

Lưu ý rằng bạn truy cập các giá trị trong đối tượng gấu trúc

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 với các nhãn
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
32 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
33.

Tóm tắt các thống kê mô tả

  • Scipy và gấu trúc cung cấp các thói quen hữu ích để nhanh chóng có được số liệu thống kê mô tả với một cuộc gọi chức năng hoặc phương thức duy nhất. Bạn có thể sử dụng scipy.stats.describe [] như thế này:: the number of observations or elements in your dataset
  • Bạn phải cung cấp bộ dữ liệu như là đối số đầu tiên. Đối số có thể là một mảng, danh sách, tuple hoặc cấu trúc dữ liệu tương tự. Bạn có thể bỏ qua
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    17 vì nó là mặc định và chỉ có vấn đề khi bạn tính toán phương sai. Bạn có thể vượt qua
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    35 để buộc sửa lỗi độ lệch và kurtosis đối với sai lệch thống kê.
    : the tuple with the minimum and maximum values of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    36 Trả về một đối tượng giữ các số liệu thống kê mô tả sau:
    : the mean of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    37: Số lượng quan sát hoặc phần tử trong bộ dữ liệu của bạn
    : the variance of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    38: Bộ có giá trị tối thiểu và tối đa của bộ dữ liệu của bạn
    : the skewness of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    39: giá trị trung bình của bộ dữ liệu của bạn
    : the kurtosis of your dataset

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
40: Phương sai của bộ dữ liệu của bạn

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
3

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
41: Độ lệch của bộ dữ liệu của bạn

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
42: Kurtosis của bộ dữ liệu của bạn

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
4

Bạn có thể truy cập các giá trị cụ thể với ký hiệu DOT:

  • Với SCIPY, bạn chỉ là một hàm gọi từ bản tóm tắt thống kê mô tả cho bộ dữ liệu của bạn. the number of elements in your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    36 Trả về một đối tượng giữ các số liệu thống kê mô tả sau:
    the mean of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    37: Số lượng quan sát hoặc phần tử trong bộ dữ liệu của bạn
    the standard deviation of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    38: Bộ có giá trị tối thiểu và tối đa của bộ dữ liệu của bạn
    the minimum and maximum values of your dataset
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    39: giá trị trung bình của bộ dữ liệu của bạn
    the quartiles of your dataset

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
40: Phương sai của bộ dữ liệu của bạn

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
5

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
41: Độ lệch của bộ dữ liệu của bạn

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
42: Kurtosis của bộ dữ liệu của bạn

Bạn có thể truy cập các giá trị cụ thể với ký hiệu DOT:

Với SCIPY, bạn chỉ là một hàm gọi từ bản tóm tắt thống kê mô tả cho bộ dữ liệu của bạn.measures of correlation between pairs of data:

  • Pandas có chức năng tương tự, nếu không tốt hơn. Đối tượng
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 có phương pháp
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    44:
    exists when larger values of 𝑥 correspond to larger values of 𝑦 and vice versa.
  • Nó trả về một
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 mới giữ như sau:
    exists when larger values of 𝑥 correspond to smaller values of 𝑦 and vice versa.
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    46: Số lượng phần tử trong bộ dữ liệu của bạn
    if there is no such apparent relationship.

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
48: Độ lệch chuẩn của bộ dữ liệu của bạn

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
49 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
50: Giá trị tối thiểu và tối đa của bộ dữ liệu của bạn

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
51,
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
52 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
53: Các bộ tứ của bộ dữ liệu của bạncovariance and the correlation coefficient. Let’s define some data to work with these measures. You’ll create two Python lists and use them to get corresponding NumPy arrays and Pandas
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
6

Bây giờ bạn có hai biến, bạn có thể bắt đầu khám phá mối quan hệ giữa chúng.

Hiệp phương sai

Hiệp phương sai mẫu là một biện pháp định lượng sức mạnh và hướng của mối quan hệ giữa một cặp biến:sample covariance is a measure that quantifies the strength and direction of a relationship between a pair of variables:

  • Nếu mối tương quan là tích cực, thì hiệp phương sai cũng tích cực. Một mối quan hệ mạnh mẽ hơn tương ứng với giá trị cao hơn của hiệp phương sai. then the covariance is positive, as well. A stronger relationship corresponds to a higher value of the covariance.
  • Nếu mối tương quan là tiêu cực, thì hiệp phương sai cũng là tiêu cực. Một mối quan hệ mạnh mẽ hơn tương ứng với giá trị thấp hơn [hoặc cao hơn tuyệt đối] của hiệp phương sai. then the covariance is negative, as well. A stronger relationship corresponds to a lower [or higher absolute] value of the covariance.
  • Nếu mối tương quan là yếu, thì hiệp phương sai gần bằng không. then the covariance is close to zero.

Hiệp phương sai của các biến 𝑥 và 𝑦 được định nghĩa về mặt toán học là 𝑠ˣʸ = σᵢ [𝑥ᵢ - trung bình [𝑥]] [𝑦ᵢ - trung bình [𝑦]] / [𝑛 - 1], trong đó . Theo sau đó, hiệp phương sai của hai biến giống hệt nhau thực sự là phương sai: 𝑠ˣˣ = σᵢ [𝑥ᵢ - trung bình [𝑥]] ² / [𝑛 - 1] = [𝑠ˣ] ² và 𝑠ʸʸ = σᵢ [𝑦ᵢ - trung bình [𝑦]] / [𝑛 - 1] = [𝑠ʸ] ².

Đây là cách bạn có thể tính toán hiệp phương sai trong Python thuần túy:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
7

Đầu tiên, bạn phải tìm giá trị trung bình của

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42. Sau đó, bạn áp dụng công thức toán học cho hiệp phương sai.

Numpy có chức năng

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
61 trả về ma trận hiệp phương sai:covariance matrix:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
8

Lưu ý rằng

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
61 có các tham số tùy chọn
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
78, mặc định là
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
79 và
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
33, mặc định là
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
66. Giá trị mặc định của chúng phù hợp để nhận ma trận hiệp phương sai mẫu. Phần tử trên bên trái của ma trận hiệp phương sai là hiệp phương sai của
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32, hoặc phương sai của
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32. Tương tự, phần tử dưới bên phải là hiệp phương sai của
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 hoặc phương sai của
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42. Bạn có thể kiểm tra xem điều này là đúng:

>>>

>>> mean_ = np.mean[y]
>>> mean_
8.7
9

Như bạn có thể thấy, các phương sai của

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 tương ứng bằng
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
75 và
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
76.

Hai yếu tố khác của ma trận hiệp phương sai là bằng nhau và đại diện cho hiệp phương sai thực tế giữa

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42:

>>>

>>> mean_ = y.mean[]
>>> mean_
8.7
0

Bạn đã thu được cùng giá trị của hiệp phương sai với

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
79 như với Python thuần túy.

Pandas

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 có phương pháp
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
81 mà bạn có thể sử dụng để tính toán hiệp phương sai:

>>>

>>> mean_ = y.mean[]
>>> mean_
8.7
1

Tại đây, bạn gọi

>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
81 trên một đối tượng
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 và chuyển đối tượng khác làm đối số đầu tiên.

Hệ số tương quan

Hệ số tương quan, hoặc hệ số tương quan sản phẩm Pearson, được biểu thị bằng biểu tượng 𝑟. Hệ số là một thước đo khác về mối tương quan giữa dữ liệu. Bạn có thể nghĩ về nó như một hiệp phương sai tiêu chuẩn. Dưới đây là một số sự thật quan trọng về nó:correlation coefficient, or Pearson product-moment correlation coefficient, is denoted by the symbol 𝑟. The coefficient is another measure of the correlation between data. You can think of it as a standardized covariance. Here are some important facts about it:

  • Giá trị 𝑟> 0 biểu thị mối tương quan dương. indicates positive correlation.
  • Giá trị 𝑟 >> mean_ = statistics.mean[x] >>> mean_ 8.7 >>> mean_ = statistics.fmean[x] >>> mean_ 8.7 84 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    85] và độ lệch chuẩn [
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    86,
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    87] cho các bộ dữ liệu
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    32 và
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    42, cũng như hiệp phương sai của chúng
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    90

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    2

    Bạn đã có biến

    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    91 đại diện cho hệ số tương quan.

    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    13 có thói quen
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    93 tính toán hệ số tương quan và giá trị 𝑝

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    3

    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    93 Trả về một tuple với hai số. Cái đầu tiên là 𝑟 và thứ hai là giá trị 𝑝.

    Tương tự như trường hợp của ma trận hiệp phương sai, bạn có thể áp dụng

    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    95 với
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    96 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    97 làm đối số và nhận ma trận hệ số tương quan:correlation coefficient matrix:

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    4

    Phần tử trên bên trái là hệ số tương quan giữa

    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    96 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    96. Phần tử dưới bên phải là hệ số tương quan giữa
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    97 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    97. Giá trị của chúng bằng
    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    02. Hai yếu tố khác bằng nhau và biểu thị hệ số tương quan thực tế giữa
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    96 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    97:

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    5

    Tất nhiên, kết quả giống như với Python thuần túy và

    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    93.

    Bạn có thể có được hệ số tương quan với

    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    06:

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    6

    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    07 mất
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    96 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    97, thực hiện hồi quy tuyến tính và trả về kết quả.
    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    10 và
    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    11 Xác định phương trình của dòng hồi quy, trong khi
    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    12 là hệ số tương quan. Để truy cập các giá trị cụ thể từ kết quả của
    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    07, bao gồm hệ số tương quan, hãy sử dụng ký hiệu DOT:

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    7

    Đó là cách mà bạn có thể thực hiện hồi quy tuyến tính và có được hệ số tương quan.

    Pandas

    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 có phương pháp
    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    15 để tính toán hệ số tương quan:

    >>>

    >>> mean_ = y.mean[]
    >>> mean_
    8.7
    
    8

    Bạn nên gọi

    >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    15 trên một đối tượng
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    14 và chuyển đối tượng khác làm đối số đầu tiên.

Làm việc với dữ liệu 2D

Các nhà thống kê thường làm việc với dữ liệu 2D. Dưới đây là một số ví dụ về định dạng dữ liệu 2D:

  • Bảng cơ sở dữ liệu
  • Tệp CSV
  • Bảng tính excel, calc và google

Numpy và Scipy cung cấp một phương tiện toàn diện để làm việc với dữ liệu 2D. Pandas có lớp

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 cụ thể để xử lý dữ liệu được dán nhãn 2D.

Trục

Bắt đầu bằng cách tạo một mảng 2D Numpy:

>>>

>>> mean_ = y.mean[]
>>> mean_
8.7
9

Bây giờ bạn có một bộ dữ liệu 2D mà bạn sẽ sử dụng trong phần này. Bạn có thể áp dụng các chức năng và phương thức thống kê Python cho nó giống như bạn làm cho dữ liệu 1D:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
0

Như bạn có thể thấy, bạn nhận được số liệu thống kê [như giá trị trung bình, trung bình hoặc phương sai] trên tất cả các dữ liệu trong mảng

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19. Đôi khi, hành vi này là những gì bạn muốn, nhưng trong một số trường hợp, bạn sẽ muốn các đại lượng này được tính toán cho mỗi hàng hoặc cột của mảng 2D của bạn.

Các chức năng và phương thức mà bạn đã sử dụng cho đến nay có một tham số tùy chọn được gọi là

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20, điều này rất cần thiết để xử lý dữ liệu 2D.
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20 có thể đảm nhận bất kỳ giá trị nào sau đây:
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20
, which is essential for handling 2D data.
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20 can take on any of the following values:

  • >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    22 cho biết tính toán số liệu thống kê trên tất cả các dữ liệu trong mảng. Các ví dụ trên hoạt động như thế này. Hành vi này thường là mặc định trong Numpy.
    says to calculate the statistics across all data in the array. The examples above work like this. This behavior is often the default in NumPy.
  • >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    23 cho biết để tính toán các số liệu thống kê trên tất cả các hàng, nghĩa là cho mỗi cột của mảng. Hành vi này thường là mặc định cho các chức năng thống kê SCIPY.
    says to calculate the statistics across all rows, that is, for each column of the array. This behavior is often the default for SciPy statistical functions.
  • >>> mean_ = statistics.mean[x_with_nan]
    >>> mean_
    nan
    >>> mean_ = statistics.fmean[x_with_nan]
    >>> mean_
    nan
    
    24 cho biết để tính toán số liệu thống kê trên tất cả các cột, nghĩa là, cho mỗi hàng của mảng.
    says to calculate the statistics across all columns, that is, for each row of the array.

Hãy cùng xem

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
23 hoạt động với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

63:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
1

Hai câu trên trả về các mảng numpy mới với giá trị trung bình cho mỗi cột của

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19. Trong ví dụ này, giá trị trung bình của cột đầu tiên là
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
28. Cột thứ hai có giá trị trung bình
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
29, trong khi thứ ba có
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
30.

Nếu bạn cung cấp

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
24 cho
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

51, thì bạn sẽ nhận được kết quả cho mỗi hàng:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
2

Như bạn có thể thấy, hàng đầu tiên của

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19 có giá trị trung bình
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
02,
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
35 thứ hai, v.v.

Tham số

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20 hoạt động theo cùng một cách với các hàm và phương thức Numpy khác:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
3

Bạn đã có các biến thể trung bình và mẫu cho tất cả các cột [

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
23] và các hàng [
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
24] của mảng
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19.

Điều này rất giống nhau khi bạn làm việc với các chức năng thống kê SCIPY. Nhưng hãy nhớ rằng trong trường hợp này, giá trị mặc định cho

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20 là
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
4

Nếu bạn bỏ qua

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20 hoặc cung cấp
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
23, thì bạn sẽ nhận được kết quả trên tất cả các hàng, nghĩa là cho mỗi cột. Ví dụ, cột đầu tiên của
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19 có giá trị trung bình hình học là
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
45, v.v.

Nếu bạn chỉ định

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
24, thì bạn sẽ nhận được các tính toán trên tất cả các cột, đó là cho mỗi hàng:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
5

Trong ví dụ này, giá trị trung bình hình học của hàng đầu tiên của

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19 là
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
02. Đối với hàng thứ hai, nó có khoảng
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
49, v.v.

Nếu bạn muốn thống kê cho toàn bộ tập dữ liệu, thì bạn phải cung cấp

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
22:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
6

Giá trị trung bình hình học của tất cả các mục trong mảng

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19 là xấp xỉ
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
52.

Bạn có thể nhận được một bản tóm tắt số liệu thống kê Python với một cuộc gọi chức năng duy nhất cho dữ liệu 2D với scipy.stats.describe []. Nó hoạt động tương tự như các mảng 1D, nhưng bạn phải cẩn thận với tham số

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
20:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
7

Khi bạn cung cấp

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
22, bạn sẽ nhận được tóm tắt trên tất cả các dữ liệu. Hầu hết các kết quả là vô hướng. Nếu bạn đặt
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
23 hoặc bỏ qua nó, thì giá trị trả về là bản tóm tắt cho mỗi cột. Vì vậy, hầu hết các kết quả là các mảng có cùng số lượng mục với số lượng cột. Nếu bạn đặt
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
24, thì
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
36 sẽ trả về bản tóm tắt cho tất cả các hàng.

Bạn có thể nhận được một giá trị cụ thể từ bản tóm tắt với ký hiệu DOT:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
8

Đó là cách mà bạn có thể thấy một bản tóm tắt thống kê cho một mảng 2D với một cuộc gọi chức năng duy nhất.

DataFrames

Lớp

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 là một trong những loại dữ liệu gấu trúc cơ bản. Nó rất thoải mái khi làm việc vì nó có nhãn cho các hàng và cột. Sử dụng mảng
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
19 và tạo
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15:

>>>

>>> np.mean[y_with_nan]
nan
>>> y_with_nan.mean[]
nan
9

Trong thực tế, tên của các cột có vấn đề và nên được mô tả. Tên của các hàng đôi khi được chỉ định tự động là

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99,
>>> mean_ = sum[x] / len[x]
>>> mean_
8.7
18, v.v. Bạn có thể chỉ định chúng một cách rõ ràng với tham số
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
63, mặc dù bạn có thể tự do bỏ qua
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
63 nếu bạn muốn.

Các phương thức

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 rất giống với các phương thức
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14, mặc dù hành vi này là khác nhau. Nếu bạn gọi các phương thức thống kê Python mà không có đối số, thì
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 sẽ trả về kết quả cho mỗi cột:

>>>

>>> np.nanmean[y_with_nan]
8.7
0

Những gì bạn nhận được là một

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 mới giữ kết quả. Trong trường hợp này,
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 giữ giá trị trung bình và phương sai cho mỗi cột. Nếu bạn muốn kết quả cho mỗi hàng, thì chỉ cần chỉ định tham số
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
24:

>>>

>>> np.nanmean[y_with_nan]
8.7
1

Kết quả là

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 với số lượng mong muốn cho mỗi hàng. Các nhãn
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
72,
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
73, và như vậy đề cập đến các hàng khác nhau.

Bạn có thể cô lập từng cột của một

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 như thế này:

>>>

>>> np.nanmean[y_with_nan]
8.7
2

Bây giờ, bạn có cột

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
75 dưới dạng đối tượng
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 và bạn có thể áp dụng các phương pháp thích hợp:

>>>

>>> np.nanmean[y_with_nan]
8.7
3

Đó là cách mà bạn có thể có được số liệu thống kê cho một cột duy nhất.

Đôi khi, bạn có thể muốn sử dụng

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 như một mảng numpy và áp dụng một số chức năng cho nó. Nó có thể lấy tất cả dữ liệu từ
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 với
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

21 hoặc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

22:

>>>

>>> np.nanmean[y_with_nan]
8.7
4

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
81 và
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
82 Cung cấp cho bạn một mảng numpy với tất cả các mục từ
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 mà không có nhãn hàng và cột. Lưu ý rằng
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
82 linh hoạt hơn vì bạn có thể chỉ định loại dữ liệu của các mục và liệu bạn có muốn sử dụng dữ liệu hiện có hay sao chép nó không.

Giống như

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14, các đối tượng
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 có phương thức
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
44 trả về một
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 khác với bản tóm tắt thống kê cho tất cả các cột:

>>>

>>> np.nanmean[y_with_nan]
8.7
5

Tóm tắt chứa các kết quả sau:

  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    46: Số lượng mục trong mỗi cột
    the number of items in each column
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    39: giá trị trung bình của mỗi cột
    the mean of each column
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    48: Độ lệch chuẩn
    the standard deviation
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    49 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    50: Giá trị tối thiểu và tối đa
    the minimum and maximum values
  • >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    51,
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    52 và
    >>> mean_ = statistics.mean[x]
    >>> mean_
    8.7
    >>> mean_ = statistics.fmean[x]
    >>> mean_
    8.7
    
    53: phần trăm
    the percentiles

Nếu bạn muốn đối tượng

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

15 kết quả chứa các phần trăm khác, thì bạn nên chỉ định giá trị của tham số tùy chọn
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
55.

Bạn có thể truy cập từng mục của bản tóm tắt như thế này:

>>>

>>> np.nanmean[y_with_nan]
8.7
6

Đó là cách mà bạn có thể nhận được số liệu thống kê python mô tả trong một đối tượng

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

14 với một cuộc gọi phương thức gấu trúc duy nhất.

Trực quan hóa dữ liệu

Ngoài việc tính toán các đại lượng số như giá trị trung bình, trung bình hoặc phương sai, bạn có thể sử dụng các phương thức trực quan để trình bày, mô tả và tóm tắt dữ liệu. Trong phần này, bạn sẽ học cách trình bày dữ liệu của mình một cách trực quan bằng các biểu đồ sau:

  • Ô hộp
  • Biểu đồ
  • Biểu đồ hình tròn
  • Biểu đồ thanh
  • X-y âm mưu
  • Bản đồ nhiệt

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 là một thư viện rất thuận tiện và được sử dụng rộng rãi, mặc dù nó không phải là thư viện Python duy nhất có sẵn cho mục đích này. Bạn có thể nhập nó như thế này:

>>>

>>> np.nanmean[y_with_nan]
8.7
7

Bây giờ, bạn đã nhập

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

31 và sẵn sàng để sử dụng. Tuyên bố thứ hai đặt phong cách cho các ô của bạn bằng cách chọn màu sắc, chiều rộng dòng và các yếu tố phong cách khác. Bạn có thể tự do bỏ qua những điều này nếu bạn hài lòng với các cài đặt kiểu mặc định.

Bạn sẽ sử dụng các số giả ngẫu nhiên để có được dữ liệu hoạt động. Bạn không cần kiến ​​thức về các số ngẫu nhiên để có thể hiểu phần này. Bạn chỉ cần một số số tùy ý và các trình tạo giả ngẫu nhiên là một công cụ thuận tiện để có được chúng. Mô-đun

>>> mean_ = np.mean[y]
>>> mean_
8.7
02 tạo ra các mảng của các số giả ngẫu nhiên:

  • Các số phân phối thông thường được tạo bằng
    >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    03.
  • Các số nguyên phân phối đồng đều được tạo ra với
    >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    04.

Numpy 1.17 đã giới thiệu một mô-đun khác cho việc tạo số giả ngẫu nhiên. Để tìm hiểu thêm về nó, hãy kiểm tra tài liệu chính thức.

Ô hộp

Biểu đồ hộp là một công cụ tuyệt vời để thể hiện trực quan số liệu thống kê mô tả của một bộ dữ liệu nhất định. Nó có thể hiển thị phạm vi, phạm vi liên vùng, trung bình, chế độ, ngoại lệ và tất cả các bộ tứ. Đầu tiên, hãy tạo một số dữ liệu để biểu thị bằng một ô hộp:box plot is an excellent tool to visually represent descriptive statistics of a given dataset. It can show the range, interquartile range, median, mode, outliers, and all quartiles. First, create some data to represent with a box plot:

>>>

>>> np.nanmean[y_with_nan]
8.7
8

Câu lệnh đầu tiên đặt hạt giống của Trình tạo số ngẫu nhiên Numpy với

>>> mean_ = np.mean[y]
>>> mean_
8.7
05, do đó bạn có thể nhận được kết quả tương tự mỗi khi bạn chạy mã. Bạn không phải đặt hạt giống, nhưng nếu bạn không chỉ định giá trị này, thì bạn sẽ nhận được kết quả khác nhau mỗi lần.

Các tuyên bố khác tạo ra ba mảng numpy với các số giả ngẫu nhiên phân phối bình thường.

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 đề cập đến mảng với 1000 mục,
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 có 100 và
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

45 chứa 10 mục. Bây giờ bạn có dữ liệu để làm việc, bạn có thể áp dụng
>>> mean_ = np.mean[y]
>>> mean_
8.7
09 để lấy biểu đồ hộp:

>>> np.nanmean[y_with_nan]
8.7
9

Các tham số của

>>> mean_ = np.mean[y]
>>> mean_
8.7
09 Xác định như sau:

  • >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    32 là dữ liệu của bạn.
    is your data.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    12 Đặt hướng cốt truyện thành ngang khi
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    79. Định hướng mặc định là dọc.
    sets the plot orientation to horizontal when
    >>> mean_ = sum[x] / len[x]
    >>> mean_
    8.7
    
    79. The default orientation is vertical.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    14 hiển thị giá trị trung bình của dữ liệu của bạn khi
    >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    15.
    shows the mean of your data when
    >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    15.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    16 đại diện cho giá trị trung bình như một dòng khi
    >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    15. Đại diện mặc định là một điểm.
    represents the mean as a line when
    >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    15. The default representation is a point.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    18: Nhãn dữ liệu của bạn.
    the labels of your data.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    19 Xác định cách vẽ đồ thị.
    determines how to draw the graph.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    20 biểu thị các thuộc tính của dòng đại diện cho trung vị.
    denotes the properties of the line representing the median.
  • >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    21 chỉ ra các thuộc tính của dòng hoặc dấu chấm biểu thị giá trị trung bình.
    indicates the properties of the line or dot representing the mean.

Có các thông số khác, nhưng phân tích của họ nằm ngoài phạm vi của hướng dẫn này.

Mã trên tạo ra một hình ảnh như thế này:

Bạn có thể thấy ba lô hộp. Mỗi trong số chúng tương ứng với một bộ dữ liệu duy nhất [

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32,
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 hoặc
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

45] và hiển thị như sau:

  • Giá trị trung bình là đường đứt nét màu đỏ. is the red dashed line.
  • Các trung vị là đường màu tím. is the purple line.
  • Bộ tứ đầu tiên là cạnh trái của hình chữ nhật màu xanh. is the left edge of the blue rectangle.
  • Bộ tứ thứ ba là cạnh phải của hình chữ nhật màu xanh. is the right edge of the blue rectangle.
  • Phạm vi liên vùng là chiều dài của hình chữ nhật màu xanh. is the length of the blue rectangle.
  • Phạm vi chứa mọi thứ từ trái sang phải. contains everything from left to right.
  • Các ngoại lệ là các chấm bên trái và bên phải. are the dots to the left and right.

Một lô hộp có thể hiển thị rất nhiều thông tin trong một con số duy nhất!

Biểu đồ

Biểu đồ đặc biệt hữu ích khi có một số lượng lớn các giá trị duy nhất trong bộ dữ liệu. Biểu đồ chia các giá trị từ một bộ dữ liệu được sắp xếp thành các khoảng, còn được gọi là thùng. Thông thường, tất cả các thùng có chiều rộng bằng nhau, mặc dù điều này không phải là trường hợp. Các giá trị của giới hạn dưới và trên của thùng được gọi là các cạnh thùng.bins. Often, all bins are of equal width, though this doesn’t have to be the case. The values of the lower and upper bounds of a bin are called the bin edges.

Tần số là một giá trị đơn tương ứng với mỗi thùng. Nó có số lượng các phần tử của bộ dữ liệu với các giá trị giữa các cạnh của thùng. Theo quy ước, tất cả các thùng nhưng cái ngoài cùng bên phải là nửa mở. Chúng bao gồm các giá trị bằng với giới hạn dưới, nhưng loại trừ các giá trị bằng với giới hạn trên. Thùng ngoài cùng bên phải được đóng lại vì nó bao gồm cả hai giới hạn. Nếu bạn chia một bộ dữ liệu với các cạnh bin 0, 5, 10 và 15, thì có ba thùng:frequency is a single value that corresponds to each bin. It’s the number of elements of the dataset with the values between the edges of the bin. By convention, all bins but the rightmost one are half-open. They include the values equal to the lower bounds, but exclude the values equal to the upper bounds. The rightmost bin is closed because it includes both bounds. If you divide a dataset with the bin edges 0, 5, 10, and 15, then there are three bins:

  1. Thùng đầu tiên và bên trái chứa các giá trị lớn hơn hoặc bằng 0 và nhỏ hơn 5. contains the values greater than or equal to 0 and less than 5.
  2. Thùng thứ hai chứa các giá trị lớn hơn hoặc bằng 5 và nhỏ hơn 10. contains the values greater than or equal to 5 and less than 10.
  3. Thùng thứ ba và ngoài cùng bên phải chứa các giá trị lớn hơn hoặc bằng 10 và nhỏ hơn hoặc bằng 15. contains the values greater than or equal to 10 and less than or equal to 15.

Hàm

>>> mean_ = np.mean[y]
>>> mean_
8.7
25 là một cách thuận tiện để lấy dữ liệu cho biểu đồ:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

00

Nó lấy mảng với dữ liệu của bạn và số [hoặc cạnh] của thùng và trả về hai mảng numpy:

  1. >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    26 chứa tần số hoặc số lượng vật phẩm tương ứng với mỗi thùng.
    contains the frequency or the number of items corresponding to each bin.
  2. >>> mean_ = np.mean[y]
    >>> mean_
    8.7
    
    27 chứa các cạnh hoặc giới hạn của thùng.
    contains the edges or bounds of the bin.

Những gì

>>> mean_ = np.mean[y]
>>> mean_
8.7
28 tính toán,
>>> mean_ = np.mean[y]
>>> mean_
8.7
29 có thể hiển thị bằng đồ họa:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

01

Đối số đầu tiên của

>>> mean_ = np.mean[y]
>>> mean_
8.7
29 là trình tự với dữ liệu của bạn. Đối số thứ hai xác định các cạnh của các thùng. Thứ ba vô hiệu hóa tùy chọn để tạo biểu đồ với các giá trị tích lũy. Mã trên tạo ra một con số như thế này:

Bạn có thể thấy các cạnh thùng trên trục ngang và tần số trên trục dọc.

Nó có thể nhận được biểu đồ với các số mục tích lũy nếu bạn cung cấp đối số

>>> mean_ = np.mean[y]
>>> mean_
8.7
31 đến
>>> mean_ = np.mean[y]
>>> mean_
8.7
29:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

02

Mã này mang lại con số sau:

Nó cho thấy biểu đồ với các giá trị tích lũy. Tần số của thùng đầu tiên và bên trái ngoài cùng là số lượng vật phẩm trong thùng này. Tần số của thùng thứ hai là tổng số các mục trong thùng thứ nhất và thứ hai. Các thùng khác theo mô hình tương tự này. Cuối cùng, tần số của thùng cuối cùng và ngoài cùng bên phải là tổng số mục trong bộ dữ liệu [trong trường hợp này là 1000]. Bạn cũng có thể vẽ trực tiếp một biểu đồ với

>>> mean_ = np.mean[y]
>>> mean_
8.7
33 bằng cách sử dụng
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

28 trong nền.

Biểu đồ hình tròn

Biểu đồ hình tròn đại diện cho dữ liệu với một số lượng nhỏ nhãn và tần số tương đối. Chúng hoạt động tốt ngay cả với các nhãn có thể được đặt hàng [như dữ liệu danh nghĩa]. Một biểu đồ hình tròn là một vòng tròn được chia thành nhiều lát. Mỗi lát tương ứng với một nhãn riêng biệt từ bộ dữ liệu và có một diện tích tỷ lệ với tần số tương đối được liên kết với nhãn đó. represent data with a small number of labels and given relative frequencies. They work well even with the labels that can’t be ordered [like nominal data]. A pie chart is a circle divided into multiple slices. Each slice corresponds to a single distinct label from the dataset and has an area proportional to the relative frequency associated with that label.

Hãy để xác định dữ liệu được liên kết với ba nhãn:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

03

Nó lấy mảng với dữ liệu của bạn và số [hoặc cạnh] của thùng và trả về hai mảng numpy:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

04

>>> mean_ = np.mean[y]
>>> mean_
8.7
26 chứa tần số hoặc số lượng vật phẩm tương ứng với mỗi thùng.

>>> mean_ = np.mean[y]
>>> mean_
8.7
27 chứa các cạnh hoặc giới hạn của thùng.

Những gì
>>> mean_ = np.mean[y]
>>> mean_
8.7
28 tính toán,
>>> mean_ = np.mean[y]
>>> mean_
8.7
29 có thể hiển thị bằng đồ họa:

Đối số đầu tiên của

>>> mean_ = np.mean[y]
>>> mean_
8.7
29 là trình tự với dữ liệu của bạn. Đối số thứ hai xác định các cạnh của các thùng. Thứ ba vô hiệu hóa tùy chọn để tạo biểu đồ với các giá trị tích lũy. Mã trên tạo ra một con số như thế này: also illustrate data that correspond to given labels or discrete numeric values. They can show the pairs of data from two datasets. Items of one set are the labels, while the corresponding items of the other are their frequencies. Optionally, they can show the errors related to the frequencies, as well.

Bạn có thể thấy các cạnh thùng trên trục ngang và tần số trên trục dọc.bars. Each bar corresponds to a single label and has a height proportional to the frequency or relative frequency of its label. Let’s generate three datasets, each with 21 items:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

05

Bạn sử dụng

>>> mean_ = np.mean[y]
>>> mean_
8.7
41 để nhận
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 hoặc mảng số nguyên liên tiếp từ
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99 đến
>>> mean_ = np.mean[y]
>>> mean_
8.7
44. Bạn sẽ sử dụng điều này để đại diện cho các nhãn.
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 là một loạt các số nguyên ngẫu nhiên được phân phối đồng đều, cũng giữa
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

99 và
>>> mean_ = np.mean[y]
>>> mean_
8.7
44. Mảng này sẽ đại diện cho các tần số.
>>> mean_ = np.mean[y]
>>> mean_
8.7
48 chứa các số điểm nổi được phân phối bình thường, là các lỗi. Những giá trị này là tùy chọn.

Bạn có thể tạo biểu đồ thanh với

>>> mean_ = np.mean[y]
>>> mean_
8.7
49 nếu bạn muốn thanh dọc hoặc
>>> mean_ = np.mean[y]
>>> mean_
8.7
50 nếu bạn thích các thanh ngang:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

06

Mã này sẽ tạo ra hình sau:

Độ cao của các thanh màu đỏ tương ứng với tần số

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42, trong khi độ dài của các đường màu đen cho thấy các lỗi
>>> mean_ = np.mean[y]
>>> mean_
8.7
48. Nếu bạn không muốn bao gồm các lỗi, thì hãy bỏ qua tham số
>>> mean_ = np.mean[y]
>>> mean_
8.7
53 của
>>> mean_ = np.mean[y]
>>> mean_
8.7
49.

X-y âm mưu

Biểu đồ X-Y hoặc biểu đồ phân tán đại diện cho các cặp dữ liệu từ hai bộ dữ liệu. Trục X ngang hiển thị các giá trị từ tập

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32, trong khi trục y dọc hiển thị các giá trị tương ứng từ tập
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42. Bạn có thể tùy chọn bao gồm đường hồi quy và hệ số tương quan. Hãy để tạo ra hai bộ dữ liệu và thực hiện hồi quy tuyến tính với
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
06:x-y plot or scatter plot represents the pairs of data from two datasets. The horizontal x-axis shows the values from the set
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32, while the vertical y-axis shows the corresponding values from the set
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42. You can optionally include the regression line and the correlation coefficient. Let’s generate two datasets and perform linear regression with
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
06:

>>>

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

07

Bộ dữ liệu

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 một lần nữa là mảng với các số nguyên từ 0 đến 20.
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

42 được tính như một hàm tuyến tính của
>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

32 bị biến dạng với một số nhiễu ngẫu nhiên.

>>> mean_ = np.mean[y]
>>> mean_
8.7
61 trả về một số giá trị. Bạn sẽ cần
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
10 và
>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
11 của dòng hồi quy, cũng như hệ số tương quan
>>> mean_ = statistics.mean[x]
>>> mean_
8.7
>>> mean_ = statistics.fmean[x]
>>> mean_
8.7
91. Sau đó, bạn có thể áp dụng
>>> mean_ = np.mean[y]
>>> mean_
8.7
65 để lấy biểu đồ X-Y:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

08

Kết quả của mã trên là hình này:

Bạn có thể xem các điểm dữ liệu [các cặp X-Y] là hình vuông màu đỏ, cũng như đường hồi quy màu xanh.

Bản đồ nhiệt

Một bản đồ nhiệt có thể được sử dụng để hiển thị trực quan một ma trận. Các màu đại diện cho các số hoặc phần tử của ma trận. Các bản đồ nhiệt đặc biệt hữu ích để minh họa các ma trận hiệp phương sai và tương quan. Bạn có thể tạo bản đồ nhiệt cho một ma trận hiệp phương sai với

>>> mean_ = np.mean[y]
>>> mean_
8.7
66:heatmap can be used to visually show a matrix. The colors represent the numbers or elements of the matrix. Heatmaps are particularly useful for illustrating the covariance and correlation matrices. You can create the heatmap for a covariance matrix with
>>> mean_ = np.mean[y]
>>> mean_
8.7
66:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

09

Ở đây, bản đồ nhiệt chứa các nhãn

>>> mean_ = np.mean[y]
>>> mean_
8.7
67 và
>>> mean_ = np.mean[y]
>>> mean_
8.7
68 cũng như các số từ ma trận hiệp phương sai. Bạn sẽ nhận được một con số như thế này:

Trường màu vàng đại diện cho phần tử lớn nhất từ ​​ma trận

>>> mean_ = np.mean[y]
>>> mean_
8.7
69, trong khi phần màu tím tương ứng với phần tử nhỏ nhất
>>> mean_ = np.mean[y]
>>> mean_
8.7
70. Các hình vuông màu xanh ở giữa được liên kết với giá trị
>>> mean_ = np.mean[y]
>>> mean_
8.7
71.

Bạn có thể có được bản đồ nhiệt cho ma trận hệ số tương quan theo cùng một logic:

>>> x = [8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
>>> x
[8.0, 1, 2.5, 4, 28.0]
>>> x_with_nan
[8.0, 1, 2.5, nan, 4, 28.0]

10

Kết quả là hình dưới đây:

Màu vàng đại diện cho giá trị

>>> mean_ = statistics.mean[x_with_nan]
>>> mean_
nan
>>> mean_ = statistics.fmean[x_with_nan]
>>> mean_
nan
02 và màu tím hiển thị
>>> mean_ = np.mean[y]
>>> mean_
8.7
73.

Sự kết luận

Bây giờ bạn biết các số lượng mô tả và tóm tắt các bộ dữ liệu và cách tính chúng trong Python. Nó có thể có được số liệu thống kê mô tả với mã Python thuần túy, nhưng điều đó hiếm khi cần thiết. Thông thường, bạn sẽ sử dụng một số thư viện được tạo đặc biệt cho mục đích này:descriptive statistics with pure Python code, but that’s rarely necessary. Usually, you’ll use some of the libraries created especially for this purpose:

  • Sử dụng Python sườn
    >>> x = [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]
    >>> x
    [8.0, 1, 2.5, 4, 28.0]
    >>> x_with_nan
    [8.0, 1, 2.5, nan, 4, 28.0]
    
    
    11 cho các chức năng thống kê Python quan trọng nhất.
    for the most important Python statistics functions.
  • Sử dụng Numpy để xử lý các mảng một cách hiệu quả. to handle arrays efficiently.
  • Sử dụng SCIPY cho các thói quen thống kê Python bổ sung cho các mảng numpy. for additional Python statistics routines for NumPy arrays.
  • Sử dụng gấu trúc để làm việc với các bộ dữ liệu được dán nhãn. to work with labeled datasets.
  • Sử dụng matplotlib để trực quan hóa dữ liệu với sơ đồ, biểu đồ và biểu đồ. to visualize data with plots, charts, and histograms.

Trong kỷ nguyên của dữ liệu lớn và trí tuệ nhân tạo, bạn phải biết cách tính toán các biện pháp thống kê mô tả. Bây giờ bạn đã sẵn sàng để đi sâu hơn vào thế giới của khoa học dữ liệu và học máy! Nếu bạn có câu hỏi hoặc nhận xét, sau đó xin vui lòng đặt chúng vào phần bình luận bên dưới.

Python được sử dụng như thế nào để phân tích thống kê?

Thống kê của Python là một thư viện Python tích hợp cho các số liệu thống kê mô tả.Bạn có thể sử dụng nó nếu bộ dữ liệu của bạn không quá lớn hoặc nếu bạn không thể dựa vào việc nhập các thư viện khác.Numpy là một thư viện của bên thứ ba để tính toán số, được tối ưu hóa để làm việc với các mảng đơn và đa chiều.. You can use it if your datasets are not too large or if you can't rely on importing other libraries. NumPy is a third-party library for numerical computing, optimized for working with single- and multi-dimensional arrays.

Những loại phân tích có thể được thực hiện bởi Python?

Bạn có thể sử dụng mã Python cho nhiều tác vụ khác nhau, nhưng ba ứng dụng phổ biến bao gồm: Khoa học dữ liệu và phân tích dữ liệu.Phát triển ứng dụng web.Tự động hóa/kịch bản.Data science and data analysis. Web application development. Automation/scripting.

Công cụ nào được sử dụng để phân tích dữ liệu trong Python?

R và Python đều là các công cụ phân tích dữ liệu cần được lập trình.Sự khác biệt là R được sử dụng độc quyền trong lĩnh vực phân tích dữ liệu, trong khi điện toán khoa học và phân tích dữ liệu chỉ là một nhánh ứng dụng của Python. are both data analysis tools that need to be programmed. The difference is that R is used exclusively in the field of data analysis, while scientific computing and data analysis are just an application branch of Python.

Các công cụ thống kê khác nhau được sử dụng trong Python là gì?

Môi trường Python khoa học tiêu chuẩn [Numpy, Scipy, Matplotlib].
Pandas..
Statsmodels..
Seaborn..

Bài Viết Liên Quan

Chủ Đề