Hướng dẫn calculate z-score python pandas - tính z-score pandas python


Trong các số liệu thống kê, a & nbsp; z-score & nbsp; cho chúng ta biết có bao nhiêu độ lệch chuẩn là một giá trị từ giá trị trung bình. Chúng tôi sử dụng công thức sau để tính toán điểm Z:z-score tells us how many standard deviations away a value is from the mean. We use the following formula to calculate a z-score:z-score tells us how many standard deviations away a value is from the mean. We use the following formula to calculate a z-score:

z & nbsp; = (x - & nbsp; μ) / σ = (X – μ) / σ = (X – μ) / σ

where:

  • X là một giá trị dữ liệu thô duy nhất
  • μ là trung bình dân số
  • σ là độ lệch chuẩn dân số

Hướng dẫn này giải thích cách tính toán điểm Z cho các giá trị dữ liệu thô trong Python.

Cách tính điểm Z trong Python

Chúng ta có thể tính toán các điểm z trong Python bằng & nbsp; scipy.stats.zscore, sử dụng cú pháp sau:scipy.stats.zscore, which uses the following syntax:scipy.stats.zscore, which uses the following syntax:

scipy.stats.zscore (a, trục = 0, ddof = 0, nan_policy = Hồi tuyên truyền)

where:

  • A: Một mảng giống như đối tượng chứa dữ liệu: an array like object containing data: an array like object containing data
  • Trục: trục dọc theo đó để tính toán các điểm z. Mặc định là 0.: the axis along which to calculate the z-scores. Default is 0.: the axis along which to calculate the z-scores. Default is 0.
  • DDOF: Mức độ điều chỉnh tự do trong tính toán độ lệch chuẩn. Mặc định là 0.: degrees of freedom correction in the calculation of the standard deviation. Default is 0.: degrees of freedom correction in the calculation of the standard deviation. Default is 0.
  • NAN_POLICY: Cách xử lý khi đầu vào chứa NAN. Mặc định là tuyên truyền, trả về NAN. Nâng cao, ném một lỗi và ‘OMIT, thực hiện các tính toán bỏ qua các giá trị NAN.: how to handle when input contains nan. Default is propagate, which returns nan. ‘raise’ throws an error and ‘omit’ performs calculations ignoring nan values.: how to handle when input contains nan. Default is propagate, which returns nan. ‘raise’ throws an error and ‘omit’ performs calculations ignoring nan values.

Các ví dụ sau đây minh họa cách sử dụng chức năng này để tính toán điểm z cho các mảng numpy một chiều, mảng numpy đa chiều và các khung dữ liệu gấu trúc.

Mảng một chiều numpy

Bước 1: Nhập các mô -đun.

import pandas as pd
import numpy as np
import scipy.stats as stats

Bước 2: Tạo một mảng các giá trị.

data = np.array([6, 7, 7, 12, 13, 13, 15, 16, 19, 22])

Bước 3: Tính toán điểm z cho mỗi giá trị trong mảng.

stats.zscore(data)

[-1.394, -1.195, -1.195, -0.199, 0, 0, 0.398, 0.598, 1.195, 1.793]

Mỗi điểm Z cho chúng ta biết có bao nhiêu độ lệch chuẩn một giá trị riêng lẻ từ giá trị trung bình. Ví dụ:

  • Giá trị đầu tiên của nhóm 6 6 trong mảng là & nbsp; 1.394 & nbsp; độ lệch chuẩn & nbsp; bên dưới & nbsp; giá trị trung bình.1.394 standard deviations below the mean.1.394 standard deviations below the mean.
  • Giá trị thứ năm của 13 13 trong mảng là & nbsp; 0 & nbsp; độ lệch chuẩn so với giá trị trung bình, tức là nó bằng với giá trị trung bình.0 standard deviations away from the mean, i.e. it is equal to the mean.standard deviations away from the mean, i.e. it is equal to the mean.
  • Giá trị cuối cùng của Hồi 22 22 trong mảng là & nbsp; 1.793 & nbsp; độ lệch chuẩn & nbsp; ở trên & nbsp; giá trị trung bình.1.793 standard deviations above the mean.1.793 standard deviations above the mean.

Mảng đa chiều numpy

Nếu chúng ta có một mảng đa chiều, chúng ta có thể sử dụng tham số & nbsp; trục & nbsp; để chỉ định rằng chúng ta muốn tính toán từng điểm z so với mảng riêng của nó. Ví dụ: giả sử chúng ta có mảng đa chiều sau:axis parameter to specify that we want to calculate each z-score relative to its own array. For example, suppose we have the following multi-dimensional array:axis parameter to specify that we want to calculate each z-score relative to its own array. For example, suppose we have the following multi-dimensional array:

data = np.array([[5, 6, 7, 7, 8],
                 [8, 8, 8, 9, 9],
                 [2, 2, 4, 4, 5]])

Chúng ta có thể sử dụng cú pháp sau để tính toán điểm z cho mỗi mảng:

stats.zscore(data, axis=1)

[[-1.569 -0.588 0.392 0.392 1.373]
[-0.816 -0.816 -0.816 1.225 1.225]
[-1.167 -1.167 0.5 0.5 1.333]]

Các điểm z cho mỗi giá trị riêng lẻ được hiển thị liên quan đến mảng mà chúng ở. Ví dụ:

  • Giá trị đầu tiên của 5 5 trong mảng đầu tiên là & nbsp; 1.159 & nbsp; độ lệch chuẩn & nbsp; bên dưới & nbsp; giá trị trung bình của mảng của nó.1.159 standard deviations below the mean of its array.1.159 standard deviations below the mean of its array.
  • Giá trị đầu tiên của 8 8 8 trong mảng thứ hai là & nbsp; .816 & nbsp; độ lệch chuẩn & nbsp; bên dưới & nbsp; giá trị trung bình của mảng của nó..816 standard deviations below the mean of its array..816 standard deviations below the mean of its array.
  • Giá trị đầu tiên của 2 2 2 trong mảng thứ ba là & nbsp; 1.167 & nbsp; độ lệch chuẩn & nbsp; bên dưới & nbsp; giá trị trung bình của mảng của nó.1.167 standard deviations below the mean of its array.1.167 standard deviations below the mean of its array.

GANDAS DATAFRAME

Giả sử chúng ta thay vào đó có một DataFrame Pandas:

data = pd.DataFrame(np.random.randint(0, 10, size=(5, 3)), columns=['A', 'B', 'C'])
data

  A B C
0 8 0 9
1 4 0 7
2 9 6 8
3 1 8 1
4 8 0 8

Chúng ta có thể sử dụng chức năng áp dụng & nbsp;apply function to calculate the z-score of individual values by column:apply function to calculate the z-score of individual values by column:

data.apply(stats.zscore)

          A         B         C
0  0.659380 -0.802955  0.836080
1 -0.659380 -0.802955  0.139347
2  0.989071  0.917663  0.487713
3 -1.648451  1.491202 -1.950852
4  0.659380 -0.802955  0.487713

Các điểm z cho mỗi giá trị riêng lẻ được hiển thị liên quan đến cột mà chúng ở. Ví dụ:

  • Giá trị đầu tiên của 8 8 8 trong cột đầu tiên là & NBSP; 0,659 Độ lệch chuẩn trên giá trị trung bình của cột của nó.0.659 standard deviations above the mean value of its column.0.659 standard deviations above the mean value of its column.
  • Giá trị đầu tiên của số 0 0 trong cột thứ hai là .803 & nbsp; độ lệch chuẩn dưới giá trị trung bình của cột của nó..803 standard deviations below the mean value of its column..803 standard deviations below the mean value of its column.
  • Giá trị đầu tiên của 9 9 9 trong cột thứ ba là .836 & nbsp; độ lệch chuẩn trên giá trị trung bình của cột của nó..836 standard deviations above the mean value of its column..836 standard deviations above the mean value of its column.

Tài nguyên bổ sung:

Cách tính toán điểm z trong Excel Cách tính toán điểm Z trong SPSS Cách tính toán điểm Z trên máy tính Ti-84 How to Calculate Z-Scores in SPSS How to Calculate Z-Scores on a TI-84 Calculator
How to Calculate Z-Scores in SPSS
How to Calculate Z-Scores on a TI-84 Calculator