Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python


Độ lệch chuẩn cho biết về cách các giá trị trong bộ dữ liệu được lan truyền. Họ cũng cho biết các giá trị trong bộ dữ liệu trong trung bình số học của các cột trong bộ dữ liệu trong bộ dữ liệu.

Đôi khi, nó có thể được yêu cầu để có được độ lệch chuẩn của một cột cụ thể có tính tự nhiên. Đây là nơi có thể sử dụng hàm std (). Cột có giá trị trung bình cần được tính toán có thể được lập chỉ mục cho DataFrame và hàm trung bình có thể được gọi trên điều này bằng toán tử DOT.

Chỉ số của cột cũng có thể được truyền để tìm độ lệch chuẩn.

Hãy cho chúng tôi thấy một cuộc biểu tình của cùng một -

Thí dụ

& nbsp; bản demo trực tiếp

import pandas as pd
my_data = {'Name':pd.Series(['Tom','Jane','Vin','Eve','Will']),'Age':pd.Series([45, 67, 89, 12, 23]),'value':pd.Series([8.79,23.24,31.98,78.56,90.20])}
print("The dataframe is :")
my_df = pd.DataFrame(my_data)
print(my_df)
print("The standard deviation of column 'Age' is :")
print(my_df['Age'].std())
print("The standard deviation of column 'value' is :")
print(my_df['value'].std())

Đầu ra

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364

Giải trình

  • Các thư viện cần thiết được nhập khẩu và được đặt tên bí danh để dễ sử dụng.

  • Từ điển của chuỗi bao gồm khóa và giá trị được tạo ra, trong đó một giá trị thực sự là một cấu trúc dữ liệu chuỗi.

  • Từ điển này sau đó được chuyển làm tham số cho hàm ‘DataFrame, có trong thư viện‘ Pandas

  • DataFrame được in trên bảng điều khiển.

  • Chúng tôi đang xem xét tính toán độ lệch chuẩn của một cột cụ thể có chứa các giá trị số trong đó.

  • Hàm ‘STD, được gọi trên DataFrame bằng cách chỉ định tên của cột, sử dụng toán tử DOT.

  • Độ lệch chuẩn của cột số được in trên bảng điều khiển.

Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Cập nhật vào ngày 10 tháng 12 năm 2020 13:25:13

  • Câu hỏi và câu trả lời liên quan
  • Python - Tính độ lệch chuẩn của cột trong khung dữ liệu gấu trúc
  • In độ lệch chuẩn của loạt gấu trúc
  • Python Pandas - Truy vấn các cột của DataFrame
  • Viết một chương trình Python để tìm độ lệch tuyệt đối trung bình của các hàng và cột trong một khung dữ liệu
  • Làm thế nào để tìm độ lệch chuẩn hàng của các cột có cùng tên trong ma trận r?
  • Python - Đổi tên các cột của Pandas DataFrame
  • Làm thế nào để tìm độ lệch chuẩn hàng của các cột có cùng tên trong khung dữ liệu r?
  • Làm thế nào để tìm độ lệch chuẩn hàng của các cột có cùng tên trong dữ liệu. Đối tượng có thể sử dụng trong r?
  • Python - Các cột nhóm trong Pandas DataFrame
  • Làm thế nào để có được tổng của một cột cụ thể của một khung dữ liệu trong Pandas Python?
  • Python - Tên cột một cách rõ ràng trong khung dữ liệu gấu trúc
  • Làm thế nào để tìm độ lệch chuẩn cột nếu một số cột được phân loại trong khung dữ liệu r?
  • Làm thế nào để thay đổi thứ tự của các cột DataFrame của Pandas?
  • Làm thế nào để tìm độ lệch chuẩn di chuyển trong ma trận R?
  • Làm thế nào để sắp xếp nhiều cột của một gấu trúc DataFrame?

Thư viện Python Pandas cung cấp một hàm để tính độ lệch chuẩn của tập dữ liệu. Hãy để tìm hiểu làm thế nào.

Hàm PANDAS DATAFRAME STD () cho phép tính độ lệch chuẩn của tập dữ liệu. Độ lệch chuẩn thường được tính toán cho một cột nhất định và nó được chuẩn hóa bởi N-1 theo mặc định. Mức độ tự do của độ lệch chuẩn có thể được thay đổi bằng tham số DDOF.

Trong bài viết này, tôi sẽ đảm bảo lý do tại sao chúng tôi sử dụng độ lệch chuẩn là rõ ràng và sau đó chúng tôi sẽ xem xét cách sử dụng gấu trúc để tính độ lệch chuẩn cho dữ liệu của bạn.

Bắt đầu nào!

  • Độ lệch chuẩn và mối quan hệ trung bình
  • Độ lệch chuẩn của gấu trúc của một khung dữ liệu
  • Tính độ lệch chuẩn của cột DataFrame
  • Độ lệch chuẩn cho nhiều khung dữ liệu
  • Độ lệch chuẩn cho nhiều khung dữ liệu
  • Hệ số biến đổi với gấu trúc
  • Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy
  • Sơ đồ sai lệch tiêu chuẩn với matplotlib
  • Sự kết luận

Độ lệch chuẩn và mối quan hệ trung bình

Độ lệch chuẩn của gấu trúc của một khung dữ liệu

Tính độ lệch chuẩn của cột DataFrame

Độ lệch chuẩn cho nhiều khung dữ liệu

Hệ số biến đổi với gấu trúc

Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy

Sơ đồ sai lệch tiêu chuẩn với matplotlib

Sự kết luận

Độ lệch chuẩn của gấu trúc của một khung dữ liệu

Tính độ lệch chuẩn của cột DataFrame

Độ lệch chuẩn cho nhiều khung dữ liệu

Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Hệ số biến đổi với gấu trúc

import pandas as pd

df = pd.read_csv('AMZN.csv')
print(df)

Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy

Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Sơ đồ sai lệch tiêu chuẩn với matplotlibto_string() function:

print(df.to_string())

Sự kết luận std() function:

>>> print(df.std())
Open         1.077549e+02
High         1.075887e+02
Low          1.097788e+02
Close        1.089106e+02
Adj Close    1.089106e+02
Volume       1.029446e+06
dtype: float64

Tôi đã đọc nhiều bài viết giải thích độ lệch chuẩn với gấu trúc chỉ bằng cách hiển thị cách tính toán nó và các tham số nào sẽ vượt qua.

Tính độ lệch chuẩn của cột DataFrame

Độ lệch chuẩn cho nhiều khung dữ liệu

Hệ số biến đổi với gấu trúc

Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy

Sơ đồ sai lệch tiêu chuẩn với matplotlib

>>> print(df['Close'].std())
108.91061129873428
>>> print(df.std()['Close'])
108.91061129873428

Sự kết luậnmean() function:

>>> print(df['Close'].mean())
3169.820640639344

Tôi đã đọc nhiều bài viết giải thích độ lệch chuẩn với gấu trúc chỉ bằng cách hiển thị cách tính toán nó và các tham số nào sẽ vượt qua.

Nhưng, điều quan trọng nhất là thiếu

import pandas as pd

def get_dataframe_from_csv(filename):
    df = pd.read_csv(filename)
    return df

stock = "AMZN"
df = get_dataframe_from_csv('{}.csv'.format(stock))
print("Stock: {} - Mean: {} - Standard deviation: {}".format(stock, df['Close'].mean(), df['Close'].std()))

Một lời giải thích thực tế về những gì tính toán độ lệch chuẩn của một tập hợp các phương tiện dữ liệu (ví dụ: đối với một cột trong một khung dữ liệu).

  1. Độ lệch chuẩn cho biết bao nhiêu một bộ dữ liệu lệch so với giá trị trung bình của nó. Đó là một thước đo về cách truyền bá một tập hợp dữ liệu nhất định. Càng lan rộng ra độ lệch chuẩn càng cao.
  2. Với độ lệch chuẩn thấp, hầu hết dữ liệu được phân phối xung quanh giá trị trung bình. Mặt khác, độ lệch chuẩn cao cho biết rằng dữ liệu được phân phối trên một phạm vi rộng hơn của các giá trị.

Tại sao chúng ta sử dụng độ lệch chuẩn?

Stock: AMZN - Mean: 3169.820640639344 - Standard deviation: 108.91061129873428

Độ lệch chuẩn cho nhiều khung dữ liệu

Hệ số biến đổi với gấu trúc

Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy

Sơ đồ sai lệch tiêu chuẩn với matplotlib

Sự kết luận

Tôi đã đọc nhiều bài viết giải thích độ lệch chuẩn với gấu trúc chỉ bằng cách hiển thị cách tính toán nó và các tham số nào sẽ vượt qua.

def get_stats(stock):
    df = get_dataframe_from_csv('{}.csv'.format(stock))
    return df['Close'].mean(), df['Close'].std()

Nhưng, điều quan trọng nhất là thiếu

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
0

Một lời giải thích thực tế về những gì tính toán độ lệch chuẩn của một tập hợp các phương tiện dữ liệu (ví dụ: đối với một cột trong một khung dữ liệu).

Độ lệch chuẩn cho biết bao nhiêu một bộ dữ liệu lệch so với giá trị trung bình của nó. Đó là một thước đo về cách truyền bá một tập hợp dữ liệu nhất định. Càng lan rộng ra độ lệch chuẩn càng cao.

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
1

Với độ lệch chuẩn thấp, hầu hết dữ liệu được phân phối xung quanh giá trị trung bình. Mặt khác, độ lệch chuẩn cao cho biết rằng dữ liệu được phân phối trên một phạm vi rộng hơn của các giá trị.

Độ lệch chuẩn cho nhiều khung dữ liệu

Hệ số biến đổi với gấu trúc

Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy

Bạn có thể truy xuất dữ liệu lịch sử ở định dạng CSV cho Google và Facebook từ Yahoo Finance giống như cách chúng tôi đã thực hiện nó trong phần đầu tiên cho Amazon (giai đoạn lịch sử là như nhau).

Bây giờ, chúng tôi chỉ có thể cập nhật mã của mình để sử dụng một vòng lặp đi qua từng cổ phiếu được lưu trữ trong danh sách Python:

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
2

Đó là siêu đơn giản! Không có gì khác thay đổi trong mã của chúng tôi. Và đây là những gì chúng tôi có:

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
3

Bây giờ bạn có thể so sánh ba cổ phiếu bằng cách sử dụng độ lệch chuẩn.

Điều này không cung cấp cho chúng tôi đủ thông tin để hiểu cái nào đã thực hiện tốt nhất nhưng nó là một điểm khởi đầu để phân tích dữ liệu của chúng tôi.

Hệ số biến đổi với gấu trúc

Nhưng, làm thế nào chúng ta có thể so sánh các số liệu thống kê mà chúng ta đã xem xét rằng các giá trị của giá trị trung bình cho ba cổ phiếu rất khác nhau?

Một số liệu thống kê bổ sung có thể giúp chúng tôi so sánh ba cổ phiếu là hệ số biến đổi.

Hệ số biến đổi là tỷ lệ giữa độ lệch chuẩn và giá trị trung bình.

Hãy để thêm nó vào mã của chúng tôi.

Chúng tôi có thể in giá trị của nó dưới dạng tỷ lệ giữa độ lệch chuẩn và giá trị trung bình trực tiếp trong câu lệnh in cuối cùng

Thay vào đó, tôi sẽ tính toán nó bên trong hàm get_stats (). Bằng cách này, tôi có thể tiếp tục mở rộng chức năng này nếu tôi muốn thêm nhiều số liệu hơn trong tương lai.

Chức năng trở thành:

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
4

Sau đó, chúng ta có thể thêm hệ số biến thể vào câu lệnh in:

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
5

Đầu ra cuối cùng là:

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
6

Sự khác biệt giữa gấu trúc và độ lệch chuẩn numpy

Mô -đun Numpy cũng cho phép tính độ lệch chuẩn của tập dữ liệu.

Hãy để tính toán độ lệch chuẩn cho giá đóng cửa Amazon theo cả hai cách để xem liệu có bất kỳ sự khác biệt nào giữa hai cách.

Bạn sẽ mong đợi được thấy cùng một giá trị khi xem xét rằng độ lệch chuẩn nên dựa trên một công thức tiêu chuẩn.

Chúng tôi sẽ sử dụng DataFrame sau:

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
7

Độ lệch chuẩn sử dụng gấu trúc

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
8

Độ lệch chuẩn sử dụng numpy

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The standard deviation of column 'Age' is :
31.499206339207976
The standard deviation of column 'value' is :
35.747101700697364
9

Hai giá trị tương tự nhưng chúng không giống nhau

Khi tôi nhìn vào tài liệu chính thức cho cả hai hàm std (), tôi nhận thấy sự khác biệt.

________ 20 ________ 21 Cập nhật biểu thức Numpy và truyền dưới dạng tham số A DDOF bằng 1.
Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python
import pandas as pd

df = pd.read_csv('AMZN.csv')
print(df)
1
Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Let’s update the NumPy expression and pass as parameter a ddof equal to 1.

import pandas as pd

df = pd.read_csv('AMZN.csv')
print(df)
2

Lần này giá trị là cùng một gấu trúc được trả về.

Nếu bạn quan tâm đến việc hiểu thêm về sự khác biệt giữa một ước số bằng N hoặc N-1, bạn có thể có một cái nhìn ở đây.

Sơ đồ sai lệch tiêu chuẩn với matplotlib

Một phần quan trọng của phân tích dữ liệu cũng là có thể vẽ một bộ dữ liệu nhất định.

Hãy cùng lấy bộ dữ liệu cho cổ phiếu Amazon

Chúng tôi sẽ vẽ tất cả các giá trị bằng cách sử dụng matplotlib và chúng tôi cũng sẽ chỉ ra cách các điểm dữ liệu liên quan đến giá trị trung bình.

import pandas as pd

df = pd.read_csv('AMZN.csv')
print(df)
3

Chúng tôi đã tập trung vào biểu đồ dựa trên mức tối thiểu và tối đa của các điểm dữ liệu ’đóng (plt.ylim).

Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Chúng tôi cũng có thể hiển thị có bao nhiêu điểm dữ liệu nằm trong một hoặc hai độ lệch chuẩn so với giá trị trung bình. Hãy cùng làm điều đó bằng cách thêm các dòng sau trước plt.show ().

import pandas as pd

df = pd.read_csv('AMZN.csv')
print(df)
4

Và đây là biểu đồ cuối cùng:

Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Bây giờ bạn cũng biết cách vẽ các điểm dữ liệu, độ lệch trung bình và độ lệch chuẩn bằng cách sử dụng matplotlib.

Sự kết luận

Trong hướng dẫn này, chúng tôi đã thấy độ lệch chuẩn và độ lệch chuẩn liên quan đến nhau như thế nào và cách bạn có thể tính độ lệch chuẩn cho một tập hợp dữ liệu trong Python.

Có thể vẽ sơ đồ dữ liệu này với matplotlib cũng giúp bạn trong phân tích dữ liệu.

Bạn có thể tải xuống mã nguồn đầy đủ của hướng dẫn này và các tệp CSV tại đây.

Và bạn, bạn sẽ sử dụng gì để tính độ lệch chuẩn của dữ liệu? Gấu trúc hay numpy?

Nếu bạn bắt đầu với khoa học dữ liệu, hãy xem xét và giới thiệu về khoa học dữ liệu trong Python được tạo bởi DataCamp.

Bài viết liên quan:

Hướng dẫn how to calculate standard deviation of a column in python - cách tính độ lệch chuẩn của một cột trong python

Tôi là một nhà lãnh đạo công nghệ, kỹ sư phần mềm và huấn luyện viên lập trình. Tôi muốn giúp bạn trong hành trình trở thành một nhà phát triển siêu!

Làm thế nào để bạn tìm thấy độ lệch chuẩn trong Python?

Độ lệch chuẩn là căn bậc hai của trung bình của độ lệch bình phương so với giá trị trung bình, tức là, std = sqrt (trung bình (x)), trong đó x = abs (a - a.mean ()) ** 2. Độ lệch bình phương trung bình thường được tính là x. sum () / n, trong đó n = len (x).std = sqrt(mean(x)) , where x = abs(a - a. mean())**2 . The average squared deviation is typically calculated as x. sum() / N , where N = len(x) .

Std () trong gấu trúc là gì?

STD () PANDAS STD () được định nghĩa là một hàm để tính độ lệch chuẩn của tập hợp các số, dữ liệu, cột và hàng đã cho.Đối với tính toán độ lệch chuẩn, chúng ta cần nhập gói có tên "Thống kê" để tính toán trung bình.a function for calculating the standard deviation of the given set of numbers, DataFrame, column, and rows. In respect to calculate the standard deviation, we need to import the package named "statistics" for the calculation of median.

Làm thế nào để bạn tính toán độ lệch chuẩn trong gấu trúc?

Độ lệch chuẩn được tính bằng cách sử dụng hàm .std ().Tuy nhiên, thư viện Pandas tạo đối tượng DataFrame và sau đó là hàm.std () được áp dụng trên khung dữ liệu đó.using the function . std() . However, the Pandas library creates the Dataframe object and then the function . std() is applied on that Dataframe .

Làm thế nào để bạn tính toán một cột trong Python?

Để tính toán giá trị trung bình của toàn bộ các cột trong DataFrame, hãy sử dụng pandas.series.mean () với danh sách các cột DataFrame.Bạn cũng có thể nhận được giá trị trung bình cho tất cả các cột số bằng DataFrame.Mean (), sử dụng đối số Axis = 0 để tính giá trị trung bình của cột của DataFrame.use pandas.Series.mean() with a list of DataFrame columns. You can also get the mean for all numeric columns using DataFrame.mean(), use axis=0 argument to calculate the column-wise mean of the DataFrame.