Hướng dẫn calculate covariance python - tính hiệp phương sai python

Giới thiệu

Làm việc với các biến trong phân tích dữ liệu luôn thúc đẩy câu hỏi: các biến phụ thuộc, liên kết và thay đổi với nhau như thế nào? Hiệp phương sai và các biện pháp tương quan hỗ trợ trong việc thiết lập điều này.

Nội phân chính

  • Giới thiệu
  • Hiệp phương sai và tương quan - nói đơn giản
  • Thiết lập mã Python - Lấy dữ liệu mẫu
  • Tính toán hiệp phương sai trong Python
  • Tính tương quan trong Python
  • Làm thế nào để bạn tìm thấy hiệp phương sai và tương quan trong Python?
  • Làm thế nào để bạn tính toán hiệp phương sai trong Python?
  • Làm thế nào để python tính toán tương quan?
  • Làm thế nào để bạn tính toán hiệp phương sai và tương quan?

Nội phân chính

  • Giới thiệu
  • Hiệp phương sai và tương quan - nói đơn giản
  • Thiết lập mã Python - Lấy dữ liệu mẫu
  • Tính toán hiệp phương sai trong Python
  • Tính tương quan trong Python
  • Làm thế nào để bạn tìm thấy hiệp phương sai và tương quan trong Python?
  • Làm thế nào để bạn tính toán hiệp phương sai trong Python?
  • Làm thế nào để python tính toán tương quan?
  • Làm thế nào để bạn tính toán hiệp phương sai và tương quan?

Nội phân chính

  • Giới thiệu
  • Hiệp phương sai và tương quan - nói đơn giản
  • Thiết lập mã Python - Lấy dữ liệu mẫu
  • Tính toán hiệp phương sai trong Python
  • Tính tương quan trong Python
  • Làm thế nào để bạn tìm thấy hiệp phương sai và tương quan trong Python?
  • Làm thế nào để bạn tính toán hiệp phương sai trong Python?
  • Làm thế nào để python tính toán tương quan?
  • Làm thế nào để bạn tính toán hiệp phương sai và tương quan?

Hiệp phương sai mang lại sự thay đổi giữa các biến. Chúng tôi sử dụng hiệp phương sai để đo lường bao nhiêu biến thay đổi với nhau. Tương quan cho thấy mối quan hệ giữa các biến. Chúng tôi sử dụng tương quan để xác định mức độ liên kết mạnh mẽ của hai biến với nhau.

Trong bài viết này, chúng ta sẽ học cách tính toán hiệp phương sai và tương quan trong Python.

Hiệp phương sai và tương quan - nói đơn giản

Thiết lập mã Python - Lấy dữ liệu mẫu

Tính toán hiệp phương sai trong Python

Tính tương quan trong Python

Thiết lập mã Python - Lấy dữ liệu mẫu

Tính toán hiệp phương sai trong Python

Tính tương quan trong Python

Làm thế nào để bạn tìm thấy hiệp phương sai và tương quan trong Python?

Làm thế nào để bạn tính toán hiệp phương sai trong Python?

with open('iris_setosa.csv','r') as f:
    g=f.readlines()
    # Each line is split based on commas, and the list of floats are formed 
    sep_length = [float(x.split(',')[0]) for x in g[1:]]
    sep_width  = [float(x.split(',')[1]) for x in g[1:]]

Làm thế nào để python tính toán tương quan?

Làm thế nào để bạn tính toán hiệp phương sai và tương quan?

Tính toán hiệp phương sai trong Python

Tính tương quan trong Python

Làm thế nào để bạn tìm thấy hiệp phương sai và tương quan trong Python?

  • Làm thế nào để bạn tính toán hiệp phương sai trong Python?
  • Làm thế nào để python tính toán tương quan?
  • Làm thế nào để bạn tính toán hiệp phương sai và tương quan?

Hiệp phương sai mang lại sự thay đổi giữa các biến. Chúng tôi sử dụng hiệp phương sai để đo lường bao nhiêu biến thay đổi với nhau. Tương quan cho thấy mối quan hệ giữa các biến. Chúng tôi sử dụng tương quan để xác định mức độ liên kết mạnh mẽ của hai biến với nhau.

Trong bài viết này, chúng ta sẽ học cách tính toán hiệp phương sai và tương quan trong Python.

def covariance(x, y):
    # Finding the mean of the series x and y
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    # Subtracting mean from the individual elements
    sub_x = [i - mean_x for i in x]
    sub_y = [i - mean_y for i in y]
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    denominator = len(x)-1
    cov = numerator/denominator
    return cov

with open('iris_setosa.csv', 'r') as f:
    ...
    cov_func = covariance(sep_length, sep_width)
    print("Covariance from the custom function:", cov_func)

Trước tiên chúng tôi tìm thấy các giá trị trung bình của bộ dữ liệu của chúng tôi. Sau đó, chúng tôi sử dụng một danh sách hiểu để lặp lại trên mọi yếu tố trong hai chuỗi dữ liệu của chúng tôi và trừ các giá trị của chúng khỏi giá trị trung bình. Một vòng lặp cho vòng lặp có thể đã được sử dụng một cái giếng nếu đó là sở thích của bạn.

Sau đó, chúng tôi sử dụng các giá trị trung gian của hai chuỗi 'và nhân chúng với nhau trong một danh sách hiểu danh sách khác. Chúng tôi tổng hợp kết quả của danh sách đó và lưu trữ nó dưới dạng

def covariance(x, y):
    # Finding the mean of the series x and y
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    # Subtracting mean from the individual elements
    sub_x = [i - mean_x for i in x]
    sub_y = [i - mean_y for i in y]
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    denominator = len(x)-1
    cov = numerator/denominator
    return cov

with open('iris_setosa.csv', 'r') as f:
    ...
    cov_func = covariance(sep_length, sep_width)
    print("Covariance from the custom function:", cov_func)
4.
def covariance(x, y):
    # Finding the mean of the series x and y
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    # Subtracting mean from the individual elements
    sub_x = [i - mean_x for i in x]
    sub_y = [i - mean_y for i in y]
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    denominator = len(x)-1
    cov = numerator/denominator
    return cov

with open('iris_setosa.csv', 'r') as f:
    ...
    cov_func = covariance(sep_length, sep_width)
    print("Covariance from the custom function:", cov_func)
5 dễ tính toán dễ dàng hơn rất nhiều, hãy chắc chắn để decraese vào 1 khi bạn tìm thấy hiệp phương sai cho dữ liệu mẫu!

Kiểm tra hướng dẫn thực hành của chúng tôi, thực tế để học Git, với các thực hành tốt nhất, các tiêu chuẩn được công nghiệp chấp nhận và bao gồm bảng gian lận. Ngừng các lệnh git googling và thực sự tìm hiểu nó!

Sau đó, chúng tôi trả về giá trị khi

def covariance(x, y):
    # Finding the mean of the series x and y
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    # Subtracting mean from the individual elements
    sub_x = [i - mean_x for i in x]
    sub_y = [i - mean_y for i in y]
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    denominator = len(x)-1
    cov = numerator/denominator
    return cov

with open('iris_setosa.csv', 'r') as f:
    ...
    cov_func = covariance(sep_length, sep_width)
    print("Covariance from the custom function:", cov_func)
4 được chia cho
def covariance(x, y):
    # Finding the mean of the series x and y
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    # Subtracting mean from the individual elements
    sub_x = [i - mean_x for i in x]
    sub_y = [i - mean_y for i in y]
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    denominator = len(x)-1
    cov = numerator/denominator
    return cov

with open('iris_setosa.csv', 'r') as f:
    ...
    cov_func = covariance(sep_length, sep_width)
    print("Covariance from the custom function:", cov_func)
5 của nó, dẫn đến hiệp phương sai.

Chạy tập lệnh của chúng tôi sẽ cung cấp cho chúng tôi đầu ra này:

Covariance from the custom function: 0.09921632653061219

Giá trị dương biểu thị rằng cả hai biến di chuyển theo cùng một hướng.

Tính tương quan trong Python

Công thức được sử dụng rộng rãi nhất để tính toán hệ số tương quan là 'R' của Pearson:

Trong công thức trên,

  • XI, YI - là các yếu tố riêng lẻ của loạt X và Y
  • Tử số tương ứng với hiệp phương sai
  • Các mẫu số tương ứng với độ lệch chuẩn riêng lẻ của x và y

Có vẻ như chúng ta đã thảo luận về mọi thứ chúng ta cần để có được mối tương quan trong loạt bài viết này!

Hãy tính toán mối tương quan ngay bây giờ:

def correlation(x, y):
    # Finding the mean of the series x and y
    mean_x = sum(x)/float(len(x))
    mean_y = sum(y)/float(len(y))
    # Subtracting mean from the individual elements
    sub_x = [i-mean_x for i in x]
    sub_y = [i-mean_y for i in y]
    # covariance for x and y
    numerator = sum([sub_x[i]*sub_y[i] for i in range(len(sub_x))])
    # Standard Deviation of x and y
    std_deviation_x = sum([sub_x[i]**2.0 for i in range(len(sub_x))])
    std_deviation_y = sum([sub_y[i]**2.0 for i in range(len(sub_y))])
    # squaring by 0.5 to find the square root
    denominator = (std_deviation_x*std_deviation_y)**0.5 # short but equivalent to (std_deviation_x**0.5) * (std_deviation_y**0.5)
    cor = numerator/denominator
    return cor

with open('iris_setosa.csv', 'r') as f:
    ...
    cor_func = correlation(sep_length, sep_width)
    print("Correlation from the custom function:", cor_func)

Vì giá trị này cần sự hiệp phương sai của hai biến, chức năng của chúng tôi khá nhiều hoạt động lại giá trị đó một lần nữa. Khi hiệp phương sai được tính toán, chúng tôi sẽ tính độ lệch chuẩn cho từng biến. Từ đó, mối tương quan chỉ đơn giản là phân chia hiệp phương sai với sự nhân lên của các hình vuông của độ lệch chuẩn.

Chạy mã này, chúng tôi nhận được đầu ra sau, xác nhận rằng các thuộc tính này có một giá trị dương (dấu hiệu của giá trị, +, hoặc không có nếu 0) và mạnh (giá trị gần với 1) mối quan hệ:

Correlation from the custom function: 0.7425466856651597

Sự kết luận

Trong bài viết này, chúng tôi đã học được hai công cụ thống kê: hiệp phương sai và tương quan một cách chi tiết. Chúng tôi đã học được giá trị của chúng có ý nghĩa gì đối với dữ liệu của chúng tôi, cách chúng được thể hiện trong toán học và cách thực hiện chúng trong Python. Cả hai biện pháp này có thể rất hữu ích trong việc xác định mối quan hệ giữa hai biến.

Làm thế nào để bạn tìm thấy hiệp phương sai và tương quan trong Python?

hàm cov (). Covariance cung cấp một thước đo cường độ tương quan giữa hai biến trở lên tập hợp các biến. Phần tử ma trận hiệp phương sai CIJ là hiệp phương sai của XI và XJ.. Covariance provides the a measure of strength of correlation between two variable or more set of variables. The covariance matrix element Cij is the covariance of xi and xj.

Làm thế nào để bạn tính toán hiệp phương sai trong Python?

Hiệp phương sai có thể được tính toán bằng cách sử dụng hàm np.cov (). Ví dụ: chúng tôi có hai bộ dữ liệu X và Y, NP. Cov (x, y) trả về một mảng 2D trong đó các mục [0,1] và [1,0] là các hiệp phương sai.using the Numpy function np. cov() . For example, we have two sets of data x and y , np. cov(x, y) returns a 2D array where entries [0,1] and [1,0] are the covariances.

Làm thế nào để python tính toán tương quan?

Để tính toán mối tương quan giữa hai biến trong Python, chúng ta có thể sử dụng hàm Corrcoef () numpy.use the Numpy corrcoef() function.

Làm thế nào để bạn tính toán hiệp phương sai và tương quan?

Tương quan xem xét sức mạnh của mối quan hệ giữa hai biến. Để tính toán mối tương quan giữa hai biến, giá trị hiệp phương sai được chia cho độ lệch chuẩn của cả hai biến.the covariance value is divided by the standard deviation of both variables.