Làm thế nào để bạn đăng nhập chuyển đổi trong python?

Dữ liệu chúng tôi có ở dạng bình thường [còn được gọi là theo đường cong Bell] rất quan trọng đối với phần lớn các thử nghiệm tham số mà chúng tôi có thể muốn thực hiện. Điều này bao gồm phân tích hồi quy, kiểm tra t hai mẫu và Phân tích phương sai có thể được thực hiện bằng Python, để kể tên một số

Mục lục

Đề cương

Bài đăng này sẽ bắt đầu bằng cách lướt qua những gì bạn cần để làm theo hướng dẫn này. Sau khi hoàn thành, bạn sẽ 1] nhận thông tin về độ lệch và độ nhọn, và 2] tổng quan ngắn gọn về các phương pháp biến đổi khác nhau. Trong phần tiếp theo các phương pháp chuyển đổi, bạn sẽ tìm hiểu cách nhập dữ liệu bằng Pandas read_csv. Chúng ta sẽ khám phá tập dữ liệu ví dụ một chút bằng cách tạo biểu đồ, lấy các phép đo độ lệch và độ nhọn. Cuối cùng, các phần cuối cùng sẽ đề cập đến cách chuyển đổi dữ liệu không bình thường.  

điều kiện tiên quyết

Trong hướng dẫn này, chúng ta sẽ sử dụng Pandas, SciPy và NumPy. Điều đáng nói ở đây là bạn chỉ cần cài đặt Pandas vì hai gói Python còn lại là phần phụ thuộc của Pandas. Đó là, nếu bạn cài đặt các gói Python bằng e. g. pip, nó cũng sẽ cài đặt SciPy và NumPy trên máy tính của bạn, cho dù bạn sử dụng e. g. Ubuntu Linux hoặc Windows 10. Lưu ý rằng bạn có thể sử dụng pip để cài đặt một phiên bản cụ thể của e. g. Pandas và nếu cần, bạn có thể nâng cấp pip bằng cách sử dụng conda hoặc pip.  

Bây giờ, nếu bạn muốn cài đặt các gói riêng lẻ [e. g. bạn chỉ muốn sử dụng NumPy và SciPy], bạn có thể chạy đoạn mã sau

pip install pandas

Code language: Bash [bash]

Bây giờ, nếu bạn chỉ muốn cài đặt NumPy, hãy đổi “pandas” thành “numpy”, trong đoạn mã chuk ở trên. Điều đó nói rằng, chúng ta hãy chuyển sang phần về độ lệch và độ nhọn

Độ nghiêng và kurtosis

Tóm lại, độ lệch là thước đo tính đối xứng. Nói chính xác, nó là thước đo thiếu đối xứng. Điều này có nghĩa là số càng lớn thì dữ liệu của bạn càng thiếu tính đối xứng [nghĩa là không bình thường]. Mặt khác, Kurtosis là thước đo xem dữ liệu của bạn nặng hay nhẹ so với phân phối bình thường. Xem ở đây để biết định nghĩa toán học hơn về cả hai biện pháp. Một cách hay để kiểm tra trực quan dữ liệu về độ lệch hoặc độ nhọn là sử dụng biểu đồ. Tuy nhiên, xin lưu ý rằng, tất nhiên, cũng có các thử nghiệm thống kê khác nhau có thể được sử dụng để kiểm tra xem dữ liệu của bạn có được phân phối chuẩn không

Làm cách nào để bạn xử lý dữ liệu bị sai lệch trong Python?

Một cách để xử lý dữ liệu lệch phải hoặc trái là thực hiện phép biến đổi logarit trên dữ liệu của chúng tôi. Ví dụ,

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
0 sẽ log biến đổi biến

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
1 trong Python. Có các tùy chọn khác cũng như các phép biến đổi Box-Cox và căn bậc hai

Làm thế nào để bạn chuyển đổi dữ liệu lệch trái?

Một cách để xử lý dữ liệu lệch trái [âm] là đảo ngược phân phối của biến. Trong Python, điều này có thể được thực hiện bằng đoạn mã sau

Cả hai câu hỏi trên sẽ được trả lời chi tiết hơn trong suốt bài viết [e. g. , bạn sẽ học cách thực hiện chuyển đổi nhật ký trong Python]. Trong phần tiếp theo, bạn sẽ tìm hiểu về ba kỹ thuật chuyển đổi thường được sử dụng mà sau này bạn cũng sẽ học cách áp dụng

Phương pháp chuyển đổi

Như đã chỉ ra trong phần giới thiệu, chúng ta sẽ tìm hiểu ba phương pháp mà chúng ta có thể sử dụng để biến đổi dữ liệu lệch khỏi phân phối chuẩn. Trong phần này, bạn sẽ có một cái nhìn tổng quan ngắn gọn về ba kỹ thuật chuyển đổi này và khi nào nên sử dụng chúng.  

Căn bậc hai

Phương pháp căn bậc hai thường được sử dụng khi dữ liệu của bạn bị lệch vừa phải. Bây giờ sử dụng căn bậc hai [e. g. , sqrt[x]] là một phép biến đổi có ảnh hưởng vừa phải đến hình dạng phân phối. Nó thường được sử dụng để giảm dữ liệu lệch phải. Cuối cùng, căn bậc hai có thể được áp dụng trên các giá trị bằng 0 và được sử dụng phổ biến nhất trên dữ liệu được đếm

Chuyển đổi nhật ký

Logarit là một phép biến đổi mạnh có ảnh hưởng lớn đến hình dạng phân phối. Kỹ thuật này, giống như phương pháp căn bậc hai, thường được sử dụng để giảm độ lệch phải. Tuy nhiên, đáng chú ý là nó không thể được áp dụng cho các giá trị bằng 0 hoặc âm

Chuyển đổi hộp Cox

Phép biến đổi Box-Cox, như bạn có thể hiểu, cũng là một kỹ thuật để biến đổi dữ liệu không bình thường thành hình dạng bình thường. Đây là một thủ tục để xác định một số mũ phù hợp [Lambda = l] để sử dụng để chuyển đổi dữ liệu sai lệch

Các lựa chọn thay thế khác

Bây giờ, các kỹ thuật chuyển đổi được đề cập ở trên được sử dụng phổ biến nhất. Tuy nhiên, cũng có nhiều phương pháp khác có thể dùng để biến đổi các biến phụ thuộc bị sai lệch của bạn. Ví dụ: nếu dữ liệu của bạn thuộc loại dữ liệu thứ tự, bạn cũng có thể sử dụng phương pháp chuyển đổi arcsine. Một phương pháp khác mà bạn có thể sử dụng được gọi là đối ứng. Phương pháp này, về cơ bản được thực hiện như thế này. 1/x, trong đó x là biến phụ thuộc của bạn.  

Trong phần tiếp theo, chúng tôi sẽ nhập dữ liệu chứa bốn biến phụ thuộc có độ lệch dương và âm

Dữ liệu mẫu

Trong hướng dẫn này, chúng tôi sẽ chuyển đổi dữ liệu bị lệch cả âm [trái] và dương [phải] và chúng tôi sẽ đọc tập dữ liệu mẫu từ tệp CSV [Data_to_Transform. csv]. Để giúp chúng tôi, chúng tôi sẽ sử dụng Pandas để đọc. tệp csv

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]

Đây là tập dữ liệu mẫu có bốn biến sau

  • Độ lệch dương vừa phải [Xiên phải]
  • Nghiêng tích cực cao’ [Xiên phải]
  • Độ lệch âm vừa phải [Xiên trái]
  • Độ lệch cực âm [Xiên trái]

Chúng tôi có thể lấy thông tin này bằng cách sử dụng phương pháp

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
2. Điều này sẽ cung cấp cho chúng ta cấu trúc của khung dữ liệu

  • Tiết kiệm

Như bạn có thể thấy, khung dữ liệu có 10000 hàng và 4 cột [như đã mô tả trước đây]. Hơn nữa, chúng tôi nhận được thông tin rằng 4 cột thuộc kiểu dữ liệu float và không có giá trị nào bị thiếu trong tập dữ liệu. Trong phần tiếp theo, chúng ta sẽ xem nhanh phân phối của 4 biến

Trong phần tiếp theo, chúng ta sẽ kiểm tra nhanh các biến trong tập dữ liệu bằng cách sử dụng hàm Pandas hist[].  

Kiểm tra trực quan việc phân phối các biến của bạn

Trong phần này, chúng ta sẽ kiểm tra trực quan xem dữ liệu có được phân phối bình thường không. Tất nhiên, có một số cách để vẽ biểu đồ phân phối dữ liệu của chúng tôi. Tuy nhiên, trong bài đăng này, chúng tôi sẽ chỉ sử dụng Pandas và tạo biểu đồ. Đây là cách tạo biểu đồ trong Pandas bằng phương pháp

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
3

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]

Bây giờ, phương thức

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
3 lấy tất cả các biến số của chúng ta trong tập dữ liệu [i. e. , trong trường hợp của chúng tôi là kiểu dữ liệu float] và tạo biểu đồ cho từng loại. Chỉ để giải thích nhanh các tham số được sử dụng trong đoạn mã trên. Đầu tiên, sử dụng tham số

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
5 và đặt nó thành

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
6 để xóa lưới khỏi biểu đồ. Thứ hai, chúng tôi đã thay đổi kích thước hình bằng cách sử dụng tham số

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
7. Cuối cùng, chúng tôi cũng đã thay đổi số lượng thùng [mặc định là 20] để có cái nhìn rõ hơn về dữ liệu. Đây là phân phối trực quan

  • Tiết kiệm

Biểu đồ hiển thị các biến lệch phải và trái

Rõ ràng là tất cả các biến đều bị lệch và không tuân theo phân phối chuẩn [như ngụ ý của tên biến]. Lưu ý, tất nhiên, có những kỹ thuật trực quan hóa khác mà bạn có thể thực hiện để kiểm tra sự phân bố của các biến phụ thuộc của mình. Ví dụ, bạn có thể sử dụng boxplots, stripplots, swarmplots, ước tính mật độ hạt nhân hoặc biểu đồ violon. Những biểu đồ này cung cấp cho bạn rất nhiều [thêm] thông tin về các biến phụ thuộc của bạn. Xem bài đăng với 9 ví dụ trực quan hóa dữ liệu Python để biết thêm thông tin. Trong phần tiếp theo, chúng ta cũng sẽ xem xét làm thế nào chúng ta có thể đo được độ lệch và độ nhọn

Thêm hướng dẫn trực quan hóa dữ liệu

  • Lô đất Seaborn. Hướng dẫn chi tiết với các ví dụ [Nhiều dòng]
  • Cách sử dụng Pandas Scatter Matrix [Pair Plot] để trực quan hóa xu hướng trong dữ liệu
  • Làm thế nào để lưu một lô Seaborn dưới dạng tệp [e. g. , PNG, PDF, EPS, TIFF]

Các biện pháp Skewness và Kurtosis trong Python

Trong phần này, trước khi bắt đầu tìm hiểu cách chuyển đổi dữ liệu bị lệch trong Python, chúng ta sẽ xem nhanh cách lấy độ lệch và độ nhọn trong Python.  

df.agg[['skew', 'kurtosis']].transpose[]

Code language: Python [python]

Trong đoạn mã trên, chúng tôi đã sử dụng phương thức

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
8 và sử dụng danh sách làm tham số duy nhất. Danh sách này chứa hai phương pháp mà chúng tôi muốn sử dụng [tôi. e. , chúng tôi muốn tính toán độ lệch và độ nhọn]. Cuối cùng, chúng tôi đã sử dụng phương pháp

import pandas as pd import numpy as np # Reading dataset with skewed distributions df = pd.read_csv['./SimData/Data_to_Transform.csv']

Code language: Python [python]
9 để thay đổi hàng thành cột [i. e. , chuyển đổi khung dữ liệu Pandas] để chúng tôi nhận được đầu ra dễ kiểm tra hơn một chút. Đây là bảng kết quả

  • Tiết kiệm

Theo nguyên tắc thông thường, độ lệch có thể được hiểu như thế này.  

SkewnessKhá đối xứng-0. 5 đến 0. 5Độ lệch vừa phải-0. 5 đến -1. 0 và 0. 5 đến 1. 0Độ lệch cao< -1. 0 và > 1. 0

Tất nhiên, có nhiều thứ có thể được thực hiện để kiểm tra xem dữ liệu của chúng tôi có được phân phối bình thường hay không. Ví dụ: chúng ta có thể thực hiện các kiểm định thống kê về tính quy tắc như kiểm định Shapiro-Wilks. Tuy nhiên, điều đáng chú ý là hầu hết các thử nghiệm này đều nhạy cảm với cỡ mẫu. Nghĩa là, ngay cả những sai lệch nhỏ so với quy tắc cũng sẽ được tìm thấy bằng cách sử dụng e. g. bài kiểm tra Shapiro-Wilks

Trong phần tiếp theo, chúng ta sẽ bắt đầu chuyển đổi dữ liệu không bình thường [lệch]. Đầu tiên, chúng tôi sẽ chuyển đổi các bản phân phối có độ lệch vừa phải và sau đó, chúng tôi sẽ tiếp tục với dữ liệu có độ lệch cao.  

Phép biến đổi căn bậc hai trong Python

Đây là cách thực hiện chuyển đổi căn bậc hai của dữ liệu không bình thường trong Python

# Python Square root transformation df.insert[len[df.columns], 'A_Sqrt', np.sqrt[df.iloc[:,0]]]

Code language: Python [python]

Trong đoạn mã ở trên, chúng tôi đã tạo một cột/biến mới trong khung dữ liệu Pandas bằng cách sử dụng phương thức

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
0. Ngoài ra, điều đáng nói là chúng tôi đã sử dụng phương thức iloc[] để chọn cột mà chúng tôi muốn. Trong các ví dụ sau, chúng ta sẽ tiếp tục sử dụng phương pháp này để chọn cột. Lưu ý cách tham số đầu tiên [i. e. , “. ”] được sử dụng để chọn tất cả các hàng và tham số thứ hai [“0”] được sử dụng để chọn các cột đầu tiên. Mặt khác, nếu chúng ta sử dụng phương thức loc, chúng ta có thể đã chọn theo tên cột. Đây là biểu đồ của cột/biến mới của chúng tôi

  • Tiết kiệm

Phân phối biến đổi căn bậc hai

Một lần nữa, chúng ta có thể thấy rằng phân phối mới, được chuyển đổi Box-Cox, đối xứng hơn so với phân phối trước đó, lệch phải.  

Trong tiểu mục tiếp theo, bạn sẽ tìm hiểu cách xử lý dữ liệu bị lệch [trái] một cách tiêu cực. Nếu chúng tôi cố gắng áp dụng sqrt[] trên cột, ngay bây giờ, chúng tôi sẽ nhận được ValueError [xem ở cuối bài viết].  

Chuyển đổi dữ liệu bị lệch âm bằng phương pháp căn bậc hai

Bây giờ, nếu chúng ta muốn chuyển đổi dữ liệu lệch âm [trái] bằng phương pháp căn bậc hai, chúng ta có thể thực hiện như sau.  

# Square root transormation on left skewed data in Python: df.insert[len[df.columns], 'B_Sqrt', np.sqrt[max[df.iloc[:, 2]+1] - df.iloc[:, 2]]]

Code language: PHP [php]

Những gì chúng tôi đã làm ở trên là đảo ngược phân phối [i. e. ,

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
1] rồi áp dụng phép biến đổi căn bậc hai. Bạn có thể thấy, trong hình ảnh bên dưới, độ lệch đó trở nên dương khi hoàn nguyên phân phối lệch âm.  

  • Tiết kiệm

Trong phần tiếp theo, bạn sẽ tìm hiểu cách ghi nhật ký chuyển đổi bằng Python trên dữ liệu có độ lệch cao, cả bên phải và bên trái

Chuyển đổi nhật ký trong Python

Đây là cách chúng ta có thể sử dụng chuyển đổi nhật ký trong Python để làm cho dữ liệu bị lệch của chúng ta đối xứng hơn

# Python log transform df.insert[len[df.columns], 'C_log', np.log[df['Highly Positive Skew']]]

Code language: PHP [php]

Bây giờ, chúng ta đã làm tương tự như khi sử dụng Python để thực hiện phép biến đổi căn bậc hai. Ở đây, chúng tôi đã tạo một cột mới, sử dụng phương thức insert[]. Tuy nhiên, lần này chúng tôi đã sử dụng phương thức log[] từ NumPy vì chúng tôi muốn thực hiện phép biến đổi logarit. Đây là cách phân phối trông giống như bây giờ

  • Tiết kiệm

Nhật ký biến phụ thuộc được chuyển đổi trong Python

Nhật ký chuyển đổi dữ liệu sai lệch tiêu cực

Đây là cách ghi nhật ký biến đổi dữ liệu sai lệch tiêu cực trong Python

# Log transformation of negatively [left] skewed data in Python df.insert[len[df.columns], 'D_log', np.log[max[df.iloc[:, 2] + 1] - df.iloc[:, 2]]]

Code language: PHP [php]

Một lần nữa, chúng tôi đã thực hiện chuyển đổi nhật ký bằng phương thức NumPy log[]. Hơn nữa, chúng tôi đã làm chính xác như trong ví dụ về căn bậc hai. Đó là, chúng tôi đã đảo ngược phân phối và một lần nữa, chúng tôi có thể thấy rằng tất cả những gì đã xảy ra là độ lệch chuyển từ âm sang dương.  

  • Tiết kiệm

Trong phần tiếp theo, chúng ta sẽ xem cách sử dụng SciPy để thực hiện chuyển đổi Box Cox trên dữ liệu của chúng ta

Chuyển đổi Box-Cox trong Python

Đây là cách triển khai chuyển đổi Box-Cox bằng gói Python SciPy

from scipy.stats import boxcox # Box-Cox Transformation in Python df.insert[len[df.columns], 'A_Boxcox', boxcox[df.iloc[:, 0]][0]]

Code language: Python [python]

Trong đoạn mã trên, về cơ bản, sự khác biệt duy nhất giữa các ví dụ trước đó là chúng ta đã nhập

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
2 từ

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
3. Hơn nữa, chúng tôi đã sử dụng phương pháp

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
2 để áp dụng phép biến đổi Box-Cox. Lưu ý cách chúng tôi chọn phần tử đầu tiên bằng cách sử dụng dấu ngoặc [i. e.

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
5]. Điều này là do phương pháp này [tôi. e.

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
2] sẽ cung cấp cho chúng tôi một tuple. Đây là một hình dung của phân phối kết quả

  • Tiết kiệm

Biểu đồ của biến phụ thuộc biến đổi box-cox

Một lần nữa, chúng tôi đã cố gắng chuyển đổi dữ liệu có độ lệch dương sang phân phối tương đối đối xứng. Bây giờ, chuyển đổi Box-Cox cũng yêu cầu dữ liệu của chúng tôi chỉ chứa các số dương, vì vậy nếu chúng tôi muốn áp dụng nó trên dữ liệu bị lệch âm, chúng tôi cần đảo ngược nó [xem các ví dụ trước về cách đảo ngược phân phối của bạn]. Ví dụ: nếu chúng tôi cố gắng sử dụng

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
2 trên cột “Mức độ lệch âm vừa phải”, chúng tôi sẽ gặp lỗi ValueError.  

  • Tiết kiệm

Chính xác hơn, nếu bạn gặp lỗi “ValueError. Dữ liệu phải là số dương” trong khi sử dụng

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
8,

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
9 hoặc SciPy's

df.hist[grid=False, figsize=[10, 6], bins=30]

Code language: Python [python]
2 đó là do biến phụ thuộc của bạn chứa số âm. Để giải quyết vấn đề này, bạn có thể đảo ngược phân phối.  

Điều đáng chú ý ở đây là bây giờ chúng ta có thể kiểm tra độ lệch bằng cách sử dụng phương pháp

df.agg[['skew', 'kurtosis']].transpose[]

Code language: Python [python]
1

df.agg[['skew']].transpose[]

Code language: Python [python]

  • Tiết kiệm

Chúng ta có thể thấy ở đầu ra rằng các giá trị độ lệch của các giá trị được chuyển đổi hiện có thể chấp nhận được [tất cả chúng đều dưới 0. 5]. Tất nhiên, chúng tôi cũng có thể chạy các bài kiểm tra tính quy phạm đã đề cập trước đó [e. g. , bài kiểm tra Shapiro-Wilks]. Lưu ý rằng nếu dữ liệu của bạn vẫn chưa được phân phối bình thường, bạn cũng có thể thực hiện phép thử Mann-Whitney U bằng Python

Phần kết luận

Trong bài đăng này, bạn đã học cách áp dụng phép biến đổi căn bậc hai, logarit và Box-Cox trong Python bằng Pandas, SciPy và NumPy. Cụ thể, bạn đã học cách biến đổi cả dữ liệu dương [trái] và âm [phải] để nó giữ giả định của giả định bình thường. Đầu tiên, bạn đã tìm hiểu sơ qua về các gói Python cần thiết để chuyển đổi dữ liệu không bình thường và sai lệch thành dữ liệu được phân phối bình thường. Thứ hai, bạn đã học về ba phương thức mà sau này bạn cũng đã học cách thực hiện trong Python.  

Người giới thiệu

Dưới đây là một số tài nguyên hữu ích để đọc thêm

DeCarlo, L. t. [1997]. Về ý nghĩa và cách sử dụng của kurtosis. Phương pháp tâm lý, 2[3], 292–307. https. //doi. tổ chức/10. 1037//1082-989x. 2. 3. 292

trắng, M. J. , Arnau, J. , López-Montiel, D. , Bono, R. , & Bendayan, R. [2013]. Skewness và kurtosis trong các mẫu dữ liệu thực. phương pháp luận. Tạp chí Châu Âu về Phương pháp Nghiên cứu Khoa học Xã hội và Hành vi, 9[2], 78–84. https. //doi. tổ chức/10. 1027/1614-2241/a000057

Mishra, P. , Pandey, C. m. , Singh, U. , Gupta, A. , Sahu, C. , & Keshri, A. [2019]. Thống kê mô tả và kiểm định tính chuẩn cho dữ liệu thống kê. Biên niên sử gây mê tim, 22[1], 67–72. https. //doi. tổ chức/10. 4103/ca. ACA_157_18

Tại sao chuyển đổi nhật ký trong Python?

Nhật ký. Chuyển đổi nhật ký giúp giảm độ lệch khi bạn có dữ liệu bị lệch .

Có thể đăng nhập dữ liệu biến đổi không?

Lý do để nhật ký chuyển đổi dữ liệu của bạn không phải để xử lý độ lệch hoặc để tiến gần hơn đến phân phối bình thường; . Tính hợp lệ, tính gây nghiện và tính tuyến tính thường quan trọng hơn nhiều

Khi nào bạn nên đăng nhập dữ liệu chuyển đổi?

Chuyển đổi nhật ký có thể được sử dụng để làm cho các bản phân phối có độ lệch cao ít bị lệch hơn. Điều này có thể có giá trị cả trong việc tạo ra các mẫu trong dữ liệu dễ hiểu hơn và giúp đáp ứng các giả định của thống kê suy luận. Hình 1 cho thấy một ví dụ về cách chuyển đổi nhật ký có thể làm cho các mẫu dễ nhìn hơn

Chủ Đề