Hướng dẫn data preprocessing steps in machine learning python - các bước xử lý trước dữ liệu trong python học máy

Tiền xử lý dữ liệu là bước học máy đầu tiên trong đó chúng tôi chuyển đổi dữ liệu thô thu được từ nhiều nguồn khác nhau thành định dạng có thể sử dụng để thực hiện các mô hình học máy chính xác. Trong bài viết này, chúng tôi bao gồm tất cả các bước liên quan đến giai đoạn tiền xử lý dữ liệu.

Điều kiện tiên quyết

Để làm theo với hướng dẫn này, bạn cần phải có:

  1. Kiến thức trước về lập trình Python.
  2. Google Colab.

Gắn ổ đĩa của chúng tôi đến Google Colab

Trong bài viết này, chúng tôi sẽ thực hiện các thí nghiệm tiền xử lý dữ liệu trên Google Colab. Do đó, chúng tôi cần đảm bảo Google Drive của chúng tôi có thể truy cập được từ Google Colab. Để đảm bảo điều này, trước tiên, hãy để tải xuống dữ liệu của chúng tôi vào máy tính của chúng tôi từ đây.

Vì chúng tôi đã tải xuống thành công dữ liệu của chúng tôi, hãy để ngay bây giờ tải nó lên Google Drive thông qua Google.drive.com. Dữ liệu của chúng tôi được tải lên Google Drive. Nó được lưu trong thư mục gốc.

Để sử dụng dữ liệu này, chúng tôi cần cung cấp cho Google Colab quyền truy cập vào Google Drive. Vì vậy, hãy để loại và chạy mã bên dưới trong Google Colab.

from google.colab import drive
drive.mount("/content/drive/")

Khi thực hiện mã của chúng tôi, nó dẫn chúng tôi đến giai đoạn xác thực của Google.

Nhấp vào liên kết URL trên giao diện Google Colab và tiến hành cho phép các quyền cho đến khi chúng tôi đạt đến giai đoạn mã xác minh.

Chúng tôi sao chép và dán mã ủy quyền thu được trong hộp có sẵn trên giao diện Colab và nhấp vào CTRL + ENTER. Sau bước này, người ta có thể truy cập các tệp trong ổ đĩa. Tiếp theo, hãy để tiến hành nhập khẩu các thư viện cần thiết.Ctrl + Enter. After this step, one may access files in Drive. Next, let’s proceed with importing the required libraries.

Để nhập các thư viện này, hãy để loại và chạy mã bên dưới.

Bước 1: Nhập thư viện

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Bước 2: Nhập bộ dữ liệu

Hãy để loại và chạy mã sau:

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values

Chúng tôi đã chỉ định hai biến,

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
9 cho các tính năng và
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
0 cho biến phụ thuộc. Các tính năng được đặt, như được khai báo trong mã
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
1 bao gồm tất cả các hàng và cột của bộ dữ liệu của chúng tôi ngoại trừ cột cuối cùng. Tương tự, biến phụ thuộc
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
0 bao gồm tất cả các hàng nhưng chỉ có cột cuối cùng được khai báo trong mã
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
3.

Hãy cùng xem dữ liệu của chúng tôi bằng cách thực thi mã:

print(x) # returns an array of features

Đầu ra

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]

print(y) # viewing an array of the dependent variable.

Đầu ra

['No ' 'Yes' 'No ' 'No ' 'Yes' 'Yes' 'No ' 'Yes' 'No ' 'Yes']

Dữ liệu của chúng tôi được nhập thành công dưới dạng một mảng các tính năng X và biến phụ thuộc

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
0.

Bước 3: Chăm sóc dữ liệu bị thiếu

Thiếu dữ liệu là một vấn đề phổ biến đối mặt với dữ liệu được thu thập thông qua một cuộc khảo sát. Vấn đề này xảy ra khi một bộ dữ liệu không có giá trị cho một tính năng trong một quan sát.

Có nhiều lý do tại sao dữ liệu có thể bị thiếu trong bộ dữ liệu. Chẳng hạn, dữ liệu được thu thập thông qua một cuộc khảo sát có thể bị thiếu dữ liệu do người tham gia không trả lời một số câu hỏi, không biết câu trả lời chính xác hoặc không muốn trả lời. Nó cũng có thể bị thiếu do lỗi được thực hiện trong quá trình nhập dữ liệu.

Hầu hết các mô hình học máy yêu cầu dữ liệu có giá trị cho tất cả các tính năng trong mỗi quan sát. Trong các mô hình như vậy, dữ liệu bị thiếu có thể dẫn đến sai lệch trong việc ước tính các tham số và cũng làm tổn hại đến tính chính xác của các mô hình học máy.

Do đó, chúng tôi có thể đưa ra kết luận sai về dữ liệu. Do đó, thiếu dữ liệu có hại cho các mô hình học máy và yêu cầu xử lý phù hợp.

Có một số kỹ thuật chúng tôi sử dụng để xử lý dữ liệu bị thiếu. Chúng bao gồm:

Xóa quan sát với (các) giá trị bị thiếu

Kỹ thuật này hoạt động tốt trên các bộ dữ liệu lớn với một vài giá trị bị thiếu. Chẳng hạn, việc xóa một hàng khỏi bộ dữ liệu với hàng trăm quan sát không thể ảnh hưởng đến chất lượng thông tin của bộ dữ liệu. Tuy nhiên, kỹ thuật này không phù hợp cho một bộ dữ liệu báo cáo nhiều giá trị bị thiếu. Xóa nhiều hàng từ một bộ dữ liệu dẫn đến việc mất thông tin.

Để đảm bảo không có nguy cơ mất thông tin quan trọng, chúng tôi cần sử dụng các kỹ thuật phù hợp hơn. Kỹ thuật sau đây liên quan đến việc cắt bỏ dữ liệu bị thiếu. Cắt bỏ có nghĩa là thay thế dữ liệu bị thiếu bằng giá trị ước tính.

Nghĩa là cắt bỏ

Theo kỹ thuật này, chúng tôi thay thế giá trị bị thiếu bằng trung bình của biến mà nó xảy ra. Ưu điểm của kỹ thuật này là nó bảo tồn giá trị trung bình và kích thước mẫu. Tuy nhiên, kỹ thuật này có một số nhược điểm nghiêm trọng.

Việc cắt giảm trung bình đánh giá thấp lỗi tiêu chuẩn và nó không bảo tồn mối tương quan giữa các biến. Mối quan hệ giữa các biến là một khía cạnh thiết yếu của phân tích vì mục tiêu chung của nghiên cứu là hiểu rõ hơn.

Do đó, việc cắt bỏ trung bình không phải là một giải pháp thích hợp cho dữ liệu bị thiếu trừ khi dữ liệu bị thiếu hoàn toàn ngẫu nhiên (thiếu dữ liệu hoàn toàn không liên quan đến cả dữ liệu bị thiếu và các giá trị được quan sát trong bộ dữ liệu).

Cắt bỏ sàn nóng

Trong kỹ thuật này, chúng tôi thay thế giá trị bị thiếu của quan sát bằng một giá trị được chọn ngẫu nhiên từ tất cả các quan sát trong mẫu có giá trị tương tự trên các biến khác.

Do đó, kỹ thuật này đảm bảo rằng giá trị tạo ra chỉ được chọn từ khoảng thời gian có thể trong đó giá trị thực tế có thể giảm và được chọn ngẫu nhiên thay vì được xác định, đây là một khía cạnh thiết yếu cho một lỗi tiêu chuẩn chính xác.

Cắt bỏ boong lạnh

Chúng tôi thay thế dữ liệu bị thiếu bằng cách sử dụng giá trị được chọn từ các biến khác với các giá trị quan sát tương tự trong kỹ thuật này. Sự khác biệt giữa kỹ thuật này và sự cắt bỏ boong nóng là quá trình chọn giá trị tạo ra không được chọn ngẫu nhiên.

Hồi quy

Việc đưa ra hồi quy liên quan đến việc phù hợp với mô hình hồi quy trên một tính năng có dữ liệu bị thiếu và sau đó sử dụng mô hình hồi quy này dự đoán để thay thế các giá trị bị thiếu trong tính năng này. Kỹ thuật này bảo tồn các mối quan hệ giữa các tính năng và điều này cho nó một lợi thế đáng kể so với các kỹ thuật cắt bỏ đơn giản như trung bình và chế độ.

Cắt bỏ hồi quy là hai loại:

Nghĩ về hồi quy xác định

Việc đưa ra hồi quy xác định giảm bớt dữ liệu bị thiếu với giá trị chính xác được dự đoán từ mô hình hồi quy. Kỹ thuật này không xem xét biến thể ngẫu nhiên xung quanh đường hồi quy. Vì các giá trị bị lỗi là chính xác, mối tương quan giữa các tính năng và các biến phụ thuộc được đánh giá quá cao.

Cắt bỏ hồi quy ngẫu nhiên

Trong việc cắt bỏ hồi quy ngẫu nhiên, chúng tôi thêm một biến thể ngẫu nhiên (thuật ngữ lỗi) vào giá trị dự đoán, do đó, tái tạo mối tương quan của

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
5 và
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
6 một cách thích hợp hơn.

Bây giờ chúng tôi đã biết các kỹ thuật để chăm sóc các giá trị bị thiếu, hãy để xử lý vấn đề này trong bộ dữ liệu của chúng tôi. Chúng tôi nhận thấy rằng các tính năng của chúng tôi được đặt (

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
9) có các giá trị
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
8 trong các cột
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
9 và
print(x) # returns an array of features
0.

Chúng tôi cần giải quyết vấn đề này trước khi chúng tôi thực hiện mô hình học máy trên dữ liệu của mình. Vì bộ dữ liệu của chúng tôi nhỏ, chúng tôi không thể loại bỏ một hàng báo cáo (các) giá trị bị thiếu. Do đó, trong trường hợp của chúng tôi, chúng tôi sẽ sử dụng kỹ thuật cắt bỏ trung bình.

Mã dưới đây giải quyết vấn đề này trong bộ dữ liệu của chúng tôi.

# Importing the class called SimpleImputer from impute model in sklearn
from sklearn.impute import SimpleImputer
# To replace the missing value we create below object of SimpleImputer class
imputa = SimpleImputer(missing_values = np.nan, strategy = 'mean')
''' Using the fit method, we apply the `imputa` object on the matrix of our feature x.
The `fit()` method identifies the missing values and computes the mean of such feature a missing value is present.
'''
imputa.fit(x[:, 1:3])
# Repalcing the missing value using transform method
x[:, 1:3] = imputa.transform(x[:, 1:3])

Khi thực thi mã, chúng tôi có được một ma trận các tính năng với các giá trị bị thiếu được thay thế.

Đầu ra

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]

Các giá trị còn thiếu trên các cột

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
9 và
print(x) # returns an array of features
0 được thay thế bằng phương tiện cột tương ứng của chúng, tức là,
print(x) # returns an array of features
3 và
print(x) # returns an array of features
4, tương ứng.

Bước 4: Mã hóa dữ liệu phân loại

Trong quá trình mã hóa, chúng tôi chuyển đổi dữ liệu văn bản thành dữ liệu số. Mã hóa dữ liệu phân loại liên quan đến việc thay đổi dữ liệu thuộc các danh mục thành dữ liệu số.

Các cột

print(x) # returns an array of features
5 và
print(x) # returns an array of features
6 của bộ dữ liệu của chúng tôi chứa dữ liệu thuộc các danh mục. Vì các mô hình học máy dựa trên phương trình toán học, chỉ có đầu vào số, nên việc tính toán mối tương quan giữa tính năng và các biến phụ thuộc là rất khó. Để đảm bảo điều này không xảy ra, chúng ta cần chuyển đổi các mục nhập chuỗi trong bộ dữ liệu thành các số.

Đối với bộ dữ liệu của chúng tôi, chúng tôi sẽ mã Pháp thành 0, Tây Ban Nha thành 1 và Đức thành 2. Tuy nhiên, mô hình học máy tương lai của chúng tôi diễn giải thứ tự số giữa 0 đối với Pháp, 1 cho Tây Ban Nha và 2 đối với vấn đề của Đức, không phải trường hợp. Để đảm bảo giải thích sai này không xảy ra, chúng tôi sử dụng mã hóa một lần nóng.

Mã hóa một lần nóng chuyển đổi cột

print(x) # returns an array of features
5 phân loại của chúng tôi thành ba cột. Nó tạo ra một vectơ nhị phân độc đáo cho mỗi quốc gia sao cho không có thứ tự số giữa các loại quốc gia.

Hãy cùng xem cách mã hóa một lần cho phép chúng tôi đạt được điều này bằng cách thực thi mã bên dưới:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder= 'passthrough')
x = np.array(ct.fit_transform(x))

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
0

Đầu ra

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
1

Các giá trị còn thiếu trên các cột

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
9 và
print(x) # returns an array of features
0 được thay thế bằng phương tiện cột tương ứng của chúng, tức là,
print(x) # returns an array of features
3 và
print(x) # returns an array of features
4, tương ứng.

Bước 4: Mã hóa dữ liệu phân loại

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
2

Đầu ra

Các giá trị còn thiếu trên các cột

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
9 và
print(x) # returns an array of features
0 được thay thế bằng phương tiện cột tương ứng của chúng, tức là,
print(x) # returns an array of features
3 và
print(x) # returns an array of features
4, tương ứng.

Bước 4: Mã hóa dữ liệu phân loại

Trong quá trình mã hóa, chúng tôi chuyển đổi dữ liệu văn bản thành dữ liệu số. Mã hóa dữ liệu phân loại liên quan đến việc thay đổi dữ liệu thuộc các danh mục thành dữ liệu số.

Các cột

print(x) # returns an array of features
5 và
print(x) # returns an array of features
6 của bộ dữ liệu của chúng tôi chứa dữ liệu thuộc các danh mục. Vì các mô hình học máy dựa trên phương trình toán học, chỉ có đầu vào số, nên việc tính toán mối tương quan giữa tính năng và các biến phụ thuộc là rất khó. Để đảm bảo điều này không xảy ra, chúng ta cần chuyển đổi các mục nhập chuỗi trong bộ dữ liệu thành các số.

Đối với bộ dữ liệu của chúng tôi, chúng tôi sẽ mã Pháp thành 0, Tây Ban Nha thành 1 và Đức thành 2. Tuy nhiên, mô hình học máy tương lai của chúng tôi diễn giải thứ tự số giữa 0 đối với Pháp, 1 cho Tây Ban Nha và 2 đối với vấn đề của Đức, không phải trường hợp. Để đảm bảo giải thích sai này không xảy ra, chúng tôi sử dụng mã hóa một lần nóng.

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
3

Đầu ra

Hãy để in đầu ra khi thực hiện mã bên dưới.

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
4

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
5

Bộ dữ liệu của chúng tôi được phân chia thành công. Các tính năng của chúng tôi được chia thành tám quan sát cho

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
0 và 2 cho
[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
1, tương ứng (vì chúng tôi đặt hạt giống của chúng tôi, ngẫu nhiên = 1) thành cùng một sự phân tách của biến phụ thuộc
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
0.

Lựa chọn được thực hiện ngẫu nhiên và nó có thể thực hiện tại bất kỳ thực thi nào để có được các tập hợp con khác với đầu ra trên.

Bước 6: tỷ lệ tính năng

Trong hầu hết các trường hợp, chúng tôi sẽ làm việc với các bộ dữ liệu có các tính năng không ở cùng quy mô. Một số tính năng thường có các giá trị to lớn và một số khác có giá trị nhỏ.

Giả sử chúng tôi triển khai mô hình học máy của chúng tôi trên các bộ dữ liệu như vậy. Trong trường hợp đó, các tính năng có giá trị to lớn thống trị các giá trị có giá trị nhỏ và mô hình học máy xử lý những giá trị nhỏ như thể chúng không tồn tại (ảnh hưởng của chúng đối với dữ liệu không được tính). Để đảm bảo điều này không phải là trường hợp, chúng tôi cần mở rộng quy mô các tính năng của mình trên cùng một phạm vi, tức là, trong khoảng thời gian -3 và 3.

Do đó, chúng tôi sẽ chỉ mở rộng các cột

Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
9 và
print(x) # returns an array of features
0 của
[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
0 và
[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
1 của chúng tôi vào khoảng này. Mã dưới đây cho phép chúng tôi đạt được điều này.

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
6

Đầu ra

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
7

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
8

Lưu ý rằng trong

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
0 và
[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
1, chúng tôi chỉ mở rộng các cột
Dataset = pd.read_csv("/content/drive/MyDrive/Dataset.csv")

# importing an array of features
x = Dataset.iloc[:, :-1].values 
# importing an array of dependent variable
y = Dataset.iloc[:, -1].values
9 và
print(x) # returns an array of features
0 chứ không phải các biến giả. Điều này là do tỷ lệ các biến giả có thể can thiệp vào cách giải thích dự định của chúng mặc dù chúng nằm trong phạm vi yêu cầu.

Sự kết luận

Đến thời điểm này, chúng tôi đã chuẩn bị toàn bộ dữ liệu của mình và giờ đây nó đã sẵn sàng để được đưa vào các mô hình học máy khác nhau. Tại thời điểm này, dữ liệu của chúng tôi không có sự bất thường và các mô hình có ý nghĩa phân tích của bộ dữ liệu. Tôi hy vọng bạn tìm thấy điều này hữu ích.

Học hỏi!


Đóng góp đánh giá ngang hàng của: Lalithnarayan C

5 bước chính của tiền xử lý dữ liệu là gì?

Các bước tiền xử lý dữ liệu..
Đánh giá chất lượng dữ liệu ..
Làm sạch dữ liệu ..
Chuyển đổi dữ liệu ..
Giảm dữ liệu ..

Các bước trong tiền xử lý dữ liệu trong Python là gì?

Cách xử lý dữ liệu trong từng bước của Python..
Tải dữ liệu trong gấu trúc ..
Thả các cột không hữu ích ..
Thả hàng với các giá trị bị thiếu ..
Tạo các biến giả ..
Chăm sóc dữ liệu bị thiếu ..
Chuyển đổi khung dữ liệu thành Numpy ..
Chia tập dữ liệu thành dữ liệu đào tạo và dữ liệu kiểm tra ..

Tiền xử lý dữ liệu trong việc học máy ở Python là gì?

Tiền xử lý dữ liệu là một kỹ thuật được sử dụng để chuyển đổi dữ liệu thô thành tập dữ liệu sạch.Nói cách khác, bất cứ khi nào dữ liệu được thu thập từ các nguồn khác nhau, nó được thu thập ở định dạng thô, điều này không khả thi cho phân tích.a technique that is used to convert the raw data into a clean data set. In other words, whenever the data is gathered from different sources it is collected in raw format which is not feasible for the analysis.

Bốn bước trong tiền xử lý dữ liệu là gì?

Để làm cho quá trình dễ dàng hơn, tiền xử lý dữ liệu được chia thành bốn giai đoạn: làm sạch dữ liệu, tích hợp dữ liệu, giảm dữ liệu và chuyển đổi dữ liệu.data cleaning, data integration, data reduction, and data transformation.