Hướng dẫn how do you scale data in python? - làm thế nào để bạn chia tỷ lệ dữ liệu trong python?


Tính năng quy mô

Khi dữ liệu của bạn có các giá trị khác nhau và thậm chí các đơn vị đo khác nhau, có thể khó so sánh chúng. Kilogram là gì so với mét? Hoặc độ cao so với thời gian?

Câu trả lời cho vấn đề này là mở rộng quy mô. Chúng ta có thể mở rộng dữ liệu thành các giá trị mới dễ so sánh hơn.

Hãy xem bảng bên dưới, đó là cùng một tập dữ liệu mà chúng ta đã sử dụng trong chương hồi quy bội, nhưng lần này cột âm lượng chứa các giá trị trong lít thay vì CM3 (1.0 thay vì 1000).volume column contains values in liters instead of cm3 (1.0 instead of 1000).

Xe hơiNgười mẫuÂm lượngTrọng lượngCO2

ToyotaAygo1.0 790 99
MitsubishiNgôi sao không gian1.2 1160 95
SkodaCitigo1.0 929 95
Fiat500 0.9 865 90
MINICooper1.5 1140 105
VwLên!1.0 929 105
SkodaCitigo1.4 1109 90
FiatMINI1.5 1365 92
CooperVw1.5 1112 98
Lên!Fabia1.6 1150 99
MercedesMột lớp học1.1 980 99
FordFiesta1.3 990 101
CooperVw1.0 1112 99
Lên!Fabia1.6 1252 94
MercedesMột lớp học1.6 1326 97
FordFiesta1.6 1330 97
Audi1 1.6 1365 99
A13 2.2 1280 104
SkodaCitigo1.6 1119 104
CooperVw2.0 1328 105
CooperVw1.6 1584 94
FordFiesta2.0 1428 99
FiatMINI2.1 1365 99
SkodaCitigo1.6 1415 99
FiatMINI2.0 1415 99
FiatMINI1.5 1465 102
Lên!Fabia2.0 1490 104
Lên!Fabia2.0 1725 114
FiatMINI1.6 1523 109
Audi5 2.0 1705 114
FiatMINI2.1 1605 115
FiatMINI2.0 1746 117
CooperVw1.6 1235 104
Audi2 1.6 1390 108
FordFiesta1.6 1405 109
FiatMINI2.5 1395 120

Cooper

Vw

Lên!

z = (x - u) / s

Fabia

Mercedesweight column from the data set above, the first value is 790, and the scaled value will be:

(790 - 1292.23) / 238.74 = -2.1

Một lớp họcvolume column from the data set above, the first value is 1.0, and the scaled value will be:

(1.0 - 1.61) / 0.38 = -1.59

Ford

Fiesta

Audi

A1

Hyundai
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler
scale = StandardScaler()

I20

Suzuki

Nhanh

Honda

Result:

Công dân

[[-2.10389253 -1.59336644]
 [-0.55407235 -1.07190106]
 [-1.52166278 -1.59336644]
 [-1.78973979 -1.85409913]
 [-0.63784641 -0.28970299]
 [-1.52166278 -1.59336644]
 [-0.76769621 -0.55043568]
 [ 0.3046118  -0.28970299]
 [-0.7551301  -0.28970299]
 [-0.59595938 -0.0289703 ]
 [-1.30803892 -1.33263375]
 [-1.26615189 -0.81116837]
 [-0.7551301  -1.59336644]
 [-0.16871166 -0.0289703 ]
 [ 0.14125238 -0.0289703 ]
 [ 0.15800719 -0.0289703 ]
 [ 0.3046118  -0.0289703 ]
 [-0.05142797  1.53542584]
 [-0.72580918 -0.0289703 ]
 [ 0.14962979  1.01396046]
 [ 1.2219378  -0.0289703 ]
 [ 0.5685001   1.01396046]
 [ 0.3046118   1.27469315]
 [ 0.51404696 -0.0289703 ]
 [ 0.51404696  1.01396046]
 [ 0.72348212 -0.28970299]
 [ 0.8281997   1.01396046]
 [ 1.81254495  1.01396046]
 [ 0.96642691 -0.0289703 ]
 [ 1.72877089  1.01396046]
 [ 1.30990057  1.27469315]
 [ 1.90050772  1.01396046]
 [-0.23991961 -0.0289703 ]
 [ 0.40932938 -0.0289703 ]
 [ 0.47215993 -0.0289703 ]
 [ 0.4302729   2.31762392]]

Hundai



I30

Opel

Astra

Audi

A1

Hyundai
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler
scale = StandardScaler()

I20

Suzuki
y = df['CO2']

Nhanh

Honda
regr.fit(scaledX, y)

Công dân

Hundai
print(predictedCO2)

Result:

Hundai



Scale () làm gì trong Python?

Hàm scale () là một hàm sẵn có trong thư viện hình ảnh đũa python được sử dụng để thay đổi kích thước hình ảnh bằng cách chia tỷ lệ mỗi giá trị pixel bằng các cột và hàng đã cho.change the image size by scaling each pixel value by given columns and rows.

Làm thế nào để bạn bình thường hóa và mở rộng dữ liệu trong Python?

Sử dụng MinMaxScaler () để bình thường hóa dữ liệu trong Python Đây là một lựa chọn phổ biến hơn để bình thường hóa các bộ dữ liệu.Bạn có thể thấy rằng các giá trị trong đầu ra nằm giữa (0 và 1).MinMaxScaler cũng cung cấp cho bạn tùy chọn để chọn phạm vi tính năng.Theo mặc định, phạm vi được đặt thành (0,1). This is a more popular choice for normalizing datasets. You can see that the values in the output are between (0 and 1). MinMaxScaler also gives you the option to select feature range. By default, the range is set to (0,1).

Tại sao chúng ta mở rộng dữ liệu trong Python?

Tính năng chia tỷ lệ hoặc tiêu chuẩn hóa: Đây là một bước của việc xử lý trước dữ liệu được áp dụng cho các biến hoặc tính năng độc lập của dữ liệu.Về cơ bản, nó giúp bình thường hóa dữ liệu trong một phạm vi cụ thể.helps to normalize the data within a particular range.

Làm thế nào để bạn mở rộng dữ liệu?

Điều này có nghĩa là bạn đang chuyển đổi dữ liệu của mình để nó phù hợp trong một thang đo cụ thể, như 0-100 hoặc 0-1.Bạn muốn mở rộng dữ liệu khi bạn sử dụng các phương thức dựa trên các biện pháp cách xa các điểm dữ liệu cách xa nhau, như máy vectơ hỗ trợ (SVM) hoặc hàng xóm gần nhất K (KNN).using methods based on measures of how far apart data points are, like support vector machines (SVM) or k-nearest neighbors (KNN).