Hướng dẫn dùng abbreviation construction python - sử dụng viết tắt python xây dựng

1. Mô hình học máy đầu tiên của bạn

Vậy ngày hôm nay chúng ta đang xây dựng mô hình máy học nào? Trong bài viết này, chúng tôi sẽ xây dựng một mô hình hồi quy bằng cách sử dụng thuật toán rừng ngẫu nhiên trên bộ dữ liệu hòa tan.

Nội phân chính

  • 1. Mô hình học máy đầu tiên của bạn
  • 2.1. Bộ dữ liệu đồ chơi
  • 2.2. Bộ dữ liệu của riêng bạn
  • 3. Tách dữ liệu
  • 4. Xây dựng mô hình
  • 4.1. Hồi quy tuyến tính
  • 4.2. Rừng ngẫu nhiên
  • 4.3. Các thuật toán học máy khác
  • 4.4. Kết hợp kết quả
  • 5. Trực quan hóa dữ liệu kết quả dự đoán
  • Cái gì tiếp theo?
  • Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!
  • Làm thế nào để bạn phù hợp với một mô hình trong Python?
  • Nó có nghĩa là gì để phù hợp với một python mô hình?
  • Làm thế nào để phù hợp () hoạt động trong Python?
  • Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Sau khi xây dựng mô hình, chúng tôi sẽ áp dụng mô hình để đưa ra dự đoán theo sau là đánh giá hiệu suất mô hình và trực quan hóa dữ liệu về kết quả của nó.

2. Bộ dữ liệu

2.1. Bộ dữ liệu đồ chơi

2.2. Bộ dữ liệu của riêng bạn

3. Tách dữ liệu

4. Xây dựng mô hình

from sklearn import datasetsiris = datasets.load_iris()
X = iris.data
y = iris.target

4.1. Hồi quy tuyến tính

2.2. Bộ dữ liệu của riêng bạn

3. Tách dữ liệu

4. Xây dựng mô hình

4.1. Hồi quy tuyến tính

4.2. Rừng ngẫu nhiên

4.3. Các thuật toán học máy khác

4.4. Kết hợp kết quả

5. Trực quan hóa dữ liệu kết quả dự đoán

import pandas as pddf = pd.read_csv('data.csv')

Cái gì tiếp theo?

Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!

Làm thế nào để bạn phù hợp với một mô hình trong Python?

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')

Nó có nghĩa là gì để phù hợp với một python mô hình?

Làm thế nào để phù hợp () hoạt động trong Python?

Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Sau khi xây dựng mô hình, chúng tôi sẽ áp dụng mô hình để đưa ra dự đoán theo sau là đánh giá hiệu suất mô hình và trực quan hóa dữ liệu về kết quả của nó.

2. Bộ dữ liệu

Vậy chúng ta sẽ sử dụng bộ dữ liệu nào? Câu trả lời mặc định có thể là sử dụng bộ dữ liệu đồ chơi làm ví dụ như bộ dữ liệu IRIS (phân loại) hoặc bộ dữ liệu nhà ở Boston (hồi quy).

X = df.drop(['logS'], axis=1)

Như chúng ta có thể thấy, chúng tôi đã làm điều này bằng cách thả hoặc loại bỏ cột cuối cùng (

y = df.iloc[:,-1]
4).

2.2.2.2. Gán biến cho y

Để gán cột cuối cùng cho biến

y = df.iloc[:,-1]
0, chúng tôi đơn giản chọn cột cuối cùng và gán nó cho biến
y = df.iloc[:,-1]
0 như sau:

y = df.iloc[:,-1]

Như chúng ta có thể thấy, chúng tôi đã làm điều này bằng cách chọn rõ ràng cột cuối cùng. Hai phương pháp thay thế cũng có thể được thực hiện để có được kết quả tương tự trong đó phương pháp đầu tiên như sau:

y = df[‘logS’]

Và cách tiếp cận thứ hai như sau:

y = df.logS

Chọn 1 trong số các lựa chọn của bạn và tiếp tục bước tiếp theo.

3. Tách dữ liệu

Chia tách dữ liệu cho phép đánh giá không thiên vị về hiệu suất của mô hình trên dữ liệu mới mà mô hình chưa từng thấy trước đây. Đặc biệt, nếu bộ dữ liệu đầy đủ được chia thành tập huấn luyện và tập kiểm tra sử dụng tỷ lệ phân chia 80/20 thì mô hình có thể được xây dựng bằng cách sử dụng tập hợp dữ liệu 80% (nghĩa là chúng ta có thể gọi bộ đào tạo) và sau đó được đánh giá trên 20% tập hợp dữ liệu (nghĩa là chúng ta có thể gọi tập kiểm tra). Ngoài việc áp dụng mô hình được đào tạo trên bộ thử nghiệm, chúng tôi cũng có thể áp dụng mô hình được đào tạo trên bộ đào tạo (nghĩa là dữ liệu được sử dụng để xây dựng mô hình ngay từ đầu).

So sánh sau đó về hiệu suất mô hình của cả hai lần chia dữ liệu (nghĩa là tập huấn luyện và bộ thử nghiệm) sẽ cho phép chúng tôi đánh giá xem mô hình có thiếu hụt hay quá mức hay không. Thất hiệu thường xảy ra cho dù cả hiệu suất của tập huấn luyện và tập kiểm tra đều kém trong khi việc tập hợp quá mức, tập kiểm tra có hoạt động kém hơn đáng kể khi so sánh với tập huấn luyện.

Để thực hiện phân tách dữ liệu, thư viện

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
1 có chức năng
y = df.iloc[:,-1]
8 cho phép chúng tôi thực hiện việc này. Một ví dụ về việc sử dụng chức năng này để chia bộ dữ liệu thành tập huấn luyện và bộ kiểm tra được hiển thị bên dưới:

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)

Trong mã trên, dòng đầu tiên nhập hàm

y = df.iloc[:,-1]
8 từ mô-đun phụ
y = df[‘logS’]
0. Như chúng ta có thể thấy, đối số đầu vào bao gồm dữ liệu đầu vào
X = df.drop(['logS'], axis=1)
9 và
y = df.iloc[:,-1]
0, kích thước tập kiểm tra được chỉ định là 0,2 (nghĩa là 20% dữ liệu sẽ được chuyển đến tập kiểm tra trong khi 80% còn lại cho tập huấn luyện) và Số hạt ngẫu nhiên được đặt thành 42.

Từ mã trên, chúng ta có thể thấy rằng chúng ta đã tạo đồng thời 4 biến bao gồm các biến

X = df.drop(['logS'], axis=1)
9 và
y = df.iloc[:,-1]
0 phân tách cho tập huấn luyện (
y = df[‘logS’]
5 và
y = df[‘logS’]
6) và tập kiểm tra (
y = df[‘logS’]
7 và
y = df[‘logS’]
8).

Bây giờ chúng tôi đã sẵn sàng để sử dụng 4 biến này để xây dựng mô hình.

4. Xây dựng mô hình

Đến phần thú vị! Bây giờ chúng tôi sẽ xây dựng một số mô hình hồi quy.

4.1. Hồi quy tuyến tính

4.1.1. Xây dựng mô hình

Hãy bắt đầu với hồi quy tuyến tính truyền thống.

________số 8

Dòng đầu tiên nhập hàm

y = df[‘logS’]
9 từ mô-đun phụ
y = df.logS
0. Tiếp theo, hàm
y = df[‘logS’]
9 được gán cho biến
y = df.logS
2 và hàm
y = df.logS
3 thực hiện đào tạo mô hình thực tế trên dữ liệu đầu vào
y = df[‘logS’]
5 và
y = df[‘logS’]
6.

Bây giờ mô hình được xây dựng, chúng tôi sẽ áp dụng nó để đưa ra dự đoán trên tập huấn luyện và tập kiểm tra như sau:

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)

Như chúng ta có thể thấy trong mã trên, mô hình (

y = df.logS
2) được áp dụng để đưa ra dự đoán thông qua hàm
y = df.logS
7 trên tập huấn luyện và tập kiểm tra.

4.1.2. Hiệu suất mô hình

Bây giờ chúng tôi sẽ tính toán các số liệu hiệu suất để chúng tôi có thể xác định hiệu suất mô hình.

import pandas as pddf = pd.read_csv('data.csv')
0

Trong mã trên, chúng tôi nhập các hàm

y = df.logS
8 và
y = df.logS
9 từ mô hình phụ
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
0 để tính toán các số liệu hiệu suất. Các đối số đầu vào cho cả hai hàm là các giá trị y thực tế (
y = df.iloc[:,-1]
0) và các giá trị y dự đoán (
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
2 và
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
3).Y values (
y = df.iloc[:,-1]
0) and the predicted Y values (
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
2 and
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
3).

Hãy để nói về quy ước đặt tên được sử dụng ở đây, chúng tôi gán hàm cho các biến tự giải thích rõ ràng cho biết những gì biến chứa. Ví dụ, ________ 74 và

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
5 nói rõ ràng rằng các biến chứa các số liệu hiệu suất MSE và R2 cho các mô hình xây dựng bằng cách sử dụng hồi quy tuyến tính trên tập huấn luyện. Ưu điểm của việc sử dụng quy ước đặt tên này là các số liệu hiệu suất của bất kỳ mô hình nào trong tương lai được xây dựng bằng thuật toán học máy khác có thể dễ dàng được xác định bằng các tên biến của nó. Ví dụ, chúng tôi có thể sử dụng
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
6 để biểu thị MSE của bộ đào tạo cho một mô hình được xây dựng bằng cách sử dụng rừng ngẫu nhiên.

Các số liệu hiệu suất có thể được hiển thị bằng cách chỉ in các biến. Chẳng hạn, để in ra MSE cho bộ đào tạo:

import pandas as pddf = pd.read_csv('data.csv')
1

mà cho

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
7.

Để xem kết quả cho 3 số liệu khác, chúng tôi cũng có thể in từng cái một nhưng điều đó sẽ hơi lặp đi lặp lại.

Một cách khác là tạo ra màn hình gọn gàng của 4 số liệu như sau:

import pandas as pddf = pd.read_csv('data.csv')
2

trong đó tạo ra các dữ liệu sau:

Hướng dẫn dùng abbreviation construction python - sử dụng viết tắt python xây dựng

4.2. Rừng ngẫu nhiên

Rừng ngẫu nhiên (RF) là một phương pháp học tập theo cách kết hợp dự đoán của một số cây quyết định. Một điều tuyệt vời về RF là tầm quan trọng tính năng tích hợp của nó (nghĩa là các giá trị chỉ mục Gini mà nó tạo ra cho các mô hình được xây dựng).

4.2.1. Xây dựng mô hình

Bây giờ, hãy để xây dựng một mô hình RF bằng cách sử dụng mã sau:

import pandas as pddf = pd.read_csv('data.csv')
3

Trong mã trên, dòng đầu tiên nhập hàm

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
8 (nghĩa là cũng có thể được gọi là bộ hồi quy) từ mô-đun phụ
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
9. Cần lưu ý ở đây rằng
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
8 là phiên bản hồi quy (tức là điều này được sử dụng khi biến Y bao gồm các giá trị số) trong khi phiên bản chị em của nó là
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
1, là phiên bản phân loại (tức là điều này được sử dụng cho khi biến Y chứa giá trị phân loại).

Trong ví dụ này, chúng tôi đang đặt tham số

from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
2 thành 2 và số hạt ngẫu nhiên (thông qua
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
3) là 42. Cuối cùng, mô hình được đào tạo bằng hàm
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
4 nơi chúng tôi đặt
y = df[‘logS’]
5 và
y = df[‘logS’]
6 làm dữ liệu đầu vào.

Bây giờ chúng tôi sẽ áp dụng mô hình được xây dựng để đưa ra dự đoán trên tập huấn luyện và tập kiểm tra như sau:

import pandas as pddf = pd.read_csv('data.csv')
4

Theo cách tương tự như được sử dụng trong mô hình

y = df.logS
2, mô hình
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
8 cũng được áp dụng để đưa ra dự đoán thông qua hàm
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
9 trên tập huấn luyện và tập kiểm tra.

4.2.2. Hiệu suất mô hình

Bây giờ, hãy tính toán các số liệu hiệu suất cho mô hình rừng ngẫu nhiên được xây dựng như sau:

import pandas as pddf = pd.read_csv('data.csv')
5

Để hợp nhất kết quả, chúng tôi sử dụng mã sau:

import pandas as pddf = pd.read_csv('data.csv')
6

sản xuất:

4.3. Các thuật toán học máy khác

Để xây dựng các mô hình sử dụng các thuật toán học máy khác (ngoài

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)
0 mà chúng tôi đã sử dụng ở trên), chúng tôi chỉ cần quyết định sử dụng thuật toán nào từ các hồi quy có sẵn (nghĩa là vì biến bộ dữ liệu của bộ dữ liệu có chứa các giá trị phân loại).

4.3.1. Danh sách các hồi quy

Hãy cùng xem một số hồi quy ví dụ mà chúng ta có thể chọn từ:

  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    1
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    2
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    3
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    4
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    5
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    6
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    7
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    8
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    9
  • import pandas as pddf = pd.read_csv('data.csv')
    00

Để biết danh sách các hồi quy rộng rãi hơn, vui lòng tham khảo tham chiếu API ____ 101.

4.3.2. Sử dụng một bộ hồi quy

Hãy nói rằng chúng tôi muốn sử dụng

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)
8 mà chúng tôi sẽ sử dụng như sau:

import pandas as pddf = pd.read_csv('data.csv')
7

Lưu ý cách chúng tôi nhập chức năng hồi quy cho

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)
8 như sau:
import pandas as pddf = pd.read_csv('data.csv')
04
import pandas as pddf = pd.read_csv('data.csv')
04

Sau đó, hàm hồi quy sau đó được gán cho một biến (nghĩa là

import pandas as pddf = pd.read_csv('data.csv')
05 trong ví dụ này) và được đào tạo mô hình thông qua hàm
y = df.logS
3 như trong
import pandas as pddf = pd.read_csv('data.csv')
07.

4.4. Kết hợp kết quả

Hãy để nhớ lại rằng các số liệu hiệu suất mô hình mà trước đây chúng tôi đã tạo ở trên cho hồi quy tuyến tính và các mô hình rừng ngẫu nhiên được lưu trữ trong các biến

import pandas as pddf = pd.read_csv('data.csv')
08 và
import pandas as pddf = pd.read_csv('data.csv')
09.

Vì cả hai biến là DataFrames, chúng tôi sẽ kết hợp chúng bằng hàm

import pandas as pddf = pd.read_csv('data.csv')
10 như hình dưới đây:

import pandas as pddf = pd.read_csv('data.csv')
8

Điều này tạo ra các dữ liệu sau:

Cần lưu ý rằng các số liệu hiệu suất cho các phương pháp học tập bổ sung cũng có thể được thêm vào bằng cách nối vào danh sách

import pandas as pddf = pd.read_csv('data.csv')
11.

Ví dụ,

import pandas as pddf = pd.read_csv('data.csv')
12 có thể được thêm vào danh sách, sau đó sẽ trở thành
import pandas as pddf = pd.read_csv('data.csv')
13.

5. Trực quan hóa dữ liệu kết quả dự đoán

Bây giờ, chúng ta hãy hình dung mối quan hệ của các giá trị y thực tế với các giá trị y dự đoán của chúng là nhật ký thử nghiệm so với các giá trị nhật ký dự đoán.

import pandas as pddf = pd.read_csv('data.csv')
9

Như đã hiển thị ở trên, chúng tôi sẽ sử dụng thư viện

import pandas as pddf = pd.read_csv('data.csv')
14 để tạo biểu đồ phân tán trong khi
import pandas as pddf = pd.read_csv('data.csv')
15 được sử dụng để tạo dòng xu hướng của dữ liệu. Ở đây, chúng tôi đặt kích thước hình là 5 × 5 thông qua tham số
import pandas as pddf = pd.read_csv('data.csv')
16 của hàm
import pandas as pddf = pd.read_csv('data.csv')
17.

Hàm

import pandas as pddf = pd.read_csv('data.csv')
18 được sử dụng để tạo biểu đồ phân tán trong đó
y = df[‘logS’]
6 và
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
2 (nghĩa là các dự đoán tập huấn luyện được thực hiện bởi hồi quy tuyến tính) được sử dụng làm dữ liệu đầu vào. Màu được đặt thành màu xanh lá cây bằng mã màu HTML (mã HEX) là
import pandas as pddf = pd.read_csv('data.csv')
21.

Một dòng xu hướng cho sơ đồ thông qua hàm

import pandas as pddf = pd.read_csv('data.csv')
22 và được hiển thị thông qua hàm
import pandas as pddf = pd.read_csv('data.csv')
23 như được hiển thị ở trên. Cuối cùng, nhãn trục x và trục Y được thêm vào thông qua các hàm
import pandas as pddf = pd.read_csv('data.csv')
24 và
import pandas as pddf = pd.read_csv('data.csv')
25, tương ứng.

Biểu đồ phân tán kết xuất được hiển thị bên trái.

Cái gì tiếp theo?

Chúc mừng bạn đã xây dựng mô hình học máy đầu tiên của bạn!

Những gì tiếp theo, bạn có thể hỏi. Câu trả lời khá đơn giản, xây dựng nhiều mô hình hơn! Điều chỉnh các tham số, thử các thuật toán mới, tinker với việc bổ sung các tính năng mới vào đường ống học máy và quan trọng nhất là tất cả don don sợ mắc lỗi. Trên thực tế, con đường nhanh nhất đến Turbo tính phí học tập của bạn là thất bại thường xuyên, hãy trở lại và thử lại. Học tập là tận hưởng quá trình và nếu bạn kiên trì đủ lâu, bạn sẽ tự tin hơn vào con đường trở thành một chuyên gia dữ liệu cho dù đó là khoa học dữ liệu, nhà phân tích dữ liệu hoặc kỹ sư dữ liệu. Nhưng quan trọng nhất là trong tất cả, như tôi luôn muốn nói:

Cách tốt nhất để học khoa học dữ liệu là làm khoa học dữ liệu ”

Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!

Làm thế nào để bạn phù hợp với một mô hình trong Python?

Nếu bạn muốn phù hợp với một mô hình có mức độ cao hơn, bạn có thể xây dựng các tính năng đa thức ra khỏi dữ liệu tính năng tuyến tính và cũng phù hợp với mô hình ...

Phương pháp: Số liệu thống kê. linreatic () ....

Phương pháp: Tối ưu hóa. curve_fit () ....

Phương pháp: Numpy. Linalg. ....

Phương pháp: StatSmodels. ....

Phương pháp: Giải pháp phân tích sử dụng phương pháp nghịch đảo ma trận. ....

Phương pháp: Sklearn ..

Nó có nghĩa là gì để phù hợp với một python mô hình?

Phù hợp với mô hình là thước đo mô hình học máy nói chung là dữ liệu tương tự như thế nào mà nó được đào tạo.a measure of how well a machine learning model generalizes to similar data to that on which it was trained.

Làm thế nào để phù hợp () hoạt động trong Python?

Phương pháp Fit () lấy dữ liệu đào tạo làm đối số, có thể là một mảng trong trường hợp học tập không giám sát, hoặc hai mảng trong trường hợp học tập có giám sát. Lưu ý rằng mô hình được trang bị bằng X và Y, nhưng đối tượng không có tham chiếu đến X và Y.takes the training data as arguments, which can be one array in the case of unsupervised learning, or two arrays in the case of supervised learning. Note that the model is fitted using X and y , but the object holds no reference to X and y .

Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Làm thế nào để phù hợp với mô hình hồi quy tuyến tính trong Python ?..

Hồi quy tuyến tính là gì?.

Bước 1: Đọc tập dữ liệu ..

Bước 2: Đặt mục tiêu và hồi quy ..

Bước 3: Mô hình hồi quy tuyến tính phù hợp và kết quả dự đoán ..

Bước 4: Nhìn vào sự thay đổi được giải thích bởi bộ hồi quy ..