Hướng dẫn how do i create a python training model? - làm cách nào để tạo mô hình đào tạo python?

1. Mô hình học máy đầu tiên của bạn

Vậy ngày hôm nay chúng ta đang xây dựng mô hình máy học nào? Trong bài viết này, chúng tôi sẽ xây dựng một mô hình hồi quy bằng cách sử dụng thuật toán rừng ngẫu nhiên trên bộ dữ liệu hòa tan.

Sau khi xây dựng mô hình, chúng tôi sẽ áp dụng mô hình để đưa ra dự đoán theo sau là đánh giá hiệu suất mô hình và trực quan hóa dữ liệu về kết quả của nó.

2. Bộ dữ liệu

2.1. Bộ dữ liệu đồ chơi

Vậy chúng ta sẽ sử dụng bộ dữ liệu nào? Câu trả lời mặc định có thể là sử dụng bộ dữ liệu đồ chơi làm ví dụ như bộ dữ liệu IRIS (phân loại) hoặc bộ dữ liệu nhà ở Boston (hồi quy).

Mặc dù cả hai đều là những ví dụ tuyệt vời để bắt đầu, nhưng thông thường hầu hết các hướng dẫn không thực sự tải các dữ liệu này trực tiếp từ nguồn bên ngoài (nghĩa là từ tệp CSV) mà thay vào đó đang nhập dữ liệu trực tiếp từ thư viện Python như Sub

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
0 -Module của
import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
1.

Chẳng hạn, để tải trong bộ dữ liệu IRIS, người ta có thể sử dụng khối mã sau:

from sklearn import datasetsiris = datasets.load_iris()
X = iris.data
y = iris.target

Lợi ích của việc sử dụng bộ dữ liệu đồ chơi là chúng rất đơn giản để sử dụng, chỉ cần nhập dữ liệu trực tiếp từ thư viện theo định dạng có thể dễ dàng được sử dụng để xây dựng mô hình. Nhược điểm của sự tiện lợi này là những người học lần đầu có thể không thực sự thấy các hàm nào đang tải trong dữ liệu, những người đang thực hiện xử lý trước thực tế và các chức năng nào đang xây dựng mô hình, v.v.

2.2. Bộ dữ liệu của riêng bạn

Trong hướng dẫn này, chúng tôi sẽ thực hiện một cách tiếp cận thực tế, nơi chúng tôi sẽ tập trung vào việc xây dựng các mô hình thực tế mà bạn có thể dễ dàng sao chép. Vì chúng tôi sẽ đọc trong dữ liệu đầu vào trực tiếp từ tệp CSV, do đó bạn có thể dễ dàng thay thế dữ liệu đầu vào bằng dữ liệu của riêng bạn và tái sử dụng quy trình công việc được mô tả trong tài liệu này cho các dự án dữ liệu của riêng bạn.

Bộ dữ liệu mà chúng tôi đang sử dụng ngày nay là bộ dữ liệu

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
2. Nó bao gồm 1444 hàng và 5 cột. Mỗi hàng đại diện cho một phân tử duy nhất và mỗi phân tử được mô tả bởi 4 thuộc tính phân tử (4 cột đầu tiên) trong khi cột cuối cùng là biến mục tiêu được dự đoán. Biến mục tiêu này thể hiện khả năng hòa tan của một phân tử, đây là một thông số quan trọng của một loại thuốc điều trị, vì nó giúp một phân tử di chuyển bên trong cơ thể để tiếp cận mục tiêu của nó.

Dưới đây là một vài hàng đầu tiên của bộ dữ liệu

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
2.

Một vài hàng đầu tiên của bộ dữ liệu hòa tan.

2.2.1. Tải dữ liệu

Bộ dữ liệu

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
2 đầy đủ có sẵn trên dữ liệu Giáo sư GitHub tại liên kết sau: Tải xuống bộ dữ liệu hòa tan.

Để có thể sử dụng cho bất kỳ dự án khoa học dữ liệu nào, nội dung dữ liệu từ các tệp CSV có thể được đọc vào môi trường Python bằng thư viện

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
5. Tôi sẽ chỉ cho bạn làm thế nào trong ví dụ dưới đây:

import pandas as pddf = pd.read_csv('data.csv')

Dòng đầu tiên nhập thư viện

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
6 dưới dạng từ viết tắt ngắn được gọi là
import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
7 (để dễ gõ). Từ
import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
7, chúng tôi sẽ sử dụng chức năng
import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
9 của nó và do đó chúng tôi gõ vào
X = df.drop(['logS'], axis=1)
0. Bằng cách nhập
import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
7 ở phía trước, do đó chúng ta biết đến thư viện nào chức năng ____29 thuộc về.

Đối số đầu vào bên trong hàm

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
9 là tên tệp CSV mà trong ví dụ của chúng tôi ở trên là
X = df.drop(['logS'], axis=1)
4. Ở đây, chúng tôi gán nội dung dữ liệu từ tệp CSV cho một biến gọi là
X = df.drop(['logS'], axis=1)
5.

Trong hướng dẫn này, chúng tôi sẽ sử dụng bộ dữ liệu hòa tan (có sẵn tại https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv). Do đó, chúng tôi sẽ tải trong dữ liệu bằng mã sau:

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')

2.2.2. Xử lí dữ liệu

Bây giờ chúng tôi có dữ liệu dưới dạng DataFrame trong biến

X = df.drop(['logS'], axis=1)
5, giờ đây chúng tôi sẽ cần chuẩn bị nó ở định dạng phù hợp để thư viện
import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
1 sử dụng vì
X = df.drop(['logS'], axis=1)
5 chưa được thư viện sử dụng.

làm sao chúng ta làm việc đó bây giờ? Chúng ta sẽ cần tách chúng thành 2 biến

X = df.drop(['logS'], axis=1)
9 và
y = df.iloc[:,-1]
0.

4 cột đầu tiên ngoại trừ cột cuối cùng sẽ được gán cho biến

X = df.drop(['logS'], axis=1)
9 trong khi cột cuối cùng sẽ được gán cho biến
y = df.iloc[:,-1]
0.

2.2.2.1. Gán các biến cho x

Để gán 4 cột đầu tiên cho biến

X = df.drop(['logS'], axis=1)
9, chúng tôi sẽ sử dụng các dòng mã sau:

X = df.drop(['logS'], axis=1)

Như chúng ta có thể thấy, chúng tôi đã làm điều này bằng cách thả hoặc loại bỏ cột cuối cùng (

y = df.iloc[:,-1]
4).

2.2.2.2. Gán biến cho y

Để gán cột cuối cùng cho biến

y = df.iloc[:,-1]
0, chúng tôi đơn giản chọn cột cuối cùng và gán nó cho biến
y = df.iloc[:,-1]
0 như sau:

y = df.iloc[:,-1]

Như chúng ta có thể thấy, chúng tôi đã làm điều này bằng cách chọn rõ ràng cột cuối cùng. Hai phương pháp thay thế cũng có thể được thực hiện để có được kết quả tương tự trong đó phương pháp đầu tiên như sau:

y = df[‘logS’]

Và cách tiếp cận thứ hai như sau:

y = df.logS

Chọn 1 trong số các lựa chọn của bạn và tiếp tục bước tiếp theo.

3. Tách dữ liệu

Chia tách dữ liệu cho phép đánh giá không thiên vị về hiệu suất của mô hình trên dữ liệu mới mà mô hình chưa từng thấy trước đây. Đặc biệt, nếu bộ dữ liệu đầy đủ được chia thành tập huấn luyện và tập kiểm tra sử dụng tỷ lệ phân chia 80/20 thì mô hình có thể được xây dựng bằng cách sử dụng tập hợp dữ liệu 80% (nghĩa là chúng ta có thể gọi bộ đào tạo) và sau đó được đánh giá trên 20% tập hợp dữ liệu (nghĩa là chúng ta có thể gọi tập kiểm tra). Ngoài việc áp dụng mô hình được đào tạo trên bộ thử nghiệm, chúng tôi cũng có thể áp dụng mô hình được đào tạo trên bộ đào tạo (nghĩa là dữ liệu được sử dụng để xây dựng mô hình ngay từ đầu).

So sánh sau đó về hiệu suất mô hình của cả hai lần chia dữ liệu (nghĩa là tập huấn luyện và bộ thử nghiệm) sẽ cho phép chúng tôi đánh giá xem mô hình có thiếu hụt hay quá mức hay không. Thất hiệu thường xảy ra cho dù cả hiệu suất của tập huấn luyện và tập kiểm tra đều kém trong khi việc tập hợp quá mức, tập kiểm tra có hoạt động kém hơn đáng kể khi so sánh với tập huấn luyện.

Để thực hiện phân tách dữ liệu, thư viện

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')
1 có chức năng
y = df.iloc[:,-1]
8 cho phép chúng tôi thực hiện việc này. Một ví dụ về việc sử dụng chức năng này để chia bộ dữ liệu thành tập huấn luyện và bộ kiểm tra được hiển thị bên dưới:

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)

Trong mã trên, dòng đầu tiên nhập hàm

y = df.iloc[:,-1]
8 từ mô-đun phụ
y = df[‘logS’]
0. Như chúng ta có thể thấy, đối số đầu vào bao gồm dữ liệu đầu vào
X = df.drop(['logS'], axis=1)
9 và
y = df.iloc[:,-1]
0, kích thước tập kiểm tra được chỉ định là 0,2 (nghĩa là 20% dữ liệu sẽ được chuyển đến tập kiểm tra trong khi 80% còn lại cho tập huấn luyện) và Số hạt ngẫu nhiên được đặt thành 42.

Từ mã trên, chúng ta có thể thấy rằng chúng ta đã tạo đồng thời 4 biến bao gồm các biến

X = df.drop(['logS'], axis=1)
9 và
y = df.iloc[:,-1]
0 phân tách cho tập huấn luyện (
y = df[‘logS’]
5 và
y = df[‘logS’]
6) và tập kiểm tra (
y = df[‘logS’]
7 và
y = df[‘logS’]
8).

Bây giờ chúng tôi đã sẵn sàng để sử dụng 4 biến này để xây dựng mô hình.

4. Xây dựng mô hình

Đến phần thú vị! Bây giờ chúng tôi sẽ xây dựng một số mô hình hồi quy.

4.1. Hồi quy tuyến tính

4.1.1. Xây dựng mô hình

Hãy bắt đầu với hồi quy tuyến tính truyền thống.

from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)

Dòng đầu tiên nhập hàm

y = df[‘logS’]
9 từ mô-đun phụ
y = df.logS
0. Tiếp theo, hàm
y = df[‘logS’]
9 được gán cho biến
y = df.logS
2 và hàm
y = df.logS
3 thực hiện đào tạo mô hình thực tế trên dữ liệu đầu vào
y = df[‘logS’]
5 và
y = df[‘logS’]
6.

Bây giờ mô hình được xây dựng, chúng tôi sẽ áp dụng nó để đưa ra dự đoán trên tập huấn luyện và tập kiểm tra như sau:

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)

Như chúng ta có thể thấy trong mã trên, mô hình (

y = df.logS
2) được áp dụng để đưa ra dự đoán thông qua hàm
y = df.logS
7 trên tập huấn luyện và tập kiểm tra.

4.1.2. Hiệu suất mô hình

Bây giờ chúng tôi sẽ tính toán các số liệu hiệu suất để chúng tôi có thể xác định hiệu suất mô hình.

import pandas as pddf = pd.read_csv('data.csv')
0

Trong mã trên, chúng tôi nhập các hàm

y = df.logS
8 và
y = df.logS
9 từ mô hình phụ
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
0 để tính toán các số liệu hiệu suất. Các đối số đầu vào cho cả hai hàm là các giá trị y thực tế (
y = df.iloc[:,-1]
0) và các giá trị y dự đoán (
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
2 và
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
3).Y values (
y = df.iloc[:,-1]
0) and the predicted Y values (
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
2 and
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
3).

Hãy để nói về quy ước đặt tên được sử dụng ở đây, chúng tôi gán hàm cho các biến tự giải thích rõ ràng cho biết những gì biến chứa. Ví dụ, ________ 74 và

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
5 nói rõ ràng rằng các biến chứa các số liệu hiệu suất MSE và R2 cho các mô hình xây dựng bằng cách sử dụng hồi quy tuyến tính trên tập huấn luyện. Ưu điểm của việc sử dụng quy ước đặt tên này là các số liệu hiệu suất của bất kỳ mô hình nào trong tương lai được xây dựng bằng thuật toán học máy khác có thể dễ dàng được xác định bằng các tên biến của nó. Ví dụ, chúng tôi có thể sử dụng
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
6 để biểu thị MSE của bộ đào tạo cho một mô hình được xây dựng bằng cách sử dụng rừng ngẫu nhiên.

Các số liệu hiệu suất có thể được hiển thị bằng cách chỉ in các biến. Chẳng hạn, để in ra MSE cho bộ đào tạo:

import pandas as pddf = pd.read_csv('data.csv')
1

mà cho

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
7.

Để xem kết quả cho 3 số liệu khác, chúng tôi cũng có thể in từng cái một nhưng điều đó sẽ hơi lặp đi lặp lại.

Một cách khác là tạo ra màn hình gọn gàng của 4 số liệu như sau:

import pandas as pddf = pd.read_csv('data.csv')
2

trong đó tạo ra các dữ liệu sau:

4.2. Rừng ngẫu nhiên

Rừng ngẫu nhiên (RF) là một phương pháp học tập theo cách kết hợp dự đoán của một số cây quyết định. Một điều tuyệt vời về RF là tầm quan trọng tính năng tích hợp của nó (nghĩa là các giá trị chỉ mục Gini mà nó tạo ra cho các mô hình được xây dựng).

4.2.1. Xây dựng mô hình

Bây giờ, hãy để xây dựng một mô hình RF bằng cách sử dụng mã sau:

import pandas as pddf = pd.read_csv('data.csv')
3

Trong mã trên, dòng đầu tiên nhập hàm

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
8 (nghĩa là cũng có thể được gọi là bộ hồi quy) từ mô-đun phụ
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
9. Cần lưu ý ở đây rằng
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
8 là phiên bản hồi quy (tức là điều này được sử dụng khi biến Y bao gồm các giá trị số) trong khi phiên bản chị em của nó là
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
1, là phiên bản phân loại (tức là điều này được sử dụng cho khi biến Y chứa giá trị phân loại).

Trong ví dụ này, chúng tôi đang đặt tham số

from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
2 thành 2 và số hạt ngẫu nhiên (thông qua
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
3) là 42. Cuối cùng, mô hình được đào tạo bằng hàm
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
4 nơi chúng tôi đặt
y = df[‘logS’]
5 và
y = df[‘logS’]
6 làm dữ liệu đầu vào.

Bây giờ chúng tôi sẽ áp dụng mô hình được xây dựng để đưa ra dự đoán trên tập huấn luyện và tập kiểm tra như sau:

import pandas as pddf = pd.read_csv('data.csv')
4

Theo cách tương tự như được sử dụng trong mô hình

y = df.logS
2, mô hình
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
8 cũng được áp dụng để đưa ra dự đoán thông qua hàm
from sklearn.linear_model import LinearRegressionlr = LinearRegression()
lr.fit(X_train, y_train)
9 trên tập huấn luyện và tập kiểm tra.

4.2.2. Hiệu suất mô hình

Bây giờ, hãy tính toán các số liệu hiệu suất cho mô hình rừng ngẫu nhiên được xây dựng như sau:

import pandas as pddf = pd.read_csv('data.csv')
5

Để hợp nhất kết quả, chúng tôi sử dụng mã sau:

import pandas as pddf = pd.read_csv('data.csv')
6

sản xuất:

4.3. Các thuật toán học máy khác

Để xây dựng các mô hình sử dụng các thuật toán học máy khác (ngoài

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)
0 mà chúng tôi đã sử dụng ở trên), chúng tôi chỉ cần quyết định sử dụng thuật toán nào từ các hồi quy có sẵn (nghĩa là vì biến bộ dữ liệu của bộ dữ liệu có chứa các giá trị phân loại).

4.3.1. Danh sách các hồi quy

Hãy cùng xem một số hồi quy ví dụ mà chúng ta có thể chọn từ:

  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    1
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    2
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    3
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    4
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    5
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    6
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    7
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    8
  • y_lr_train_pred = lr.predict(X_train)
    y_lr_test_pred = lr.predict(X_test)
    9
  • import pandas as pddf = pd.read_csv('data.csv')
    00

Để biết danh sách các hồi quy rộng rãi hơn, vui lòng tham khảo tham chiếu API ____ 101.

4.3.2. Sử dụng một bộ hồi quy

Hãy nói rằng chúng tôi muốn sử dụng

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)
8 mà chúng tôi sẽ sử dụng như sau:

import pandas as pddf = pd.read_csv('data.csv')
7

Lưu ý cách chúng tôi nhập chức năng hồi quy cho

y_lr_train_pred = lr.predict(X_train)
y_lr_test_pred = lr.predict(X_test)
8 như sau:
import pandas as pddf = pd.read_csv('data.csv')
04
import pandas as pddf = pd.read_csv('data.csv')
04

Sau đó, hàm hồi quy sau đó được gán cho một biến (nghĩa là

import pandas as pddf = pd.read_csv('data.csv')
05 trong ví dụ này) và được đào tạo mô hình thông qua hàm
y = df.logS
3 như trong
import pandas as pddf = pd.read_csv('data.csv')
07.

4.4. Kết hợp kết quả

Hãy để nhớ lại rằng các số liệu hiệu suất mô hình mà trước đây chúng tôi đã tạo ở trên cho hồi quy tuyến tính và các mô hình rừng ngẫu nhiên được lưu trữ trong các biến

import pandas as pddf = pd.read_csv('data.csv')
08 và
import pandas as pddf = pd.read_csv('data.csv')
09.

Vì cả hai biến là DataFrames, chúng tôi sẽ kết hợp chúng bằng hàm

import pandas as pddf = pd.read_csv('data.csv')
10 như hình dưới đây:

import pandas as pddf = pd.read_csv('data.csv')
8

Điều này tạo ra các dữ liệu sau:

Cần lưu ý rằng các số liệu hiệu suất cho các phương pháp học tập bổ sung cũng có thể được thêm vào bằng cách nối vào danh sách

import pandas as pddf = pd.read_csv('data.csv')
11.

Ví dụ,

import pandas as pddf = pd.read_csv('data.csv')
12 có thể được thêm vào danh sách, sau đó sẽ trở thành
import pandas as pddf = pd.read_csv('data.csv')
13.

5. Trực quan hóa dữ liệu kết quả dự đoán

Bây giờ, chúng ta hãy hình dung mối quan hệ của các giá trị y thực tế với các giá trị y dự đoán của chúng là nhật ký thử nghiệm so với các giá trị nhật ký dự đoán.

import pandas as pddf = pd.read_csv('data.csv')
9

Như đã hiển thị ở trên, chúng tôi sẽ sử dụng thư viện

import pandas as pddf = pd.read_csv('data.csv')
14 để tạo biểu đồ phân tán trong khi
import pandas as pddf = pd.read_csv('data.csv')
15 được sử dụng để tạo dòng xu hướng của dữ liệu. Ở đây, chúng tôi đặt kích thước hình là 5 × 5 thông qua tham số
import pandas as pddf = pd.read_csv('data.csv')
16 của hàm
import pandas as pddf = pd.read_csv('data.csv')
17.

Hàm

import pandas as pddf = pd.read_csv('data.csv')
18 được sử dụng để tạo biểu đồ phân tán trong đó
y = df[‘logS’]
6 và
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42)
2 (nghĩa là các dự đoán tập huấn luyện được thực hiện bởi hồi quy tuyến tính) được sử dụng làm dữ liệu đầu vào. Màu được đặt thành màu xanh lá cây bằng mã màu HTML (mã HEX) là
import pandas as pddf = pd.read_csv('data.csv')
21.

Một dòng xu hướng cho sơ đồ thông qua hàm

import pandas as pddf = pd.read_csv('data.csv')
22 và được hiển thị thông qua hàm
import pandas as pddf = pd.read_csv('data.csv')
23 như được hiển thị ở trên. Cuối cùng, nhãn trục x và trục Y được thêm vào thông qua các hàm
import pandas as pddf = pd.read_csv('data.csv')
24 và
import pandas as pddf = pd.read_csv('data.csv')
25, tương ứng.

Biểu đồ phân tán kết xuất được hiển thị bên trái.

Cái gì tiếp theo?

Chúc mừng bạn đã xây dựng mô hình học máy đầu tiên của bạn!

Những gì tiếp theo, bạn có thể hỏi. Câu trả lời khá đơn giản, xây dựng nhiều mô hình hơn! Điều chỉnh các tham số, thử các thuật toán mới, tinker với việc bổ sung các tính năng mới vào đường ống học máy và quan trọng nhất là tất cả don don sợ mắc lỗi. Trên thực tế, con đường nhanh nhất đến Turbo tính phí học tập của bạn là thất bại thường xuyên, hãy trở lại và thử lại. Học tập là tận hưởng quá trình và nếu bạn kiên trì đủ lâu, bạn sẽ tự tin hơn vào con đường trở thành một chuyên gia dữ liệu cho dù đó là khoa học dữ liệu, nhà phân tích dữ liệu hoặc kỹ sư dữ liệu. Nhưng quan trọng nhất là trong tất cả, như tôi luôn muốn nói:

Cách tốt nhất để học khoa học dữ liệu là làm khoa học dữ liệu ”

Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!

7 bước để tạo ra một mô hình học máy là gì?

Nó có thể được chia thành 7 bước chính:..
Thu thập dữ liệu: Như bạn đã biết, các máy ban đầu học hỏi từ dữ liệu mà bạn cung cấp cho họ. ....
Chuẩn bị dữ liệu: Sau khi bạn có dữ liệu của mình, bạn phải chuẩn bị nó. ....
Chọn một mô hình: ....
Đào tạo mô hình: ....
Đánh giá mô hình: ....
Điều chỉnh tham số: ....
Dự đoán ..

Thư viện Python nào được sử dụng để xây dựng mô hình?

Keras là một thư viện Python được thiết kế đặc biệt để phát triển các mạng thần kinh cho các mô hình ML.Nó có thể chạy trên đỉnh Theano và Tensorflow để đào tạo các mạng lưới thần kinh.Keras linh hoạt, di động và thân thiện với người dùng và dễ dàng tích hợp với nhiều chức năng. is a Python library that is designed specifically for developing the neural networks for ML models. It can run on top of Theano and TensorFlow to train neural networks. Keras is flexible, portable, and user-friendly, and easily integrated with multiple functions.

Mô hình Python là gì?

Một mô hình là một lớp Python kế thừa từ lớp mô hình.Lớp mô hình xác định một loại thực thể DataStore mới và các thuộc tính mà loại dự kiến sẽ lấy.Tên loại được xác định bởi tên lớp khởi tạo kế thừa từ DB.a Python class that inherits from the Model class. The model class defines a new Kind of datastore entity and the properties the Kind is expected to take. The Kind name is defined by the instantiated class name that inherits from db.

Làm thế nào tôi có thể tạo một mô hình?

Các bước để xây dựng một mô hình..
Kích thước thiết kế.Để cung cấp dữ liệu cho đầu vào và phân tích, trước tiên bạn phải tạo kích thước.....
Tạo hệ thống phân cấp.Sử dụng hệ thống phân cấp để đơn giản hóa thiết kế mô hình của bạn.....
Tạo khối.Sử dụng kích thước để xây dựng hình khối.....
Tạo quy tắc và quy trình ..