Tôi đang cố gắng vẽ đồ thị ROC để đánh giá độ chính xác của mô hình dự đoán mà tôi đã phát triển trong Python bằng cách sử dụng các gói hồi quy logistic. Tôi đã tính tỷ lệ dương thực sự cũng như tỷ lệ dương tính giả; tuy nhiên, tôi không thể tìm ra cách vẽ những thứ này một cách chính xác bằng cách sử dụng
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
4 và tính giá trị AUC. Làm thế nào tôi có thể làm điều đó?Dưới đây là hai cách bạn có thể thử, giả sử
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
5 của bạn là một công cụ dự đoán sklearn:import sklearn.metrics as metrics
# calculate the fpr and tpr for all thresholds of the classification
probs = model.predict_proba[X_test]
preds = probs[:,1]
fpr, tpr, threshold = metrics.roc_curve[y_test, preds]
roc_auc = metrics.auc[fpr, tpr]
# method I: plt
import matplotlib.pyplot as plt
plt.title['Receiver Operating Characteristic']
plt.plot[fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc]
plt.legend[loc = 'lower right']
plt.plot[[0, 1], [0, 1],'r--']
plt.xlim[[0, 1]]
plt.ylim[[0, 1]]
plt.ylabel['True Positive Rate']
plt.xlabel['False Positive Rate']
plt.show[]
# method II: ggplot
from ggplot import *
df = pd.DataFrame[dict[fpr = fpr, tpr = tpr]]
ggplot[df, aes[x = 'fpr', y = 'tpr']] + geom_line[] + geom_abline[linetype = 'dashed']
hay là thử
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
Đây là cách đơn giản nhất để vẽ đường cong ROC, được đưa ra một bộ nhãn sự thật mặt đất và xác suất dự đoán. Phần tốt nhất là, nó vẽ đường cong ROC cho TẤT CẢ các lớp, do đó bạn cũng có được nhiều đường cong trông gọn gàng
import scikitplot as skplt
import matplotlib.pyplot as plt
y_true = # ground truth labels
y_probas = # predicted probabilities generated by sklearn classifier
skplt.metrics.plot_roc_curve[y_true, y_probas]
plt.show[]
Đây là một đường cong mẫu được tạo bởi plot_roc_curve. Tôi đã sử dụng bộ dữ liệu chữ số mẫu từ scikit-learn để có 10 lớp. Lưu ý rằng một đường cong ROC được vẽ cho mỗi lớp.
Tuyên bố miễn trừ trách nhiệm: Lưu ý rằng điều này sử dụng thư viện scikit-cốt truyện mà tôi đã xây dựng.
Vẫn chưa rõ vấn đề ở đây là gì, nhưng nếu bạn có một mảng
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
6 và một mảng ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
7, thì việc vẽ đường cong ROC và nhận AUC cũng đơn giản như sau:import matplotlib.pyplot as plt
import numpy as np
x = # false_positive_rate
y = # true_positive_rate
# This is the ROC curve
plt.plot[x,y]
plt.show[]
# This is the AUC
auc = np.trapz[y,x]
Đường cong AUC cho phân loại nhị phân bằng matplotlib
from sklearn import svm, datasets
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
import matplotlib.pyplot as plt
Tải dữ liệu ung thư vú
breast_cancer = load_breast_cancer[]
X = breast_cancer.data
y = breast_cancer.target
Tách bộ dữ liệu
X_train, X_test, y_train, y_test = train_test_split[X,y,test_size=0.33, random_state=44]
Mô hình
clf = LogisticRegression[penalty='l2', C=0.1]
clf.fit[X_train, y_train]
y_pred = clf.predict[X_test]
Sự chính xác
print["Accuracy", metrics.accuracy_score[y_test, y_pred]]
Đường cong AUC
y_pred_proba = clf.predict_proba[X_test][::,1]
fpr, tpr, _ = metrics.roc_curve[y_test, y_pred_proba]
auc = metrics.roc_auc_score[y_test, y_pred_proba]
plt.plot[fpr,tpr,label="data 1, auc="+str[auc]]
plt.legend[loc=4]
plt.show[]
Đây là mã python để tính toán đường cong ROC [dưới dạng biểu đồ phân tán]:
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
0Các câu trả lời trước cho rằng bạn thực sự đã tự tính toán TP/Sens. Đó là một ý tưởng tồi để thực hiện việc này một cách thủ công, thật dễ dàng để mắc lỗi với các tính toán, thay vì sử dụng chức năng thư viện cho tất cả những điều này.
hàm plot_roc trong scikit_lean thực hiện chính xác những gì bạn cần: //scikit-learn.org/urdy/auto_examples/model_selection/plot_roc.html
Phần thiết yếu của mã là:
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
1ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
2Tôi đã thực hiện một chức năng đơn giản có trong một gói cho đường cong ROC. Tôi mới bắt đầu thực hành học máy, vì vậy xin vui lòng cho tôi biết nếu mã này có vấn đề!
Hãy xem tập tin github readme để biết thêm chi tiết! :]
//github.com/bc123456/ROC
ggplot[df, aes[x = 'fpr', ymin = 0, ymax = 'tpr']] + geom_line[aes[y = 'tpr']] + geom_area[alpha = 0.2] + ggtitle["ROC Curve w/ AUC = %s" % str[roc_auc]]
3Một biểu đồ roc mẫu được tạo bởi mã này