Hướng dẫn dùng y train python
Dẫn nhậpTrong bài trước, chúng ta đã tìm hiểu về TỔNG KẾT LINEAR REGRESSION. Show Ở bài này Kteam sẽ giới thiệu đến các bạn Phân tích thông số của quá trình training và cách lựa chọn parameter tự động để hiểu rõ hơn thuật toán của mình và cải thiện hiệu năng. Nội dungĐể theo dõi bài này tốt nhất bạn cần có kiến thức về:
Trong bài này chúng ta sẽ tìm hiểu về:
Debug thuật toán Machine LearningQua các bài trước bạn đã có thể tự tạo ra một thuật toán Machine Learning cho riêng bạn. Đối với training set, thuật toán hoạt động rất tốt, tuy nhiên khi bạn áp dụng thuật toán với một bộ data hoàn toàn mới, nó lại không hoạt động như ý muốn. Khi này, bạn có một số lựa chọn sau:
Vậy với nhiều lựa chọn khác nhau như vậy, bạn có thể phải tạo ra 1 diagnostic tool cho thuật toán (một tool chẩn đoán cho thuật toán của bạn). Tuy việc thiết kế tốn kha khá thời gian, nhưng nếu bạn đang không biết phải debug như thế nào thì nó rất đáng để thử. Phân biệt các trường hợp Bias và OverfitTrong quá trình training, rất có thể bạn sẽ bắt gặp các trường hợp bias và overfiting, ảnh hưởng đến kết quả của thuật toán. Vậy chúng là gì? BiasĐây là trường hợp đường dự đoán của chúng ta không đủ phức tạp để có thể khớp hoàn toàn training set OverfitTrái ngược với Bias, Overfiting là trường hợp mà đường dự đoán quá phức tạp, tuy khớp hoàn toàn từng example trong training set nhưng khi sử dụng thuật toán ngoài thực tế thì hoàn toàn sai. Hệ thống, phân chia training setVì có thể thuật toán của chúng ta rơi vào trường hợp overfiting, tuy kết quả của hàm J(θ) rất tốt nhưng thực tế lại không như vậy, ta cần phải phân chia lại bộ data thành 3 phần: train, cross validation và test. Đây cũng là bước đầu để tạo diagnostic tool. Thông thường tỷ lệ giữa các phần data là:
Ta tiến hành load data như thường lệ:
Sau đó chúng ta sẽ tách data thành 3 phần:
Bạn có thể plot phần training set ra để xem thử hình dạng của training set lần này (mối liên hệ giữa lượng nước thay đổi (x) và lượng nước xả ra khỏi đập (y)):
Tự động lựa chọn parameterTrong thuật toán của chúng ta, ta cần phải lựa chọn các parameter như alpha, model, lambda (trong việc regularization, Kteam sẽ hướng dẫn trong các bài sau)… Ta không thể tự mình lựa chọn hết tất cả parameter này được, vì thế Kteam sẽ hướng dẫn các bạn cách tự động lựa chọn các parameter này. Đối với các parameter là số (alpha, lambda, số lượng training example….) chúng ta sẽ tạo một list các giá trị có thể của các parameter này. Sau đó chúng ta sẽ tạo một vòng lặp thực hiện các bước sau:
Sau khi lưu lại toàn bộ các J(θ) của từng giá trị, ta có thể so sánh và biết được với giá trị nào thì thuật toán hoạt động tốt nhất. Ta cũng có thể plot ra để có cái nhìn tổng quát hơn.
Kết luậnQua bài này chúng ta đã tìm hiểu cách Phân tích thông số của quá trình training và cách lựa chọn parameter tự động. Ở bài sau, Kteam sẽ hướng dẫnCÁCH TẠO POLYNOMIAL FEATURE. Cảm ơn bạn đã theo dõi bài viết. Hãy để lại bình luận hoặc góp ý của mình để phát triển bài viết tốt hơn. Đừng quyên “Luyện tập – Thử thách – Không ngại khó”. Tải xuốngProjectNếu việc thực hành theo hướng dẫn không diễn ra suôn sẻ như mong muốn. Bạn cũng có thể tải xuống PROJECT THAM KHẢO ở link bên dưới! Thảo luậnNếu bạn có bất kỳ khó khăn hay thắc mắc gì về khóa học, đừng ngần ngại đặt câu hỏi trong phần bên dưới hoặc trong mục HỎI & ĐÁP trên thư viện Howkteam.com để nhận được sự hỗ trợ từ cộng đồng. |