Giới thiệu về Machine Learning với Python Hướng dẫn dành cho nhà khoa học dữ liệu PDF


Sách PDF miễn phí, Sách PDF miễn phí Pdf, Sách Pdf PDF, Tải xuống sách Pdf PDF, Tải xuống miễn phí sách Pdf PDF, Sách Python miễn phí, Sách Python Pdf, Sách Pdf Python, Tải xuống sách Pdf Python, Tải xuống miễn phí sách Pdf Python,

Nhận toàn quyền truy cập vào Giới thiệu về Học máy với Python và hơn 60 nghìn đầu sách khác, với bản dùng thử miễn phí 10 ngày của O'Reilly

Ngoài ra còn có các sự kiện trực tuyến trực tiếp, nội dung tương tác, tài liệu chuẩn bị chứng nhận, v.v.

Ngày nay, máy học là một phần không thể thiếu trong nhiều ứng dụng thương mại và dự án nghiên cứu, trong các lĩnh vực từ chẩn đoán và điều trị y tế đến tìm kiếm bạn bè của bạn trên mạng xã hội. Nhiều người nghĩ rằng máy học chỉ có thể được áp dụng bởi các công ty lớn với đội ngũ nghiên cứu sâu rộng. Trong cuốn sách này, chúng tôi muốn cho bạn thấy việc tự xây dựng các giải pháp máy học có thể dễ dàng như thế nào và cách thực hiện nó một cách tốt nhất. Với kiến ​​thức trong cuốn sách này, bạn có thể xây dựng hệ thống của riêng mình để tìm hiểu cảm nhận của mọi người trên Twitter hoặc đưa ra dự đoán về sự nóng lên toàn cầu. Các ứng dụng của học máy là vô tận và với lượng dữ liệu có sẵn ngày nay, phần lớn bị giới hạn bởi trí tưởng tượng của bạn.
Ai nên đọc cuốn sách này
Cuốn sách này dành cho những người thực hành máy học hiện tại và đầy tham vọng đang tìm cách triển khai các giải pháp cho các vấn đề máy học trong thế giới thực. Đây là một cuốn sách giới thiệu không yêu cầu kiến ​​thức trước đó về học máy hoặc trí tuệ nhân tạo [AI]. Chúng tôi tập trung vào việc sử dụng Python và thư viện scikit-learning, đồng thời thực hiện tất cả các bước để tạo một ứng dụng máy học thành công. Các phương pháp chúng tôi giới thiệu sẽ hữu ích cho các nhà khoa học và nhà nghiên cứu, cũng như các nhà khoa học dữ liệu làm việc trên các ứng dụng thương mại. Bạn sẽ tận dụng tối đa cuốn sách nếu bạn hơi quen thuộc với Python và các thư viện NumPy và matplotlib.

tham số random_state, 18

cơ chế mở rộng quy mô trong, 139

các lớp và hàm scikit-learning

AgglomerativeClustering, 182, 191, 203-207

trung_bình_chính_xác_score, 292

báo cáo phân loại, 284-288, 298

cross_val_score, 253, 256, 300, 307, 360

Trình phân loại cây quyết định, 75, 278

Quyết địnhTreeRegressor, 75, 80

GradientBoostingClassifier, 88-91, 119, 124

GridSearchCV, 263-275, 300-301, 305-309,

KNNeighborsClassifier, 21-24, 37-43

KNeighboursRegressor, 42-47

Tiềm ẩnDirichletAllocation, 348

Hồi Quy Tuyến Tính, 47-56, 81, 247

tải_vú_ung_thư, 32, 38, 59, 75, 134, 144,

LogisticRegression, 56-62, 67, 209, 253, 279,

make_blobs, 92, 119, 136, 173-183, 188, 286

make_moons, 85, 108, 175, 190-195

MinMaxScaler, 102, 133, 135-139, 190, 230,

NMF, 140, 159-163, 179-182, 348

PCA, 140-166, 179, 195-206, 313-314, 348

Tính đa thức, 227-230, 248, 317

precision_recall_curve, 289-292

RandomForestClassifier, 84-86, 238, 290,

RandomForestRegressor, 84, 231, 240

Sườn, 49, 67, 112, 231, 234, 310, 317-319

Bộ chia tiêu chuẩn, 114, 133, 138, 144, 150,

Phân tầngShuffleSplit, 258, 347

SVC, 56, 100, 134, 139, 260-267, 269-272,

train_test_split, 17-19, 251, 286, 289

phương pháp tính điểm, 23, 37, 43, 267, 308

ví dụ phân tích tình cảm, 325

xác thực chéo tách ngẫu nhiên, 258

Andreas C. Müller & Sarah Guido Giới thiệu về Machine Learning với Python HƯỚNG DẪN DÀNH CHO NHÀ KHOA HỌC DỮ LIỆU Andreas C. Müller và Sarah Guido Giới thiệu về Học máy với Python Hướng dẫn dành cho các nhà khoa học dữ liệu Boston Farnham Sebastopol Tokyo Bắc Kinh Boston Farnham Sebastopol Tokyo Bắc Kinh 978-1-449-36941-5 [LSI] Giới thiệu về Học máy với Python của Andreas C. Müller và Sarah Guido Bản quyền © 2017 Sarah Guido, Andreas Müller. Đã đăng ký Bản quyền. In tại Hoa Kỳ. Xuất bản bởi O'Reilly Media, Inc. , 1005 Gravenstein Highway North, Sebastopol, CA 95472. Sách của O'Reilly có thể được mua cho mục đích giáo dục, kinh doanh hoặc quảng cáo bán hàng. Phiên bản trực tuyến cũng có sẵn cho hầu hết các đầu sách [http. //safaribooksonline. com]. Để biết thêm thông tin, hãy liên hệ với bộ phận bán hàng của công ty/tổ chức của chúng tôi. 800-998-9938 hoặc
Giới thiệu về Machine Learning với Python HƯỚNG DẪN DÀNH CHO CÁC NHÀ KHOA HỌC DỮ LIỆU Andreas C. Müller & Sarah Guido Giới thiệu về Machine Learning với Python Hướng dẫn dành cho nhà khoa học dữ liệu Andreas C. Müller và Sarah Guido Bắc Kinh Boston Farnham Sebastopol Tokyo Giới thiệu về học máy với Python của Andreas C. Müller và Sarah Guido Bản quyền © 2017 Sarah Guido, Andreas Müller. Đã đăng ký Bản quyền. In tại Hoa Kỳ. Xuất bản bởi O'Reilly Media, Inc. , 1005 Gravenstein Highway North, Sebastopol, CA 95472. Sách của O'Reilly có thể được mua cho mục đích giáo dục, kinh doanh hoặc quảng cáo bán hàng. Phiên bản trực tuyến cũng có sẵn cho hầu hết các đầu sách [http. //safaribooksonline. com]. Để biết thêm thông tin, hãy liên hệ với bộ phận bán hàng của công ty/tổ chức của chúng tôi. 800-998-9938 hoặc Mục lục Lời nói đầu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii 1. Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Tại sao học máy? . Phân loại các loài diên vĩ 13 Đáp ứng dữ liệu 14 Đo lường thành công. Dữ liệu đào tạo và kiểm tra 17 điều đầu tiên. Nhìn vào dữ liệu của bạn 19 Xây dựng mô hình đầu tiên của bạn. k-Láng giềng gần nhất 20 Đưa ra dự đoán 22 Đánh giá mô hình 22 Tóm tắt và triển vọng 23 iii 2. Học có giám sát. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Phân loại và hồi quy 25 Tổng quát hóa, trang bị quá mức và trang bị thiếu 26 Mối quan hệ giữa độ phức tạp của mô hình với kích thước tập dữ liệu 29 Thuật toán học máy được giám sát 29 Một số bộ dữ liệu mẫu 30 Hàng xóm gần nhất k 35 Mô hình tuyến tính 45 Bộ phân loại Naive Bayes 68 Cây quyết định 70 Nhóm cây quyết định 83 Kernelized . Học tập không giám sát và tiền xử lý. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Các kiểu học không giám sát 131 Những thách thức trong học không giám sát 132 Tiền xử lý và thay đổi quy mô 132 Các kiểu tiền xử lý khác nhau 133 Áp dụng chuyển đổi dữ liệu 134 Huấn luyện và kiểm tra dữ liệu theo cùng một cách 136 Ảnh hưởng của tiền xử lý đối với học có giám sát 138 Giảm kích thước, trích xuất tính năng và học tập đa tạp . Biểu diễn dữ liệu và tính năng kỹ thuật. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 Biến phân loại 212 Mã hóa một lần nóng [Biến giả] 213 iv. Mục lục Các con số có thể mã hóa Phân loại 218 Tạo thành nhóm, rời rạc hóa, mô hình tuyến tính và cây 220 Tương tác và đa thức 224 Phép biến đổi phi tuyến đơn biến 232 Lựa chọn tính năng tự động 236 Thống kê đơn biến 236 Lựa chọn tính năng dựa trên mô hình 238 Lựa chọn tính năng lặp lại 240 Sử dụng kiến ​​thức chuyên môn 242 Tóm tắt và Outlook . Đánh giá và cải thiện mô hình. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 Xác thực chéo 252 Xác thực chéo trong scikit-learning 253 Lợi ích của xác thực chéo 254 Xác thực chéo k-Fold phân tầng và các chiến lược khác 254 Tìm kiếm lưới 260 Tìm kiếm lưới đơn giản 261 Nguy cơ lắp quá nhiều tham số và bộ xác thực 261 Tìm kiếm lưới . Chuỗi thuật toán và đường ống. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 Lựa chọn tham số với tiền xử lý 306 Xây dựng quy trình 308 Sử dụng quy trình trong tìm kiếm lưới 309 Giao diện quy trình chung 312 Tạo quy trình thuận tiện với make_pipeline 313 Truy cập thuộc tính bước 314 Truy cập thuộc tính trong quy trình tìm kiếm theo lưới 315 Các bước tiền xử lý tìm kiếm theo lưới và tham số mô hình 317 Lưới- . Làm việc với dữ liệu văn bản. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 Các loại dữ liệu được biểu diễn dưới dạng chuỗi 323 Mục lục. v Ứng dụng ví dụ. Phân tích cảm tính của các bài phê bình phim 325 Biểu diễn dữ liệu văn bản dưới dạng một túi từ 327 Áp dụng túi từ cho bộ dữ liệu đồ chơi 329 Túi từ cho các bài phê bình phim 330 Từ dừng 334 Thay đổi tỷ lệ dữ liệu bằng tf–idf 336 Điều tra các hệ số mô hình 338 Túi . kết thúc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 Tiếp cận một vấn đề về máy học 357 Con người trong vòng lặp 358 Từ nguyên mẫu đến sản xuất 359 Thử nghiệm các hệ thống sản xuất 359 Xây dựng công cụ ước tính của riêng bạn 360 Bắt đầu từ đây 361 Lý thuyết 361 Các gói và khuôn khổ máy học khác 362 Xếp hạng, hệ thống đề xuất và các loại khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 vi. Mục lục Lời nói đầu Học máy là một phần không thể thiếu trong nhiều ứng dụng thương mại và dự án nghiên cứu ngày nay, trong các lĩnh vực từ chẩn đoán và điều trị y tế đến tìm kiếm bạn bè của bạn trên mạng xã hội. Nhiều người nghĩ rằng máy học chỉ có thể được áp dụng bởi các công ty lớn với đội ngũ nghiên cứu sâu rộng. Trong cuốn sách này, chúng tôi muốn cho bạn thấy việc tự xây dựng các giải pháp máy học có thể dễ dàng như thế nào và cách thực hiện nó một cách tốt nhất. Với kiến ​​thức trong cuốn sách này, bạn có thể xây dựng hệ thống của riêng mình để tìm hiểu cảm nhận của mọi người trên Twitter hoặc đưa ra dự đoán về sự nóng lên toàn cầu. Các ứng dụng của học máy là vô tận và với lượng dữ liệu có sẵn ngày nay, phần lớn bị giới hạn bởi trí tưởng tượng của bạn. Ai nên đọc cuốn sách này Cuốn sách này dành cho những người đang thực hành máy học hiện tại và đầy tham vọng đang tìm cách triển khai các giải pháp cho các vấn đề máy học trong thế giới thực. Đây là một cuốn sách giới thiệu không yêu cầu kiến ​​thức trước đó về học máy hoặc trí tuệ nhân tạo [AI]. Chúng tôi tập trung vào việc sử dụng Python và thư viện scikit-learning, đồng thời thực hiện tất cả các bước để tạo một ứng dụng máy học thành công. Các phương pháp chúng tôi giới thiệu sẽ hữu ích cho các nhà khoa học và nhà nghiên cứu, cũng như các nhà khoa học dữ liệu làm việc trên các ứng dụng thương mại. Bạn sẽ tận dụng tối đa cuốn sách nếu bạn hơi quen thuộc với Python và các thư viện NumPy và matplotlib. Chúng tôi đã nỗ lực có ý thức để không tập trung quá nhiều vào toán học mà thay vào đó là các khía cạnh thực tế của việc sử dụng các thuật toán máy học. Vì toán học [đặc biệt là lý thuyết xác suất] là nền tảng để xây dựng máy học, nên chúng tôi sẽ không đi sâu vào phân tích các thuật toán một cách chi tiết. Nếu bạn quan tâm đến toán học của các thuật toán học máy, chúng tôi khuyên bạn nên đọc cuốn sách Te Elements of Statistical Learning [Springer] của Trevor Hastie, Robert Tibshirani và Jerome Friedman, hiện có miễn phí trên trang web của các tác giả. Chúng tôi cũng sẽ không mô tả cách viết các thuật toán học máy từ đầu và thay vào đó sẽ tập trung vào vii cách sử dụng mảng lớn các mô hình đã được triển khai trong scikit-learning và các thư viện khác. Tại sao chúng tôi viết cuốn sách này Có rất nhiều sách về máy học và AI. Tuy nhiên, tất cả chúng đều dành cho sinh viên đã tốt nghiệp hoặc nghiên cứu sinh tiến sĩ về khoa học máy tính và chúng chứa đầy toán học cao cấp. Điều này hoàn toàn trái ngược với cách máy học đang được sử dụng như một công cụ hàng hóa trong nghiên cứu và ứng dụng thương mại. Ngày nay, áp dụng học máy không cần bằng tiến sĩ. Tuy nhiên, có rất ít tài nguyên bao gồm đầy đủ tất cả các khía cạnh quan trọng của việc triển khai học máy trong thực tế mà không yêu cầu bạn tham gia các khóa học toán nâng cao. Chúng tôi hy vọng cuốn sách này sẽ giúp những người muốn áp dụng máy học mà không cần đọc hàng năm trời về giải tích, đại số tuyến tính và lý thuyết xác suất. Điều hướng Cuốn sách này Cuốn sách này được tổ chức đại khái như sau. • Chương 1 giới thiệu các khái niệm cơ bản về học máy và các ứng dụng của nó, đồng thời mô tả cách thiết lập mà chúng ta sẽ sử dụng xuyên suốt cuốn sách. • Chương 2 và 3 mô tả các thuật toán học máy thực tế được sử dụng rộng rãi nhất trong thực tế và thảo luận về những ưu điểm và nhược điểm của chúng. • Chương 4 thảo luận về tầm quan trọng của cách chúng ta trình bày dữ liệu được xử lý bằng máy học và những khía cạnh nào của dữ liệu cần chú ý. • Chương 5 bao gồm các phương pháp nâng cao để đánh giá mô hình và điều chỉnh tham số, đặc biệt tập trung vào xác thực chéo và tìm kiếm lưới. • Chương 6 giải thích khái niệm về đường ống cho các mô hình xâu chuỗi và gói gọn quy trình làm việc của bạn. • Chương 7 trình bày cách áp dụng các phương pháp được mô tả trong các chương trước đối với dữ liệu văn bản và giới thiệu một số kỹ thuật xử lý văn bản cụ thể. • Chương 8 đưa ra cái nhìn tổng quan cấp cao và bao gồm các tham chiếu đến các chủ đề nâng cao hơn. Mặc dù Chương 2 và 3 cung cấp các thuật toán thực tế, nhưng việc hiểu tất cả các thuật toán này có thể không cần thiết đối với người mới bắt đầu. Nếu bạn cần xây dựng một hệ thống máy học càng sớm càng tốt, chúng tôi khuyên bạn nên bắt đầu với Chương 1 và các phần mở đầu của Chương 2, giới thiệu tất cả các khái niệm cốt lõi. Sau đó, bạn có thể bỏ qua phần “Tóm tắt và Outlook” ở trang 127 trong Chương 2, bao gồm danh sách tất cả các mô hình được giám sát mà chúng tôi trình bày. Chọn mô hình phù hợp nhất với nhu cầu của bạn và lật lại để đọc viii. lời nói đầu

Chủ Đề