Vì vậy, bạn muốn trở thành một nhà khoa học dữ liệu hoặc có thể bạn đã là một và muốn mở rộng kho công cụ của mình. Bạn đã hạ cánh ở đúng nơi. Mục đích của trang này là cung cấp một lộ trình học tập toàn diện cho những người mới làm quen với Python về khoa học dữ liệu. Lộ trình này cung cấp tổng quan toàn diện về các bước bạn cần học để sử dụng Python cho khoa học dữ liệu. Nếu bạn đã có một số nền tảng hoặc không cần tất cả các thành phần, vui lòng điều chỉnh các đường dẫn của riêng bạn và cho chúng tôi biết cách bạn thực hiện các thay đổi trong đường dẫn
Bạn cũng có thể xem phiên bản nhỏ của lộ trình học tập này –> Đồ họa thông tin. Hướng dẫn nhanh để tìm hiểu Khoa học dữ liệu trong Python
Đọc cái này vào năm 2019? . Hãy xem nó trên cổng thông tin khóa học của chúng tôi và bắt đầu hành trình khoa học dữ liệu của bạn ngay hôm nay
Bước 0. Làm nóng lên
Trước khi bắt đầu cuộc hành trình của bạn, câu hỏi đầu tiên cần trả lời là
Tại sao nên sử dụng Python?
hoặc là
Python sẽ hữu ích như thế nào?
Hãy xem 30 phút đầu tiên của cuộc nói chuyện này từ Jeremy, Người sáng lập DataRobot tại PyCon 2014, Ukraine để biết Python có thể hữu ích như thế nào
Bước 1. Thiết lập máy của bạn
Bây giờ bạn đã quyết định, đã đến lúc thiết lập máy của bạn. Cách dễ nhất để tiếp tục là chỉ cần tải xuống Anaconda từ Continuum. io. Nó được đóng gói với hầu hết những thứ bạn cần. Nhược điểm chính của việc đi theo con đường này là bạn sẽ cần đợi Continuum cập nhật các gói của chúng, ngay cả khi có thể có bản cập nhật cho các thư viện cơ bản. Nếu bạn là người mới bắt đầu, điều đó hầu như không thành vấn đề
Nếu bạn gặp bất kỳ khó khăn nào trong quá trình cài đặt, bạn có thể tìm thêm hướng dẫn chi tiết cho các hệ điều hành khác nhau tại đây
Bước 2. Tìm hiểu kiến thức cơ bản về ngôn ngữ Python
Bạn nên bắt đầu bằng cách hiểu những kiến thức cơ bản về ngôn ngữ, thư viện và cấu trúc dữ liệu. Khóa học miễn phí của Analytics Vidhya về Python là một trong những nơi tốt nhất để bắt đầu hành trình của bạn. Khóa học này tập trung vào cách bắt đầu với Python cho khoa học dữ liệu và cuối cùng, bạn sẽ cảm thấy thoải mái với các khái niệm cơ bản của ngôn ngữ này
Phân công. Tham gia khóa học Python miễn phí tuyệt vời của Analytics Vidhya
tài nguyên thay thế. Nếu mã hóa tương tác không phải là phong cách học tập của bạn, bạn cũng có thể xem Lớp học Google dành cho Python. Đây là một chuỗi lớp học kéo dài 2 ngày và cũng bao gồm một số phần được thảo luận sau
Bước 3. Tìm hiểu các biểu thức chính quy trong Python
Bạn sẽ cần sử dụng chúng rất nhiều để làm sạch dữ liệu, đặc biệt nếu bạn đang làm việc với dữ liệu văn bản. Cách tốt nhất để học Biểu thức chính quy là xem qua lớp Google và giữ bảng cheat này tiện dụng
Phân công. Làm bài tập đặt tên cho bé
Nếu bạn vẫn cần thực hành thêm, hãy làm theo hướng dẫn này để làm sạch văn bản. Nó sẽ thách thức bạn trong các bước khác nhau liên quan đến sắp xếp dữ liệu
Bước 4. Tìm hiểu các thư viện Khoa học trong Python – NumPy, SciPy, Matplotlib và Pandas
Đây là nơi niềm vui bắt đầu. Dưới đây là phần giới thiệu ngắn gọn về các thư viện khác nhau. Hãy bắt đầu thực hành một số thao tác phổ biến
- Thực hành kỹ hướng dẫn NumPy, đặc biệt là mảng NumPy. Điều này sẽ tạo thành một nền tảng tốt cho những điều sắp tới
- Tiếp theo, hãy xem hướng dẫn SciPy. Đi qua phần giới thiệu và những điều cơ bản và thực hiện những điều còn lại dựa trên nhu cầu của bạn
- Nếu bạn đoán hướng dẫn Matplotlib tiếp theo, bạn đã sai. Chúng quá toàn diện cho nhu cầu của chúng tôi ở đây. Thay vào đó, hãy nhìn vào sổ tay ipython này cho đến Dòng 68 [i. e. cho đến hoạt hình]
- Cuối cùng, chúng ta hãy nhìn vào Pandas. Pandas cung cấp chức năng DataFrame [như R] cho Python. Đây cũng là nơi bạn nên dành thời gian luyện tập tốt. Pandas sẽ trở thành công cụ hiệu quả nhất cho tất cả các phân tích dữ liệu cỡ trung bình. Bắt đầu với phần giới thiệu ngắn, 10 phút về gấu trúc. Sau đó chuyển sang hướng dẫn chi tiết hơn về gấu trúc
Bạn cũng có thể xem Phân tích dữ liệu khám phá với Pandas và Data munging với Pandas
Tài nguyên bổ sung
- Nếu bạn cần một cuốn sách về Pandas và NumPy, “Python for Data Analysis by Wes McKinney”
- Có rất nhiều hướng dẫn như một phần của tài liệu Pandas. Bạn có thể xem chúng tại đây
Phân công. Giải bài tập này từ khóa CS109 của Harvard
Bước 5. Trực quan hóa dữ liệu hiệu quả
Xem qua mẫu bài giảng CS109 này. Bạn có thể bỏ qua 2 phút đầu tiên, nhưng những gì diễn ra sau đó thật tuyệt vời. Theo dõi bài giảng này với bài tập này
Bước 6. Tìm hiểu Scikit-learning và Machine Learning
Bây giờ, chúng ta đến phần cốt lõi của toàn bộ quá trình này. Scikit-learning là thư viện hữu ích nhất trên python dành cho machine learning. Dưới đây là tổng quan ngắn gọn về thư viện. Đi qua bài giảng 10 đến bài giảng 18 từ khóa học CS109 từ Harvard. Bạn sẽ xem qua tổng quan về học máy, các thuật toán học có giám sát như hồi quy, cây quyết định, mô hình tập hợp và các thuật toán học không giám sát như phân cụm. Theo dõi các bài giảng cá nhân với các bài tập từ các bài giảng đó
Bạn cũng nên xem khóa học 'Giới thiệu về Khoa học dữ liệu' để tạo động lực lớn cho bản thân trong hành trình tìm kiếm vai trò nhà khoa học dữ liệu
Tài nguyên bổ sung
Bước 7. Thực hành, thực hành và thực hành
Xin chúc mừng, bạn đã làm được
Bây giờ bạn có tất cả những gì bạn cần về kỹ năng kỹ thuật. Đó là vấn đề thực hành và nơi nào tốt hơn để thực hành hơn là cạnh tranh với các Nhà khoa học dữ liệu đồng nghiệp trên nền tảng DataHack. Đi, tham gia một trong những cuộc thi trực tiếp hiện đang diễn ra trên DataHack và Kaggle và thử tất cả những gì bạn đã học được
Bước 8. Học kĩ càng
Bây giờ bạn đã học được hầu hết các kỹ thuật học máy, đã đến lúc thử Deep Learning. Rất có thể bạn đã biết Deep Learning là gì, nhưng nếu bạn vẫn cần một đoạn giới thiệu ngắn gọn, thì đây là
Bản thân tôi là người mới học sâu, vì vậy vui lòng xem xét những gợi ý này với một chút muối. Tài nguyên toàn diện nhất là học sâu. net. Bạn sẽ tìm thấy mọi thứ ở đây – bài giảng, bộ dữ liệu, thử thách, hướng dẫn. Bạn cũng có thể thử tham gia khóa học của Geoff Hinton để hiểu những kiến thức cơ bản về Mạng nơ-ron
Bắt đầu với Python. Hướng dẫn hoàn chỉnh để tìm hiểu khoa học dữ liệu với Python từ đầu
P. S. Trong trường hợp bạn cần sử dụng các thư viện Dữ liệu lớn, hãy dùng thử Pydoop và PyMongo. Chúng không được bao gồm ở đây vì bản thân lộ trình học Dữ liệu lớn là toàn bộ chủ đề