Hướng dẫn python concepts for data science - các khái niệm về trăn cho khoa học dữ liệu

Hành trình từ một con trăn noob đến một kaggler trên Python

Vì vậy, bạn muốn trở thành một nhà khoa học dữ liệu hoặc có thể là bạn đã là một và muốn mở rộng kho lưu trữ công cụ của bạn. Bạn đã hạ cánh đúng nơi. Mục đích của trang này là cung cấp một con đường học tập toàn diện cho những người mới đến Python cho khoa học dữ liệu. Con đường này cung cấp một cái nhìn tổng quan toàn diện về các bước bạn cần học cách sử dụng Python cho khoa học dữ liệu. Nếu bạn đã có một số nền tảng, hoặc don lồng cần tất cả các thành phần, hãy thoải mái điều chỉnh các con đường của riêng bạn và cho chúng tôi biết bạn đã thực hiện các thay đổi trong đường dẫn như thế nào.

Bạn cũng có thể kiểm tra phiên bản mini của đường dẫn học tập này -> & nbsp; infographic: Hướng dẫn nhanh để học khoa học dữ liệu trong Python.

Đọc cái này vào năm 2019? Chúng tôi đã thiết kế một con đường học tập cập nhật cho bạn! Kiểm tra nó trên cổng thông tin khóa học của chúng tôi và bắt đầu hành trình khoa học dữ liệu của bạn ngay hôm nay.

Bước 0: Làm nóng lên

Trước khi bắt đầu hành trình của bạn, câu hỏi đầu tiên để trả lời là:

Tại sao sử dụng Python?

hoặc

Làm thế nào Python sẽ hữu ích?

Xem 30 phút đầu tiên của điều này & nbsp; nói chuyện từ Jeremy, người sáng lập Datarobot tại Pycon 2014, Ukraine để có ý tưởng về việc Python có thể hữu ích như thế nào.

Bước 1: Thiết lập máy của bạn

Bây giờ bạn đã quyết định, đã đến lúc thiết lập máy của bạn. & NBSP; Cách dễ nhất để tiến hành là chỉ tải xuống Anaconda từ Continuum.io. Nó được đóng gói với hầu hết những thứ bạn sẽ cần. Nhược điểm chính của việc thực hiện tuyến đường này là bạn sẽ cần chờ Continuum cập nhật các gói của họ, ngay cả khi có thể có một bản cập nhật có sẵn cho các thư viện cơ bản. Nếu bạn là một người bắt đầu, điều đó khó có thể quan trọng.

Nếu bạn phải đối mặt với bất kỳ thách thức nào trong việc cài đặt, bạn có thể tìm thấy các hướng dẫn chi tiết hơn cho các hệ điều hành khác nhau ở đây.

Bước 2: Tìm hiểu những điều cơ bản của ngôn ngữ Python

Bạn nên bắt đầu bằng cách hiểu những điều cơ bản của ngôn ngữ, thư viện và cấu trúc dữ liệu. Khóa học này tập trung vào cách bắt đầu với Python cho khoa học dữ liệu và cuối cùng, bạn nên thoải mái với các khái niệm cơ bản của ngôn ngữ.The free course by Analytics Vidhya on Python is one of the best places to start your journey. This course focuses on how to get started with Python for data science and by the end you should be comfortable with the basic concepts of the language.

Bài tập: & nbsp; tham gia khóa học Python miễn phí tuyệt vời của Analytics Vidhya Take the awesome free Python course by Analytics Vidhya

Tài nguyên thay thế: Nếu mã hóa tương tác không phải là phong cách học tập của bạn, bạn cũng có thể xem lớp Google cho Python. Đây là một loạt 2 ngày & nbsp; và cũng bao gồm một số phần được thảo luận sau.If interactive coding is not your style of learning, you can also look at The Google Class for Python. It is a 2 day class series and also covers some of the parts discussed later.

Bước 3: Tìm hiểu các biểu thức thường xuyên trong Python

Bạn sẽ cần sử dụng chúng rất nhiều để làm sạch dữ liệu, đặc biệt nếu bạn đang làm việc trên dữ liệu văn bản. Cách tốt nhất để học các biểu thức chính quy là đi qua lớp Google và giữ cho bảng gian lận này tiện dụng.

Bài tập: Bài tập tên em bé Do the baby names exercise

Nếu bạn vẫn cần thực hành nhiều hơn, hãy làm theo hướng dẫn này để làm sạch văn bản. Nó sẽ thách thức bạn về các bước khác nhau liên quan đến việc gây tranh cãi dữ liệu.

Bước 4: Tìm hiểu các thư viện khoa học trong Python - Numpy, Scipy, Matplotlib và Pandas

Đây là nơi niềm vui bắt đầu! Dưới đây là một giới thiệu ngắn gọn về các thư viện khác nhau. Hãy bắt đầu thực hành một số hoạt động chung.

  • Thực hành kỹ lưỡng hướng dẫn một cách kỹ lưỡng, đặc biệt là các mảng numpy. Điều này sẽ tạo thành một nền tảng tốt cho những điều sắp tới.
  • Tiếp theo, nhìn vào các hướng dẫn SCIPY. Đi qua phần giới thiệu và những điều cơ bản và làm những điều còn lại dựa trên nhu cầu của bạn.
  • Nếu bạn đoán các hướng dẫn matplotlib tiếp theo, bạn đã sai! Chúng quá toàn diện cho nhu cầu của chúng tôi ở đây. Thay vào đó hãy nhìn vào sổ ghi chép IPython này cho đến dòng 68 (tức là cho đến khi hoạt hình)
  • Cuối cùng, chúng ta hãy nhìn vào gấu trúc. Pandas cung cấp chức năng DataFrame (như R) cho Python. Đây cũng là nơi bạn nên dành thời gian thực hành tốt. Pandas sẽ trở thành công cụ hiệu quả nhất để phân tích dữ liệu cỡ trung. Bắt đầu với một phần giới thiệu ngắn, 10 phút đến gấu trúc. Sau đó chuyển sang một hướng dẫn chi tiết hơn về gấu trúc.

Bạn cũng có thể xem xét phân tích dữ liệu khám phá với gấu trúc và dữ liệu với gấu trúc

Tài nguyên bổ sung:

  • Nếu bạn cần một cuốn sách về Pandas và Numpy, thì Py Python để phân tích dữ liệu của Wes McKinney,
  • Có rất nhiều hướng dẫn như một phần của tài liệu gấu trúc. Bạn có thể xem chúng ở đây

Bài tập: Giải quyết bài tập này từ khóa học CS109 từ Harvard.Solve this assignment from CS109 course from Harvard.

Bước 5: & NBSP; Trực quan hóa dữ liệu hiệu quả

Đi qua biểu mẫu bài giảng này CS109. Bạn có thể bỏ qua 2 phút ban đầu, nhưng những gì sau đó là tuyệt vời! Thực hiện theo bài giảng này với nhiệm vụ này.

Bước 6: Tìm hiểu Scikit-Learn và Machine Learning

Bây giờ, chúng ta đến với thịt của toàn bộ quá trình này. Scikit-Learn là thư viện hữu ích nhất trên Python cho học máy. Dưới đây là một tổng quan ngắn gọn về thư viện. Đi qua bài giảng 10 đến bài giảng 18 từ khóa học CS109 từ Harvard. Bạn sẽ trải qua một cái nhìn tổng quan về học máy, các thuật toán học tập có giám sát như hồi quy, cây quyết định, mô hình hóa và thuật toán học không giám sát như phân cụm. Theo dõi các bài giảng cá nhân với các bài tập từ các bài giảng đó.

Bạn cũng nên kiểm tra khóa học ‘Giới thiệu về Khoa học dữ liệu để mang lại cho mình một sự thúc đẩy lớn trong nhiệm vụ của bạn để đạt được vai trò của nhà khoa học dữ liệu.

Tài nguyên bổ sung:

  • Nếu có một cuốn sách, bạn phải đọc, đó là lập trình trí thông minh tập thể - một tác phẩm kinh điển, nhưng vẫn là một trong những cuốn sách hay nhất về chủ đề này.
  • Ngoài ra, bạn cũng có thể theo dõi một trong những khóa học tốt nhất về khóa học máy từ Yaser Abu-Mostafa. Nếu bạn cần giải thích sáng suốt hơn cho các kỹ thuật, bạn có thể chọn khóa học học máy từ Andrew Ng và theo dõi các bài tập trên Python.
  • Hướng dẫn về Scikit Tìm hiểu

Bước 7: Thực hành, thực hành và thực hành

Xin chúc mừng, bạn đã làm được!

Bây giờ bạn có tất cả những gì bạn cần trong các kỹ năng kỹ thuật. Đó là một vấn đề thực hành và nơi nào tốt hơn để thực hành hơn là cạnh tranh với các nhà khoa học dữ liệu đồng nghiệp trên nền tảng Datahack. Đi, đi sâu vào một trong những cuộc thi trực tiếp hiện đang chạy trên Datahack và Kaggle và đưa ra tất cả những gì bạn đã học được!

Bước 8: & NBSP; Học sâu

Bây giờ bạn đã học được hầu hết các kỹ thuật học máy, đã đến lúc phải học sâu. Có một cơ hội tốt mà bạn đã biết những gì là học sâu, nhưng nếu bạn vẫn cần một phần giới thiệu ngắn gọn, thì đây là.

Tôi là người mới để học sâu, vì vậy xin vui lòng thực hiện những gợi ý này với một nhúm muối. Tài nguyên toàn diện nhất là deeplearning.net. Bạn sẽ tìm thấy mọi thứ ở đây - các bài giảng, bộ dữ liệu, thử thách, hướng dẫn. Bạn cũng có thể thử khóa học từ Geoff Hinton một thử để hiểu những điều cơ bản của mạng lưới thần kinh.

Bắt đầu với Python: Một hướng dẫn đầy đủ để tìm hiểu khoa học dữ liệu với Python từ đầu A Complete Tutorial To Learn Data Science with Python From Scratch

P.S. Trong trường hợp bạn cần sử dụng các thư viện dữ liệu lớn, hãy thử Pydoop và Pymongo. Chúng không được bao gồm ở đây vì con đường học tập dữ liệu lớn là toàn bộ chủ đề.

Chúng tôi sử dụng cookie trên các trang web phân tích Vidhya để cung cấp dịch vụ của chúng tôi, phân tích lưu lượng truy cập web và cải thiện trải nghiệm của bạn trên trang web. Bằng cách sử dụng phân tích Vidhya, bạn đồng ý với chính sách quyền riêng tư và Điều khoản sử dụng của chúng tôi.

3 khái niệm chính của khoa học dữ liệu là gì?

Thống kê, trực quan hóa, học sâu, học máy là các khái niệm khoa học dữ liệu quan trọng. are important Data Science concepts.

Các khái niệm chính của Python là gì?

Phải biết các khái niệm Python mà mọi nhà khoa học dữ liệu nên biết..
Thuộc tính Python VS Phương thức ..
Kiểu dữ liệu Python ..
Biến Python ..
Danh sách Python ..
Từ điển Python ..
Python nếu tuyên bố ..
Python cho vòng lặp ..
Chức năng Python ..