Hướng dẫn data scientist with python - nhà khoa học dữ liệu với trăn

Nội dung chính ShowShow

  • Định cấu hình môi trường lập trình của bạn
  • Chỉ tìm hiểu những điều cơ bản của Python
  • Numpy và Pandas - một nguồn tài nguyên tuyệt vời để học chúng
  • Tìm hiểu để trực quan hóa dữ liệu bằng cách sử dụng & nbsp; matplotlib
  • Cách sử dụng SQL và Python
  • Tìm hiểu số liệu thống kê cơ bản với Python
  • Thực hiện học máy bằng Scikit-Learn & NBSP;
  • Sự kết luận
  • Tôi có thể trở thành nhà khoa học dữ liệu với Python không?
  • Là Python hay C ++ tốt hơn cho khoa học dữ liệu?
  • Tôi nên học Java hay Python cho khoa học dữ liệu?
  • Tôi nên học Python hay R cho khoa học dữ liệu?

Hầu hết các nhà khoa học dữ liệu đầy tham vọng bắt đầu học Python bằng cách tham gia các khóa học lập trình dành cho các nhà phát triển. Họ cũng bắt đầu giải quyết các câu đố lập trình Python trên các trang web như LeetCode với giả định rằng họ phải có được các khái niệm lập trình tốt trước khi bắt đầu phân tích dữ liệu bằng Python.

Đây là một sai lầm rất lớn vì các nhà khoa học dữ liệu sử dụng Python & NBSP; để truy xuất, làm sạch, trực quan hóa và xây dựng các mô hình; và không phát triển các ứng dụng phần mềm. Do đó, bạn phải tập trung hầu hết thời gian của mình trong việc học các mô -đun và thư viện trong Python để thực hiện các nhiệm vụ này.

Thực hiện theo các bước gia tăng này để tìm hiểu Python cho khoa học dữ liệu.

Định cấu hình môi trường lập trình của bạn

& nbsp; Jupyter Notebook là một môi trường lập trình mạnh mẽ để phát triển và trình bày các dự án khoa học dữ liệu. The Jupyter Notebook is a powerful programming environment for developing and presenting data science projects.
The Jupyter Notebook is a powerful programming environment for developing and presenting data science projects.

Cách đơn giản nhất để bạn cài đặt Notebook Jupyter trên máy tính là bằng cách cài đặt Anaconda. Anaconda là phân phối Python được sử dụng rộng rãi nhất cho khoa học dữ liệu và được tải sẵn với tất cả các thư viện phổ biến nhất.

Bạn có thể đi qua bài đăng trên blog có tiêu đề "Hướng dẫn dành cho người mới bắt đầu để cài đặt Jupyter Notebook bằng cách sử dụng phân phối Anaconda" để tìm hiểu cách cài đặt Anaconda. Trong khi cài đặt Anaconda, & NBSP; chọn phiên bản Python 3 mới nhất.

Sau khi cài đặt Anaconda, hãy xem bài viết này trên Code Academy để tìm hiểu cách sử dụng máy tính xách tay Jupyter.

Chỉ tìm hiểu những điều cơ bản của Python

Numpy và Pandas - một nguồn tài nguyên tuyệt vời để học chúng
Code Academy has an excellent course on Python, it takes you approximately 20 hours to complete it. You don’t have to upgrade to the Pro Version as your goal is just to get familiar with the basics of Python programming language.

Numpy và Pandas - một nguồn tài nguyên tuyệt vời để học chúng

Tìm hiểu để trực quan hóa dữ liệu bằng cách sử dụng & nbsp; matplotlib
Python is slow for numerically heavy algorithms and handling large amounts of data. You might ask then why is Python the most popular programming language for data science?

Cách sử dụng SQL và Python

Tìm hiểu số liệu thống kê cơ bản với Python

Thực hiện học máy bằng Scikit-Learn & NBSP;

Sự kết luận

Tôi có thể trở thành nhà khoa học dữ liệu với Python không?

Tìm hiểu để trực quan hóa dữ liệu bằng cách sử dụng & nbsp; matplotlib

Cách sử dụng SQL và Python
Matplotlib is the fundamental Python package for creating basic visualizations. You must learn how to use Matplotlib to create some of the most common charts like Line charts, Bar charts, Scatter plots, Histograms and Box plots.

Một thư viện âm mưu tốt khác được xây dựng trên đỉnh của matplotlib và được tích hợp chặt chẽ với gấu trúc được gọi là Seaborn. Ở giai đoạn này, tôi sẽ đề nghị bạn nhanh chóng học cách tạo ra các biểu đồ cơ bản trong matplotlib và không tập trung vào Seaborn.

Tôi đã viết một hướng dẫn gồm bốn phần về cách phát triển các biểu đồ cơ bản bằng matplotlib.

Phần một: Các số liệu cơ bản trong matplotlib

Phần hai: Cách kiểm soát kiểu dáng và màu sắc của một hình, chẳng hạn như điểm đánh dấu, độ dày đường, mẫu đường và sử dụng bản đồ màu.

Phần ba: Chú thích, & NBSP; Kiểm soát phạm vi trục, tỷ lệ khung hình và hệ tọa độ

Phần bốn: Làm việc với các số liệu phức tạp

Bạn đi qua các hướng dẫn này để nắm bắt những điều cơ bản của & nbsp; matplotlib.

Một lưu ý nhanh, bạn không phải dành quá nhiều thời gian để học matplotlib vì ngày nay các công ty đã bắt đầu áp dụng các công cụ như Tableau và Qlik để tạo ra trực quan hóa tương tác.

Cách sử dụng SQL và Python

& nbsp; Trong các tổ chức, dữ liệu nằm trong cơ sở dữ liệu. Do đó, bạn cần biết cách truy xuất dữ liệu bằng SQL và thực hiện phân tích trong Notebook Jupyter bằng Python. In organizations, data resides in a database. Therefore, you need to know how to retrieve data using SQL and perform the analysis in Jupyter Notebook using Python.
In organizations, data resides in a database. Therefore, you need to know how to retrieve data using SQL and perform the analysis in Jupyter Notebook using Python.

Các nhà khoa học dữ liệu thao túng dữ liệu bằng cả SQL và gấu trúc. Bởi vì có một số tác vụ thao tác dữ liệu dễ thực hiện bằng SQL và có một số nhiệm vụ nhất định có thể được thực hiện hiệu quả bằng cách sử dụng gấu trúc. Cá nhân tôi thích sử dụng SQL để truy xuất dữ liệu và thực hiện thao tác trong gấu trúc.

Ngày nay, các công ty sử dụng các nền tảng phân tích như phân tích chế độ và dữ liệu để dễ dàng làm việc với Python và SQL.

Vì vậy, bạn nên biết cách sử dụng hiệu quả SQL và Python cùng nhau. Để tìm hiểu điều đó, bạn có thể cài đặt cơ sở dữ liệu SQLite trên máy tính của mình và lưu trữ tệp CSV trong đó và phân tích nó bằng Python và SQL. Ở đây, một bài đăng trên blog tuyệt vời cho bạn thấy cách thực hiện điều đó: lập trình với cơ sở dữ liệu bằng Python bằng SQLite.

Trước khi bạn đi qua bài đăng trên blog trên, bạn nên hiểu những điều cơ bản của SQL. Chế độ Phân tích có một hướng dẫn tốt về SQL: Giới thiệu về SQL.GO thông qua phần SQL cơ bản của họ để hiểu những điều cơ bản của SQL thực sự tốt như mọi nhà khoa học dữ liệu chắc chắn nên biết cách truy xuất dữ liệu một cách hiệu quả bằng SQL.

Tìm hiểu số liệu thống kê cơ bản với Python

& nbsp; Hầu hết các nhà khoa học dữ liệu đầy tham vọng trực tiếp nhảy để học máy học mà không cần học những điều cơ bản của số liệu thống kê. Most aspiring Data Scientists directly jump to learn machine learning without even learning the basics of statistics.
Most aspiring Data Scientists directly jump to learn machine learning without even learning the basics of statistics.

Donith phạm sai lầm vì số liệu thống kê là xương sống của khoa học dữ liệu. Mặt khác, các nhà khoa học dữ liệu đầy tham vọng học thống kê chỉ cần học các khái niệm lý thuyết thay vì học các khái niệm thực tế.

Theo các khái niệm thực tế, ý tôi là, bạn nên biết loại vấn đề nào có thể được giải quyết bằng số liệu thống kê. Hiểu những thách thức bạn có thể vượt qua bằng cách sử dụng số liệu thống kê.

Dưới đây là một số khái niệm thống kê cơ bản mà bạn nên biết:

Lấy mẫu, phân phối tần số, giá trị trung bình, trung bình, chế độ, thước đo độ biến thiên, cơ bản xác suất, thử nghiệm đáng kể, độ lệch chuẩn, điểm Z, khoảng tin cậy và kiểm tra giả thuyết (bao gồm kiểm tra A/B).

Một cuốn sách rất hay để dạy các số liệu thống kê thực tế là số liệu thống kê thực tế cho các nhà khoa học dữ liệu: 50 khái niệm thiết yếu ". Bốn chương của cuốn sách. Trải qua 4 chương đầu tiên của cuốn sách để hiểu các khái niệm thống kê cơ bản mà tôi đã đề cập trước đây, bỏ qua các ví dụ về mã và chỉ hiểu các khái niệm. Phần còn lại của các chương trong cuốn sách chủ yếu tập trung vào học máy. Tôi Sẽ nói về cách học máy học trong phần tiếp theo.

Hầu hết mọi người khuyên bạn nên nghĩ rằng các số liệu thống kê để tìm hiểu số liệu thống kê với Python nhưng tác giả dạy các chức năng tùy chỉnh của riêng mình thay vì sử dụng các thư viện Python tiêu chuẩn như StatSmodels để thực hiện thống kê. Đó là lý do tại sao tôi không giới thiệu cuốn sách này.

Sau đó, mục tiêu của bạn là thực hiện các khái niệm cơ bản mà bạn đã học trong Python. & NBSP; StatSmodels là một thư viện Python phổ biến được sử dụng để xây dựng các mô hình thống kê trong Python. Trang web StatSmodels có hướng dẫn tốt về cách thực hiện các khái niệm thống kê bằng Python.

Ngoài ra, bạn cũng có thể xem video này bởi Gaël Varoquaux. Anh ấy chỉ cho bạn cách thực hiện thống kê suy luận và khám phá bằng cách sử dụng các mô hình gấu trúc và thống kê.

Thực hiện học máy bằng Scikit-Learn & NBSP;

& nbsp; Scikit-Learn là một trong những thư viện học máy phổ biến nhất ở Python. Mục tiêu của bạn là học cách thực hiện một số thuật toán học máy phổ biến nhất bằng cách sử dụng scikit-learn. Scikit-Learn is one of the most popular Machine Learning Libraries in Python. Your goal is to learn how to implement some of the most common machine learning algorithms using Scikit-Learn.
Scikit-Learn is one of the most popular Machine Learning Libraries in Python. Your goal is to learn how to implement some of the most common machine learning algorithms using Scikit-Learn.

Đây là cách làm điều đó.

Đầu tiên, xem các video Tuần 1, 2, 3, 6, 7, và 8 của khóa học học máy Andrew Ng, trên Coursera. Tôi đã bỏ qua các phần trên các mạng thần kinh vì như một điểm khởi đầu, bạn phải tập trung vào các kỹ thuật học máy rộng rãi nhất.

Khi bạn đã hoàn thành điều đó, hãy đọc cuốn sách học máy thực hành với Scikit-Learn và Tensorflow. Chỉ cần đi qua phần đầu tiên của cuốn sách (khoảng 300 trang). Đây là một trong những cuốn sách học máy thực tế nhất có sẵn.

Bằng cách thực hiện các bài tập mã hóa trong cuốn sách này, bạn sẽ tìm hiểu cách thực hiện các khái niệm lý thuyết mà bạn đã học trong khóa học Andrew ng, bằng cách sử dụng Python.

Sự kết luận

& nbsp; Bước cuối cùng của bạn là thực hiện một dự án khoa học dữ liệu bao gồm tất cả các bước trên. Bạn có thể tìm thấy một bộ dữ liệu bạn thích và sau đó đưa ra các câu hỏi kinh doanh thú vị mà bạn có thể trả lời bằng cách phân tích nó. Nhưng, đừng chọn các bộ dữ liệu chung như Titanic Machine Learning & NBSP; cho dự án của bạn. Bạn có thể đọc "19 địa điểm để tìm bộ dữ liệu miễn phí cho dự án khoa học dữ liệu của mình" để tìm bộ dữ liệu. Your final step is to do a data science project that covers all of the above steps. You can find a data set you like and then come up with interesting business questions that you can answer by analyzing it. But, don't choose generic datasets like Titanic Machine Learning for your project. You can read "19 places to find free data sets for your data science project" for finding data sets.
Your final step is to do a data science project that covers all of the above steps. You can find a data set you like and then come up with interesting business questions that you can answer by analyzing it. But, don't choose generic datasets like Titanic Machine Learning for your project. You can read "19 places to find free data sets for your data science project" for finding data sets.

Một cách khác là áp dụng khoa học dữ liệu cho một lĩnh vực mà bạn đam mê. Ví dụ: nếu bạn muốn dự đoán giá thị trường chứng khoán thì bạn có thể xóa dữ liệu thời gian thực từ Yahoo Finance và lưu trữ nó trong cơ sở dữ liệu SQL và sử dụng học máy để dự đoán giá cổ phiếu.

Nếu bạn đang tìm cách chuyển sang khoa học dữ liệu từ một ngành công nghiệp khác, tôi khuyên bạn nên làm việc trong một dự án tận dụng chuyên môn về miền của bạn. Tôi đã đưa ra một lời giải thích chuyên sâu về phương pháp này trong các bài đăng trên blog trước đây của tôi "Hướng dẫn từng bước để chuyển đổi sự nghiệp của bạn sang Khoa học dữ liệu-Phần 1" và "Hướng dẫn từng bước để chuyển đổi sự nghiệp của bạn sang dữ liệu của bạn Khoa học - Phần 2 ".

Hãy cho tôi biết nếu bạn có bất kỳ câu hỏi trong bình luận!

Related:

  • Khoa học dữ liệu Python cho người mới bắt đầu
  • Hướng dẫn toàn diện để học Python để phân tích dữ liệu và khoa học dữ liệu
  • Thực hành: Giới thiệu về Python để phân tích dữ liệu

Tôi có thể trở thành nhà khoa học dữ liệu với Python không?

Là một nhà khoa học dữ liệu mới, bạn biết rằng con đường của bạn bắt đầu với các ngôn ngữ lập trình bạn cần học. Trong số tất cả các ngôn ngữ mà bạn có thể chọn Python là ngôn ngữ phổ biến nhất cho tất cả các nhà khoa học dữ liệu. Nếu bạn là một nhà phát triển Python và muốn thay đổi sự nghiệp của bạn thành nhà khoa học dữ liệu thì điều đó là có thể.If you are a Python developer and want to change your career to data scientist then it is possible.If you are a Python developer and want to change your career to data scientist then it is possible.

Là Python hay C ++ tốt hơn cho khoa học dữ liệu?

Python cũng là một ngôn ngữ hàng đầu để phân tích dữ liệu và học máy.Mặc dù cũng có thể sử dụng C ++ cho mục đích học máy, nhưng nó không phải là một lựa chọn tốt.Về mặt đơn giản, Python dễ sử dụng hơn nhiều và có một hệ thống hỗ trợ tuyệt vời khi nói đến các khung AI và ML.. While it is possible to use C++ for machine learning purposes as well, it is not a good option. In terms of simplicity, Python is much easier to use and has a great support system when it comes to AI and ML frameworks.. While it is possible to use C++ for machine learning purposes as well, it is not a good option. In terms of simplicity, Python is much easier to use and has a great support system when it comes to AI and ML frameworks.

Tôi nên học Java hay Python cho khoa học dữ liệu?

Java vs Python cho khoa học dữ liệu- hiệu suất về tốc độ, Java nhanh hơn Python.Phải mất ít thời gian hơn để thực hiện mã nguồn so với Python.Python là một ngôn ngữ được giải thích, có nghĩa là mã được đọc từng dòng.Điều này thường dẫn đến hiệu suất chậm hơn về tốc độ.Java is faster than Python. It takes less time to execute a source code than Python does. Python is an interpreted language, which means that the code is read line by line. This generally results in slower performance in terms of speed.Java is faster than Python. It takes less time to execute a source code than Python does. Python is an interpreted language, which means that the code is read line by line. This generally results in slower performance in terms of speed.

Tôi nên học Python hay R cho khoa học dữ liệu?

Tải xuống miễn phí cho tất cả mọi người, cả hai ngôn ngữ đều phù hợp với các tác vụ khoa học dữ liệu - từ thao tác dữ liệu và tự động hóa đến phân tích kinh doanh và khám phá dữ liệu lớn.Sự khác biệt chính là Python là ngôn ngữ lập trình đa năng, trong khi R có nguồn gốc từ phân tích thống kê.