Thống kê trăn

Hãy theo dõi Fanpage Datapot để cập nhật lịch khai giảng các khóa học sắp tới & tham khảo các thông tin bổ trợ về ngành dữ liệu bạn nhé. Ngoài ra, bạn còn có thể tham khảo các từ khóa học phân tích dữ liệu cho người mới bắt đầu tại đây

Lộ trình học là bước đi đầu tiên và cơ bản nhất để định hướng được nội dung cần học, để không bị lang mang, lệch hướng với những kiến ​​thức không cần thiết

Ủng hộ website

✪ Học trực tuyến thật dễ dàng
✪ Nội dung học miễn phí
✪ Thời gian học thoải mái
. Video hoặc bài viết
►●─────────── dưới 1h

Thêm vào yêu thíchThêm vào yêu thíchXóa khỏi yêu thích 0

So sanh

Viết đóng góp bài học này

# Người chia sẻ. Tuấn Trần

  • Lý thuyết bài học
  • Đóng góp bài học [0]

Lộ trình học là gì?

Trong lĩnh vực lập chương trình nói chung và nhiều lĩnh vực khác nói riêng thì kiến ​​thức gần như vô tận, luôn thay đổi và cập nhật những cái mới, nhất là trong lĩnh vực công nghệ. Vì vậy, xác định được hướng đi trong quá trình học tập, nghiên cứu là cần thiết

Lộ trình học là bước đi đầu tiên và cơ bản nhất để định hướng được nội dung cần học, để không bị lang mang, lệch hướng với những kiến ​​thức không cần thiết

Như bài đầu tiên mình chia sẽ, để học tốt trong lĩnh vực này, bạn cần phải học nhiều kỹ năng trong đó kỹ năng sử dụng công cụ phân tích dữ liệu là một phần trong số đó

Bạn có thể sử dụng các công cụ phân tích dữ liệu đóng gói sẵn như. Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, QlikView hoặc sử dụng ngôn ngữ lập trình Python, R để phân tích. Mỗi công cụ đều có ưu nhược điểm khác nhau mà mình không đề cập nhật ở đây, các bạn có thể tham khảo thêm trên mạng để đưa ra quyết định mình nên chọn công cụ nào. If select Python, Welcome you. chúng ta cùng đi tiếp nhé

Lộ trình học Data Analytics

Đầu tiên là Python cơ bản

Python là ngôn ngữ lập trình hướng đối tượng, cấp cao, mạnh mẽ, được tạo ra bởi Guido van Rossum. Thật dễ dàng để tìm hiểu và nổi lên như một trong những ngôn ngữ lập trình nhập môn tốt nhất cho người lần đầu tiếp xúc với ngôn ngữ lập trình đó. Python hoàn toàn tạo kiểu động và sử dụng cơ chế phát bộ nhớ tự động

Python có cấu trúc dữ liệu cao cấp mạnh mẽ và cách tiếp cận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng. Cú pháp command của Python là điểm cộng vô cùng lớn vì sự rõ ràng, dễ hiểu và cách nhập linh hoạt làm cho nó nhanh chóng trở thành ngôn ngữ ngôn ngữ lý tưởng để viết kịch bản và phát triển ứng dụng trong nhiều lĩnh vực, ở hầu hết

về phần này thì may ra khi vào đây, đa số các bạn đã nắm rõ, nên mình không nhắc lại nhiều. nếu là các bạn mới xúc động thì mình để link học tại đây để các bạn bắt đầu

 

Học python cơ bản

https. //trănnangcao. com/product-category/python-co-ban/

Thư viện Numpy [ xử lý tính toán]

Sau khi ôm kiến ​​thức Python cơ bản hoàn thành, bạn tiếp tục qua bài thư viện Numpy

Numpy là một thư viện cốt lõi phục vụ cho khoa học máy tính của Python, hỗ trợ tính toán các mảng nhiều chiều, có kích thước lớn hơn so với các hàm đã được tối ưu áp dụng lên các mảng nhiều chiều đó. Numpy đặc biệt hữu ích khi thực hiện các hàm liên quan đến Đại Số Tuyến Tính

Bạn sẽ sử dụng thông thường thư viện này trong quá trình học tập và làm việc

Học numpy tại đây

https. //trănnangcao. com/product-category/thu-vien-numpy/

Pandas library [ Xử lý dữ liệu có cấu trúc ]

Pandas là thư viện mã nguồn mở được phát triển bởi Wes McKinney vào năm 2008. Pandas được sử dụng chủ yếu để thao tác, phân tích và làm sạch dữ liệu dữ liệu. Pandas cung cấp rất nhiều cấu trúc dữ liệu có cấu trúc dạng bảng [table] cũng như các tính năng hỗ trợ thao tác dữ liệu số và dữ liệu thời gian [chuỗi thời gian]. Hỗ trợ xuất nhiều loại định dạng dữ liệu như tệp csv, tệp excel, sql, Json…

Học Pandas tại đây

https. //trănnangcao. com/product-category/thu-vien-pandas/

Các thư viện trực quan hóa dữ liệu

Một thành phần không thể thiếu trong quá trình hậu phân tích đó là trực tiếp quan những số liệu đó ở dạng đồ thị hay biểu đồ. Biểu đồ rõ ràng, giúp ta trình bày đúng tâm phân tích. Trực quan dữ liệu trong python có nhiều thư viện hỗ trợ, tùy theo nhu cầu sử dụng mà ta nên chọn thư viện trực quan phù hợp

Matplotlib library

Matplotlib là một trong những thư viện Python phổ biến nhất được sử dụng để trực quan hóa dữ liệu. Nó là một thư viện đa nền tảng để tạo các đồ thị 2D từ dữ liệu trong các mảng. Matplotlib được viết bằng Python và sử dụng NumPy

Bạn thử tưởng tượng một tệp dữ liệu khoảng vài MB chứa đầy đủ các con số, khi vẽ ra đồ thị từ dữ liệu này, hãy nhìn hình ảnh đồ thị được vẽ ra bạn hiểu ngay vài MB dữ liệu đó có ý nghĩa gì. Tuyệt vời đúng không?

Tuy nhiên, để đồ thị được vẽ ra trực quan và sống động hơn và hữu ích hơn khi bạn thuyết trình, nên kết hợp thêm với thư viện Seaborn và một số thư viện tương tác với các biểu đồ khác như Cufflinks, Pltoly…

Học matplotlib tại đây

https. //trănnangcao. com/product-category/thu-vien-matplotlib/

Thư viện Seaborn

Đây là thư viện cần thiết để bạn trực quan hóa dữ liệu một cách tốt nhất khi báo cáo hoặc thuyết trình

Lưu ý. Seaborn nên được coi là một phần bổ sung cho matplotlib chứ không phải là một sự thay thế luôn  Matplotlib bạn nhé. Khi ta sử dụng seaborn, rất có thể ta sẽ thường gọi các hàm matplotlib trực tiếp để vẽ các đồ thị đơn giản có sẵn thông qua tên pyplot không gian. Do đó, sự kết hợp của 2 thư viện này sẽ rất hữu ích cho bạn với những loại đồ thị phức tạp

Bên cạnh đó còn một vài thư viện hỗ trợ tương tác với biểu đồ như Cufflink hay Plotly  [rất hay khi bạn làm thuyết trình nhé, vì dữ liệu được tương tác ngay trên biểu đồ] mình cũng đưa vào phần học thư viện seaborn để

Học seaborn tại đây

https. //trănnangcao. com/product-category/thu-vien-seaborn/

Data partition duy nhất

Về tư duy phân tích chỉ có rèn luyện mới có được. Chúng ta thương xuyên phải đối mặt với vấn đề, giải quyết nó, tập trung suy nghĩ vào nó thì từ nó hình thành tư duy trong bạn

Do đó không có cách nào khác ngoài cách thường xuyên làm bài tập, làm và làm…

Trong các bài sau nếu có thời gian, mình sẽ chia sẻ thêm các bài lấy dữ liệu từ kaggle. com để phân tích. Sau khi học xong các công cụ xử lý này, các bạn có thể lên Kaggle tìm kiếm dữ liệu mình quan tâm để thực hiện hành động nhé

Kỹ năng báo cáo – trình thuyết

Ok rồi các bạn. Bây giờ sau khi đã có dữ liệu phân tích và trực quan đầy đủ, công việc cuối cùng là bạn phải truyền đạt nội dung này đến lãnh đạo, phòng ban trong công ty hoặc khách hàng cá nhân

Viết và sắp xếp nội dung

Bạn phải viết ra một tệp báo cáo phân tích hoặc tệp thuyết trình như PowerPoint chẳng hạn, yêu cầu bạn phải có kỹ năng viết đúng trọng tâm, mạch lạc, rõ ràng và chính xác

Sắp xếp nội dung có bố cục cục bộ, trình tự, hình ảnh minh họa phù hợp với từng chủ đề

Nói và truyền đạt thông tin

Nếu bạn chỉ làm báo cáo thì phần kỹ năng nói đơn giản hơn, chỉ giải thích nội dung trong báo cáo cho lãnh đạo hoặc các phòng ban liên quan

Nhưng bạn phải thuyết trình nội dung phân tích đầy đủ yêu cầu bạn có kỹ năng thuyết trình

  • Không khớp, không hội chứng sợ đứng trước đông người [khi bạn hội chứng này thì không tập trung được khi thuyết trình] và thực tế, bạn có thể tự rèn luyện vấn đề này bằng các video chia sẻ trên youtube
  • Rõ ràng, không nhanh cũng không chậm, nhấn giọng khi tới các phần thuyết trình quan trọng. Kỹ năng này có thể luyện tập bằng cách đọc bài văn, bài diễn thuyết
  • Sử dụng ngôn ngữ cơ bản để tăng hiệu quả truyền đạt thông tin [kiểu như mấy ông Tây hay dùng bạn đó]

Bạn nên rèn luyện thêm các kỹ năng này vì nó rất quan trọng, theo kiểu bạn hiểu rất rõ vấn đề đó [vì bạn là người phân tích mà] nhưng khi truyền đạt cho người khác thì người ta không hiểu hết ý của bạn hoặc

Chủ Đề