Pandas Zero to Hero là một loạt video hướng dẫn nhằm dạy cách sử dụng Pandas thân thiện với người mới bắt đầu
Ảnh của billow926 trên Bapt
Trước khi tôi tham gia vào chương trình khuyến mãi không biết xấu hổ, trước tiên tôi muốn chia sẻ khám phá của mình về Pandas, tại sao nó lại phổ biến trong cộng đồng khoa học dữ liệu và động lực của tôi để bắt đầu chuỗi video
Vào đầu năm nay, tôi bắt đầu hành trình tự học về khoa học dữ liệu. Sau khi sàng lọc số lượng tài nguyên trực tuyến không giới hạn, có một nền tảng mà tôi thường thấy mình quay trở lại. Đó cũng chính là nơi tôi bắt đầu cuộc hành trình của mình, và đó là Kaggle
Kaggle là công ty con của Google và là cộng đồng trực tuyến gồm các nhà khoa học dữ liệu và học viên máy học từ khắp nơi trên thế giới. Tại đây, bạn có thể tìm thấy các khóa học nhỏ, bộ dữ liệu đã xuất bản nhưng quan trọng nhất là các cuộc thi nơi mọi người cạnh tranh để giải quyết các loại thách thức khác nhau về khoa học dữ liệu và máy học
Điều thu hút tôi với Kaggle ban đầu là những cuốn sổ ghi chép mà những người khác đã chia sẻ từ các cuộc thi trước đây. Là một người học được nhiều điều hơn khi tham gia vào các dự án thực tế, tôi đánh giá cao việc tôi có thể tham khảo những cuốn sổ tay này để tìm hiểu các phương pháp thông thường để giải quyết các vấn đề khoa học dữ liệu
Một trong những thứ thu hút sự chú ý của tôi từ rất sớm là thư viện Pandas. Tôi chợt nhận ra rằng mọi người đều sử dụng nó trong tất cả các sổ ghi chép mà tôi đã xem qua
Mặc dù không biết Pandas là gì vào thời điểm đó, tôi có thể nắm bắt hầu hết các chức năng đang được sử dụng khá ngay lập tức. Xin lưu ý bạn, lúc đó tôi hoàn toàn mới với khoa học dữ liệu. Điều này làm nổi bật tính sang trọng, mạnh mẽ và bản chất trực quan của công cụ phân tích dữ liệu này
Pandas là gì?Pandas là một thư viện để thao tác dữ liệu được xây dựng dựa trên ngôn ngữ lập trình Python
Pandas có các chức năng tích hợp cho hầu hết mọi thứ bạn muốn làm với dữ liệu của mình, chẳng hạn như chọn các cột hoặc hàng cụ thể, xử lý dữ liệu bị thiếu, nhóm và sắp xếp, hợp nhất các khung dữ liệu khác nhau, v.v.
Tại sao bạn nên học PandasNếu bạn làm việc với dữ liệu thường xuyên hoặc nếu bạn là người mới bắt đầu nghiêm túc học về khoa học dữ liệu, thì Pandas là một trong những công cụ quan trọng nhất mà bạn chắc chắn nên có trong bộ công cụ của mình.
Yếu tố chính của bất kỳ dự án khoa học dữ liệu hoặc máy học nào là có thể thao tác và đánh giá hiệu quả nội dung dữ liệu của bạn. Pandas không chỉ cung cấp một cách linh hoạt để quản lý khung dữ liệu của bạn mà quan trọng hơn là nó cho phép bạn phân tích rõ ràng các mẫu cơ bản có trong chính dữ liệu đó. Đây là một công cụ mạnh mẽ cần có nếu bạn đang muốn nâng cao kỹ năng phân tích dữ liệu của mình lên một tầm cao mới
Phần thưởng nếu bạn đã quen với cú pháp Python, bạn sẽ nhanh chóng nhận được Pandas. Nhưng đừng lo nếu bạn chưa quen với Python, nó không khó học chút nào
Tại sao tôi bắt đầu Pandas Zero to Hero?Tôi bắt đầu Pandas Zero to Hero chủ yếu vì hai lý do, một cho bản thân và một cho thế giới
- Tôi muốn thực hiện hướng dẫn này để không chỉ củng cố kiến thức cá nhân của tôi về Pandas mà còn cải thiện kỹ năng giao tiếp và khả năng nói chuyện tự tin trước ống kính
- Tôi muốn truyền cảm hứng và khuyến khích nhiều người hơn kết hợp Pandas vào công việc phân tích dữ liệu của họ. Pandas có lợi tức đầu tư rất cao, điều đó có nghĩa là bạn có thể bắt đầu chạy gần như ngay lập tức sau khi chỉ học một vài chức năng cơ bản. Tất cả những lợi ích với rất ít chi phí thời gian, không có trí tuệ để học đặc biệt là cho người mới bắt đầu
Lấy cảm hứng từ sáu viên đá vô cực trong MCU [Vũ trụ Điện ảnh Marvel], Pandas Zero to Hero chứa sáu video hướng dẫn riêng biệt, mỗi video bao gồm một khái niệm khác nhau về Gấu trúc. Khi thành thạo, chúng cấp cho bạn sức mạnh to lớn đối với vũ trụ – vũ trụ khoa học dữ liệu
Tuần 1. Tạo khung dữ liệu của riêng bạn
Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách nhập thư viện Pandas vào sổ ghi chép của mình cũng như cách đọc tập dữ liệu ngoài. Định dạng tệp phổ biến nhất, ít nhất là trên Kaggle, được gọi là giá trị được phân tách bằng dấu phẩy hoặc viết tắt là CSV. Pandas có các chức năng cho phép bạn đọc các tập dữ liệu ở các định dạng khác nhau bao gồm cả CSV
Ngoài việc nhập và đọc tập dữ liệu ngoài, chúng ta cũng sẽ tìm hiểu cách tạo khung dữ liệu giả của riêng mình
Tuần 2. Chọn dữ liệu
Khung dữ liệu được tạo thành từ các hàng và cột, với các hàng biểu thị các quan sát và các cột biểu thị các đặc điểm của các quan sát đó. Ví dụ: trong bộ dữ liệu giá nhà, số lượng hàng tương ứng với số lượng nhà trong bộ dữ liệu của chúng tôi. Mặt khác, các cột sẽ chứa các đặc điểm khác nhau của những ngôi nhà xác định giá bán cuối cùng của chúng, chẳng hạn như số phòng ngủ, diện tích lô đất, gần đường chính, v.v.
Chọn dữ liệu là một trong những kỹ năng cơ bản nhất cần có với tư cách là nhà khoa học dữ liệu. Nó cho phép bạn kiểm tra chặt chẽ một tập hợp con dữ liệu của mình cũng như áp dụng các hàm cho các hàng và cột cụ thể đáp ứng các điều kiện nhất định
Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách chọn dữ liệu bằng hàm loc và iloc trong Pandas
tuần 3. Chức năng
Các hàm là phép biến đổi hoặc tính toán mà chúng ta thực hiện trên một tập hợp một hoặc nhiều đầu vào. Nói cách khác, một hàm sẽ nhận một đầu vào, xử lý nó theo cách được chỉ định trước và trả về một đầu ra ở cuối
Có nhiều chức năng đã được tích hợp sẵn trong Pandas nhưng trong trường hợp chúng tôi muốn tạo chuyển đổi dữ liệu độc đáo của riêng mình, chúng tôi có thể làm như vậy bằng cách viết ra chức năng của mình trước rồi áp dụng nó vào dữ liệu của mình
Trong hướng dẫn này, chúng ta sẽ tìm hiểu một số hàm cơ bản cho thống kê mô tả, cách thực thi và áp dụng hàm Python, cũng như khái niệm về mã hóa chuyển biến văn bản thành giá trị số
tuần 4. Nhóm & Sắp xếp dữ liệu
Phân đoạn là một cách mạnh mẽ để không chỉ chia một vấn đề lớn thành các thành phần nhỏ hơn mà còn cho phép chúng tôi quan sát và phân tích chính xác hơn các xu hướng đang xảy ra trong dữ liệu của mình, từ đó dẫn đến hiểu biết sâu sắc hơn
Chúng tôi thấy phân khúc đang được sử dụng trong nhiều lĩnh vực liên quan đến giải quyết vấn đề và khoa học dữ liệu cũng không ngoại lệ. Có nhiều cách để nhóm và sắp xếp dữ liệu. Một số ví dụ bao gồm phân khúc theo nhóm tuổi khách hàng, danh mục sản phẩm, khu vực địa lý, v.v.
Trong hướng dẫn này, chúng ta sẽ tìm hiểu cách nhóm và sắp xếp dữ liệu dựa trên các đặc điểm nhất định
tuần 5. Xử lý dữ liệu bị thiếu
Thiếu dữ liệu hoặc giá trị null là một trong những vấn đề phổ biến nhất mà bạn sẽ gặp phải trong hành trình khoa học dữ liệu của mình và là vấn đề cần được giải quyết đúng cách để cải thiện độ chính xác của mô hình
Trong hướng dẫn này, chúng tôi sẽ đề cập đến hai phương pháp xử lý dữ liệu bị thiếu và thảo luận về sự đánh đổi giữa chúng
Cách dễ nhất và đơn giản nhất là thả các hàng hoặc cột chứa dữ liệu bị thiếu. Tuy nhiên, khi làm như vậy, chúng tôi có nguy cơ xóa thông tin có thể hữu ích khỏi khung dữ liệu của mình, điều này sẽ ảnh hưởng xấu đến khả năng đưa ra dự đoán chính xác của mô hình của chúng tôi
Ngoài ra, chúng ta có thể gán hoặc thay thế những dữ liệu bị thiếu đó bằng một số giá trị được thay thế. Mặc dù đây là phương pháp được ưa chuộng hơn, nhưng quá trình này thường đòi hỏi nhiều thời gian, cân nhắc và kinh nghiệm hơn
tuần 6. Kết hợp khung dữ liệu
Thông thường, trong một dự án khoa học dữ liệu, bạn sẽ làm việc với nhiều bộ dữ liệu. Do đó, sẽ có lúc bạn cần hợp nhất các khung dữ liệu khác nhau lại với nhau để phân tích mượt mà hơn
Trong hướng dẫn này, chúng ta sẽ tìm hiểu concat và merge, đây là hai chức năng trong Pandas sẽ cho phép bạn kết hợp các khung dữ liệu một cách linh hoạt
Phần kết luậnSáu video hướng dẫn này là các khóa học cấp tốc sẽ cung cấp cho bạn kiến thức cơ bản về những gì bạn có thể làm với thư viện Pandas
Tuy nhiên, điều cần thiết là bạn phải thực hành sử dụng nó nhiều nhất có thể trong một dự án khoa học dữ liệu thực tế để nắm bắt đầy đủ các khái niệm đằng sau những video này. Nói cách khác, hãy coi chúng như những video giới thiệu ngắn để giúp bạn bắt đầu nhưng hãy chuyển sang áp dụng chúng trong bối cảnh dự án thực tế để tối đa hóa việc học của bạn
Như đã nói, chúc bạn học tập vui vẻ và tôi hy vọng sẽ gặp lại bạn trong bài viết tiếp theo của tôi. Trong thời gian chờ đợi, vui lòng theo dõi tôi trên YouTube và GitHub