Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Bạn có biết cách sử dụng Microsoft Excel và muốn tìm hiểu cách phân tích dữ liệu với Python không? Bạn là người may mắn.

Chúng tôi vừa xuất bản một khóa học trên kênh YouTube Freecodecamp.org sẽ dạy bạn cách phân tích dữ liệu với Python. Khóa học này sẽ đặc biệt hữu ích nếu bạn có kinh nghiệm với Excel, nhưng điều đó không bắt buộc.

Frank Andrade đã phát triển khóa học này. Frank là một nhà khoa học dữ liệu và giáo viên xuất sắc.

Trong khóa học này, bạn sẽ tìm hiểu cách tạo các bảng xoay, làm việc với dữ liệu và thực hiện trực quan hóa bằng cách sử dụng máy tính xách tay Python, Gandas và Jupyter.

Dưới đây là tất cả các chủ đề bạn sẽ tìm hiểu trong khóa học này:

  • Cài đặt Notebook Python và Jupyter với Anaconda
  • Giao diện Notebook Jupyter
  • Các loại ô và chế độ ô
  • Phím tắt máy tính xách tay Jupyter
  • Mô -đun 1 - Hello World
  • Loại dữ liệu
  • Biến
  • Danh sách
  • Từ điển
  • Nếu tuyên bố
  • Cho vòng lặp
  • Chức năng
  • Mô -đun
  • Mô -đun 2 -Intruction thành gấu trúc
  • Cách tạo DataFrame
  • Cách hiển thị DataFrame
  • Các thuộc tính, chức năng và phương pháp cơ bản
  • Chọn một cột từ DataFrame
  • Chọn hai hoặc nhiều cột từ DataFrame
  • Thêm cột mới vào DataFrame (gán đơn giản)
  • Hoạt động trong DataFrames
  • Phương thức value_counts ()
  • Sắp xếp một dataFrame bằng phương thức sort_Values ​​()
  • Mô -đun 3: Giới thiệu về bảng trục trong gấu trúc
  • Phương thức pivot ()
  • Phương thức pivot_table ()
  • Trực quan hóa dữ liệu với PANDA (Bộ dữ liệu mới + Bảng Pivot)
  • LinePlot
  • Barplot
  • Biểu đồ tròn
  • Lưu lô và xuất bảng trục

Xem toàn bộ khóa học bên dưới hoặc trên kênh YouTube freecodecamp.org (đồng hồ 4 giờ).



Học mã miễn phí. Chương trình giảng dạy nguồn mở của Freecodecamp đã giúp hơn 40.000 người có được việc làm với tư cách là nhà phát triển. Bắt đầu

Đăng ký một tài khoản miễn phí và thử các khóa học tương tác của chúng tôi tại Python, R, SQL, v.v.

Làm thế nào để bạn phân tích dữ liệu trong Excel bằng Python?

Phân tích dữ liệu với Python cho khóa học người dùng Excel.

Hướng dẫn này giả định rằng bạn có kiến ​​thức cấp trung gian về Excel, bao gồm sử dụng các công thức và bảng trục.

Chúng tôi sẽ sử dụng Python Library Pandas, được thiết kế tạo điều kiện phân tích dữ liệu bằng Python, nhưng bạn không cần bất kỳ kiến ​​thức Python hoặc Pandas nào cho hướng dẫn này.pandas, which is designed facilitate data analysis in Python, but you don’t need any Python or pandas knowledge for this tutorial.

Tại sao sử dụng Python vs Excel?

Trước khi chúng tôi bắt đầu, bạn có thể tự hỏi tại sao Python thậm chí còn đáng để xem xét. Tại sao bạn không thể tiếp tục sử dụng Excel?

Mặc dù Excel là tuyệt vời, có một số lĩnh vực làm cho một ngôn ngữ lập trình như Python tốt hơn cho một số loại phân tích dữ liệu nhất định. Dưới đây là một số lý do từ bài viết 9 lý do người dùng Excel nên xem xét việc học lập trình:

  1. Bạn có thể đọc và làm việc với hầu hết mọi loại dữ liệu.
  2. Nhiệm vụ tự động và lặp đi lặp lại dễ dàng hơn.
  3. Làm việc với các bộ dữ liệu lớn nhanh hơn và dễ dàng hơn nhiều.
  4. Nó dễ dàng hơn cho những người khác để tái tạo và kiểm toán công việc của bạn.
  5. Tìm kiếm và sửa lỗi là dễ dàng hơn.
  6. Python là nguồn mở, vì vậy bạn có thể thấy những gì đằng sau các thư viện bạn sử dụng.
  7. Thống kê nâng cao và khả năng học máy.
  8. Khả năng trực quan dữ liệu nâng cao.
  9. Tính ổn định đa nền tảng-Phân tích của bạn có thể được chạy trên bất kỳ máy tính nào.

Để rõ ràng, chúng tôi không ủng hộ việc bỏ lại Excel - đó là một công cụ mạnh mẽ với nhiều công dụng! Nhưng là một người dùng Excel, việc cũng có thể tận dụng sức mạnh của Python có thể giúp bạn tiết kiệm hàng giờ và mở ra các cơ hội thăng tiến nghề nghiệp.

Nó có giá trị ghi nhớ hai công cụ có thể hoạt động tốt song song và bạn có thể thấy rằng một số nhiệm vụ tốt nhất còn lại trong Excel, trong khi những công cụ khác sẽ được hưởng lợi từ sức mạnh, tính linh hoạt và tính minh bạch mà Python cung cấp.

Nhập dữ liệu của chúng tôi

Hãy để bắt đầu bằng cách làm quen với dữ liệu mà chúng tôi sẽ làm việc cho hướng dẫn này. Chúng tôi sẽ sử dụng dữ liệu hư cấu về một công ty với nhân viên bán hàng. Ở đây, dữ liệu của chúng tôi trông như thế nào trong Excel:

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Dữ liệu của chúng tôi được lưu dưới dạng tệp CSV được gọi là sales.csv. Để nhập dữ liệu của chúng tôi bằng gấu trúc, chúng tôi cần bắt đầu bằng cách nhập chính thư viện Pandas.

Mã trên nhập gấu trúc và bí danh vào cú pháp pd. Điều đó nghe có vẻ phức tạp, nhưng nó thực sự chỉ là một loại biệt danh - điều đó có nghĩa là trong tương lai chúng ta chỉ có thể sử dụng pd để chỉ pandas để chúng ta không phải gõ từ đầy đủ mỗi lần.aliases it to the syntax pd. That may sound complicated, but it’s actually just a kind of nickname — it means that in the future we can just use pd to refer to pandas so that we don’t have to type out the full word each time.

Để đọc tệp của chúng tôi, chúng tôi sử dụng pd.read_csv():

Chúng tôi đã chỉ định kết quả của pd.read_csv() cho một biến gọi là sales, mà chúng tôi sẽ sử dụng để chỉ dữ liệu của chúng tôi. Chúng tôi cũng tự đặt tên biến trong dòng cuối cùng của mã của chúng tôi, in dữ liệu theo một bảng được định dạng độc đáo.

Ngay lập tức, chúng ta có thể nhận thấy một vài khác biệt giữa cách gấu trúc đại diện cho dữ liệu so với những gì chúng ta đã thấy trong Excel:

  • Trong gấu trúc, các số hàng bắt đầu từ 0 so với 1 trong Excel.
  • Tên cột trong gấu trúc được lấy từ dữ liệu, so với Excel nơi các cột được dán nhãn bằng các chữ cái.
  • Trong trường hợp có một giá trị bị thiếu trong dữ liệu gốc, Pandas có trình giữ chỗ NaN cho thấy giá trị bị thiếu hoặc null.null.
  • Dữ liệu bán hàng có một điểm thập phân được thêm vào mỗi giá trị, bởi vì Pandas lưu trữ các giá trị số bao gồm các giá trị NULL (NaN) là loại số được gọi là float (điều này không ảnh hưởng đến chúng tôi, nhưng chúng tôi chỉ muốn giải thích tại sao điều này) .float (this doesn’t effect anything for us, but we just wanted to explain why this is).

Trước khi chúng tôi tìm hiểu hoạt động của Pandas đầu tiên, chúng tôi sẽ nhanh chóng tìm hiểu một chút về cách lưu trữ dữ liệu của chúng tôi.

Hãy để sử dụng chức năng type() để xem loại biến sales của chúng tôi:

Đầu ra này cho chúng ta biết rằng biến sales của chúng ta là một đối tượng DataFrame, đây là một loại đối tượng cụ thể trong gấu trúc. Hầu hết thời gian trong gấu trúc Khi chúng tôi muốn sửa đổi DataFrame, chúng tôi sẽ sử dụng cú pháp đặc biệt có tên là Phương thức DataFrame, cho phép chúng tôi truy cập chức năng cụ thể liên quan đến các đối tượng DataFrame. Chúng tôi sẽ thấy một ví dụ về điều đó trong một khoảnh khắc khi chúng tôi hoàn thành nhiệm vụ đầu tiên của mình trong Pandas!DataFrame object, which is a specific type of object in pandas. Most of the time in pandas when we want to modify a dataframe, we’ll use special syntax called a dataframe method, which allows us to access specific functionality that relates to the dataframe objects. We’ll see an example of that in a moment when we complete our first task in pandas!

Sắp xếp dữ liệu

Hãy cùng học cách sắp xếp dữ liệu của chúng tôi trong Excel và Python. Hiện tại, dữ liệu của chúng tôi không được sắp xếp. Trong Excel, nếu chúng tôi muốn sắp xếp dữ liệu của mình theo cột pd2, chúng tôi sẽ:

  • Chọn dữ liệu của chúng tôi.
  • Nhấp vào nút ’sắp xếp trên thanh công cụ.
  • Chọn ‘Bắt đầu Ngày, trong hộp thoại Mở ra.

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Trong gấu trúc, chúng tôi sử dụng phương pháp pd3. Chúng tôi đã đề cập một thời gian ngắn một thời gian trước. Để sử dụng chúng, chúng tôi phải thay thế pd4 bằng tên của DataFrame, chúng tôi muốn áp dụng phương thức - trong trường hợp này là sales. Nếu bạn đã làm việc với các danh sách trong Python, bạn sẽ quen thuộc với mẫu này từ phương thức pd6.

Chúng tôi cung cấp tên cột cho phương thức để cho nó biết cột nào sẽ sắp xếp bằng cách:

Đăng ký một tài khoản miễn phí và thử các khóa học tương tác của chúng tôi tại Python, R, SQL, v.v.

Tóm tắt các giá trị bán hàng

Ba cột cuối cùng của dữ liệu của chúng tôi chứa các giá trị bán hàng trong ba tháng đầu năm, được gọi là quý đầu tiên. Nhiệm vụ tiếp theo của chúng tôi sẽ là tổng hợp các giá trị đó trong cả Excel và Python.

Hãy bắt đầu bằng cách nhìn vào cách chúng ta đạt được điều này trong Excel:

  • Nhập tên cột mới pd7 trong ô pd8.
  • Trong ô H2, sử dụng công thức pd9 và chỉ định phạm vi của các ô bằng tọa độ của chúng.
  • Kéo công thức xuống tất cả các hàng.

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Trong gấu trúc, khi chúng tôi thực hiện một thao tác, nó sẽ tự động áp dụng nó cho mỗi hàng cùng một lúc. Chúng tôi sẽ bắt đầu bằng cách chọn cột ba bằng cách sử dụng tên của họ trong danh sách:

Tiếp theo, chúng tôi sẽ sử dụng phương thức pd0 và chỉ định pd1, nói với Pandas rằng chúng tôi muốn tổng hợp các hàng chứ không phải các cột. Chúng tôi sẽ chỉ định tên cột mới bằng cách cung cấp nó bên trong dấu ngoặc:

Trong Pandas, công thức của người Viking mà chúng tôi đã sử dụng được lưu trữ. Thay vào đó, các giá trị kết quả được thêm trực tiếp vào DataFrame của chúng tôi. Nếu chúng tôi muốn thực hiện điều chỉnh các giá trị trong cột mới của chúng tôi, chúng tôi cần phải viết mã mới để thực hiện.

Tham gia dữ liệu Trình quản lý

Trong bảng tính của chúng tôi, chúng tôi cũng có một bảng dữ liệu nhỏ về ai quản lý từng đội:

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Hãy cùng xem xét cách tham gia dữ liệu này trong cột pd2 trong Excel và Python. Trong Excel, chúng tôi:

  • Bắt đầu bằng cách thêm tên cột vào ô pd3.
  • Sử dụng công thức pd4 trong ô pd5, chỉ định:
    • Để tra cứu giá trị từ ô pd6 (bộ phận)
    • Trong việc lựa chọn dữ liệu trình quản lý, chúng tôi chỉ định sử dụng tọa độ
    • và chúng tôi muốn chọn giá trị từ cột thứ hai của dữ liệu đó.
  • Nhấp và kéo công thức xuống tất cả các ô.

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Để làm việc với dữ liệu này trong gấu trúc, trước tiên chúng tôi sẽ cần nhập nó từ CSV thứ hai, pd7:

Đăng ký một tài khoản miễn phí và thử các khóa học tương tác của chúng tôi tại Python, R, SQL, v.v.

  • Làm thế nào để bạn phân tích dữ liệu trong Excel bằng Python?
  • Phân tích dữ liệu với Python cho khóa học người dùng Excel.
  • Cài đặt Notebook Python và Jupyter với Anaconda ..
  • pandas5: Tên của cột trong cả hai khung dữ liệu mà chúng tôi sẽ tham gia.

Nếu điều này có vẻ hơi khó hiểu lúc đầu, thì đó là OK. Mô hình tham gia dữ liệu trong Python khác với những gì được sử dụng trong Excel, nhưng nó cũng mạnh hơn rất nhiều. Lưu ý rằng trong Python, chúng tôi có thể chỉ định chính xác cách chúng tôi tham gia dữ liệu của chúng tôi bằng cách sử dụng tên Clear Cú pháp và cột.

Thêm một cột có điều kiện

Nếu chúng ta nhìn vào cột pandas6, chúng ta có thể thấy rằng không phải tất cả nhân viên vẫn ở với công ty - những người có giá trị còn thiếu vẫn được sử dụng nhưng phần còn lại đã rời đi. Nhiệm vụ tiếp theo của chúng tôi sẽ là tạo một cột cho chúng tôi biết nếu mỗi nhân viên bán hàng là một nhân viên hiện tại. Chúng tôi sẽ thực hiện điều này trong Excel và Python.

Bắt đầu với Excel, để thêm cột này, chúng tôi:

  • Thêm tên cột mới vào ô pandas7.
  • Sử dụng công thức pandas8 để kiểm tra xem ô pandas9 (ngày kết thúc) có trống không và nếu điền pd.read_csv()0 bằng pd.read_csv()1, nếu không pd.read_csv()2.
  • Kéo công thức xuống các ô bên dưới.

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Trong gấu trúc, chúng tôi sử dụng hàm pd.read_csv()3 để kiểm tra các giá trị null trong cột pandas6 và gán kết quả cho một cột mới:

Bảng xoay vòng

Một trong những tính năng Excel mạnh mẽ nhất là các bảng trục, tạo điều kiện phân tích dữ liệu bằng cách sử dụng tổng hợp. Chúng tôi sẽ xem xét hai ứng dụng bảng xoay khác nhau trong Excel và Python.

Chúng tôi sẽ bắt đầu với một bảng trục trong Excel, tính số lượng nhân viên trong mỗi bộ phận:

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Hoạt động này - đếm số lần một giá trị xảy ra trong một cột - rất phổ biến đến mức trong gấu trúc, nó có cú pháp riêng: pd.read_csv()5.

Loại sê -ri là mới trong hướng dẫn này, nhưng nó khá giống với một khung dữ liệu, mà chúng tôi đã tìm hiểu. Sê -ri chỉ là biểu diễn gấu trúc của một hàng hoặc cột.

Hãy để sử dụng phương pháp PANDAS để tính toán số lượng nhân viên trong mỗi bộ phận:

Ví dụ bảng trục thứ hai cũng tổng hợp theo bộ phận, nhưng thay vào đó tính toán doanh số Q1 trung bình:

Hướng dẫn python and excel for data analysis - python và excel để phân tích dữ liệu

Để tính toán điều này trong gấu trúc, chúng tôi sẽ sử dụng phương pháp pd.read_csv()6. Chúng ta cần chỉ định một số đối số:

  • pd.read_csv()7: Cột để tổng hợp bởi.
  • pd.read_csv()8: Cột chúng tôi muốn sử dụng các giá trị cho.
  • pd.read_csv()9: Hàm tổng hợp chúng tôi muốn sử dụng, trong trường hợp này là trung bình pd.read_csv()0.

Excel vs Python: Tóm tắt

Trong hướng dẫn này, chúng tôi đã học được tương đương Python cho chức năng Excel sau:

  • Sắp xếp dữ liệu
  • pd9
  • pd4
  • pandas8
  • Bảng xoay vòng

Đối với mỗi ví dụ chúng tôi đã xem xét, cú pháp Pandas có độ phức tạp tương tự như các công thức hoặc tùy chọn menu bạn sẽ sử dụng trong Excel. Nhưng Python cung cấp một số lợi thế, giống như xử lý nhanh hơn nhiều bộ dữ liệu lớn, tùy chỉnh và phức tạp hơn và tính minh bạch hơn để kiểm tra và kiểm tra lỗi (vì mọi thứ bạn đã thực hiện rõ ràng đều được trình bày rõ ràng trong mã, thay vì ẩn trong các ô).

Ai đó thành thạo Excel không chỉ có khả năng thực hiện bước nhảy vọt để làm việc trong Python. Thêm các kỹ năng Python vào bộ kỹ năng của bạn sẽ giúp bạn trở thành một nhà phân tích nhanh hơn và mạnh mẽ hơn về lâu dài và bạn sẽ khám phá các quy trình công việc mới tận dụng cả Excel và Python để phân tích dữ liệu hiệu quả và mạnh mẽ hơn bạn có thể làm với Excel một mình .

Nếu bạn muốn học cách phân tích dữ liệu trong Python, nhà phân tích dữ liệu của chúng tôi trong Python Path là thiết kế để dạy bạn mọi thứ bạn cần biết, ngay cả khi bạn chưa bao giờ mã hóa trước đây. Bạn sẽ bắt đầu với hai khóa học dạy cho bạn các nguyên tắc cơ bản của Python trước khi bạn chuyển sang học thư viện Pandas mà chúng tôi đã làm việc trong hướng dẫn này.

Học kỹ năng dữ liệu

Nhận mức tăng tiếp theo hoặc chuyển sang nghề nghiệp trong khoa học dữ liệu bằng cách học các kỹ năng dữ liệu.

Đăng ký một tài khoản miễn phí và thử các khóa học tương tác của chúng tôi tại Python, R, SQL, v.v.free account and try our interactive courses in Python, R, SQL, and more!

Làm thế nào để bạn phân tích dữ liệu trong Excel bằng Python?

Phân tích dữ liệu với Python cho khóa học người dùng Excel..
Cài đặt Notebook Python và Jupyter với Anaconda ..
Giao diện Notebook Jupyter ..
Các loại ô và chế độ ô ..
Phím tắt máy tính xách tay Jupyter ..
Mô -đun 1 - Hello World ..
Loại dữ liệu..
Variables..
Lists..

Tôi có thể sử dụng Python với Excel không?

Điều này cho phép bạn chạy Python bên trong Excel để mở rộng khả năng của Excel với mã Python của riêng bạn!Cũng có thể tương tác với Excel bằng cách sử dụng một công nghệ gọi là COM.Điều này cho phép một quá trình riêng biệt gọi vào Excel và tập lệnh.! It is also possible to interact with Excel using a technology called COM. This allows a separate process to call into Excel and script it.

Python có thể được sử dụng để phân tích dữ liệu không?

Python là một ngôn ngữ lập trình cấp cao, cấp cao được biết đến với cú pháp trực quan bắt chước ngôn ngữ tự nhiên.Bạn có thể sử dụng mã Python cho nhiều tác vụ khác nhau, nhưng ba ứng dụng phổ biến bao gồm: Khoa học dữ liệu và phân tích dữ liệu.three popular applications include: Data science and data analysis.