Gấu trúc bỏ qua hàng excel
Tại sao nên học cách làm việc với Python Pandas Excel? . Từ các nhà phân tích, đến các VP bán hàng, đến các CEO, các chuyên gia khác nhau đều sử dụng Excel cho cả số liệu thống kê nhanh và xử lý dữ liệu quan trọng Show
Với công việc Excel rất phổ biến, các chuyên gia dữ liệu phải làm quen với nó. Làm việc với dữ liệu bằng Python hoặc R mang lại những lợi ích quan trọng như vậy với Excel Excel UI, vì vậy việc tìm cách làm việc với Excel bằng mã là rất quan trọng. Rất có thể, đã có sẵn một công cụ tuyệt vời để sử dụng Excel với Python được gọi là Pandas Pandas có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ tệp Excel. Bạn cũng có thể xuất kết quả của mình từ Pandas trở lại Excel, nếu điều đó được đánh giá cao bởi các đối tượng dự kiến của bạn. Pandas thật tuyệt vời đối với các nhiệm vụ phân tích dữ liệu thường xuyên khác nhau, chẳng hạn như giới hạn
Pandas tốt hơn trong việc tự động hóa các tác vụ xử lý dữ liệu so với Excel, bao gồm xử lý các tệp Excel Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách làm việc với các tệp Excel trong Pandas. Chúng tôi sẽ bao gồm các khái niệm sau đây
Lưu ý rằng hướng dẫn này không cung cấp một sự đi sâu vào Pandas. Để khám pháPandas nhiều hơn nữa, hãy xem từ khóa học của chúng tôi Điều kiện quyết định đầu tiên của hệ thốngChúng tôi sẽ sử dụng Python 3 và Jupyter Notebook để trình bày mã theo hướng dẫn này matplotlib – trực tiếp hóa dữ liệu Có nhiều cách để thiết lập với tất cả các mô-đun. Chúng tôi bao gồm ba trong số các kịch bản phổ biến nhất dưới đây
Tập dữ liệu – Python Pandas ExcelTrong hướng dẫn này, chúng tôi sẽ sử dụng tệp Excel nhiều trang mà chúng tôi đã tạo từ dữ liệu Điểm IMDB của Kaggle. You can download the file at here Tệp Excel của chúng tôi có ba trang tính. 'Những năm 1900', 'Những năm 2000', 'Những năm 2010'. Mỗi sheet có dữ liệu cho các bộ phim từ những năm đó Chúng tôi sẽ sử dụng bộ dữ liệu này để tìm phân phối xếp hạng cho phim, trực quan hóa phim có xếp hạng cao nhất và thu nhập ròng và hệ thống tính toán thông tin về phim. Chúng tôi sẽ phân tích và khám phá dữ liệu này bằng Python và Pandas, chứng minh khả năng của Pandas để làm việc với dữ liệu Excel trong Python Đọc dữ liệu từ tệp Excel – Python Pandas ExcelTrước hết chúng ta cần nhập dữ liệu từ tệp Excel vào Pandas. Để làm điều đó, chúng tôi bắt đầu bằng cách nhập mô-đun Pandas
Sau đó, chúng tôi sử dụng phương thức pandasTHER read_excel để đọc dữ liệu từ tệp Excel. Cách dễ nhất để gọi phương thức này là truyền tên tệp. Nếu không có tên trang tính được xác định duy nhất, thì nó sẽ đọc trang tính đầu tiên trong mục (được hiển thị bên dưới)
Tại đây, read_excel method read data from file Excel to a object DataFrame of Pandas. Pandas default archive data in DataFrames. Sau đó, tôi đã lưu DataFrame này vào một biến gọi là phim Pandas có một DataFrame phương thức. head () tích hợp mà chúng ta có thể sử dụng để dễ dàng hiển thị một vài hàng đầu tiên của DataFrame. Nếu không có đối số nào được thông qua, nó sẽ hiển thị năm hàng đầu tiên. If a number has been through, it will show the number of rows by other from the top bộ phim. đầu () Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – truyền Tổng số lượt thích trên Facebook – Số lượng Facebook trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB0Không khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Lịch sử. WarNaNUSAKhông được xếp hạng1231. 33385907. 0NaN…436229. 04816911107188869. 08. 01 Over the Hill to the Poorhouse 1920 Tội ác. KịchNaNUSANaN1101. 33100000. 03000000. 0…220. 0401511. 04. 82Cuộc Diễu Hành Lớn1925Phim Chính Kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng1511. 33245000. 0NaN…81126. 0108226048494548. 08. 33Metropolis1927Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 34Chiếc hộp Pandora1929Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 0 Các tệp Excel thường có nhiều trang tính và khả năng đọc một trang cụ thể hoặc tất cả chúng đều rất quan trọng. Để làm cho điều này trở nên dễ dàng, phương thức pandas read_excel lấy một đối số được gọi là tên trang tính để Pandas biết nên đọc bất kỳ tờ nào trong dữ liệu. Đối với điều này, bạn có thể sử dụng tên trang tính hoặc số trang tính. Số tờ bắt đầu bằng không. Nếu sheetname đối số không được đưa ra, nó mặc định là 0 và Pandas sẽ nhập trang tính đầu tiên Theo mặc định, Pandas sẽ tự động gán chỉ mục số hoặc nhãn hàng bắt đầu bằng 0. Bạn có thể muốn khôi phục lại chỉ mục mặc định như vậy nếu dữ liệu của bạn không có cột có các giá trị duy nhất có thể phục vụ như một mục tốt hơn. Trong trường hợp có một cột mà bạn cảm thấy sẽ đóng vai trò trò chơi là một mục tốt hơn, bạn có thể ghi đè hành động vi mặc định bằng cách đặt thuộc tính index_col thành một cột. Nó nhận một giá trị số để đặt một cột làm chỉ mục hoặc danh sách các giá trị số để tạo nhiều chỉ mục Trong đoạn mã dưới đây, chúng tôi đang chọn cột đầu tiên, Tiêu đề tiêu đề, làm chỉ mục (index = 0) bằng cách chuyển số 0 cho đối số index_col
NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đềKhông khoan dung. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Lịch sử. WarNaNUSAKhông được xếp hạng1231. 33385907. 0NaND. W. Griffith…436229. 04816911107188869. 08. 0 Over the Hill to the Poorhouse 1920 Tội ác. KịchNaNUSANaN1101. 33100000. 03000000. 0Harry F. Millarde…220. 0401511. 04. 8 Cuộc diễu hành lớn năm 1925. Lãng mạn. WarNaNUSAKhông được xếp hạng1511. 33245000. 0NaNKing Vidor…81126. 0108226048494548. 08. 3Metropolis1927Kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0Fritz Lang…1362318. 0203120001111841413260. 08. 3Hộp Pandora1929Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0Georg Wilhelm Pabst…426203. 0455926174318471. 08. 0 Như bạn đã thấy ở trên, tệp dữ liệu Excel của chúng tôi có ba tờ giấy. Chúng tôi đã đọc trang đầu tiên trong DataFrame ở trên. Bây giờ, sử dụng cùng một cú pháp, chúng ta cũng sẽ đọc phần còn lại của hai tờ giấy
NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – Số lượng Facebook trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đề102 Dalmatians2000Phiêu lưu. Hài kịch. Gia đìnhTiếng AnhUSAG100. 01. 8585000000. 066941559. 0Kevin Lima…2000. 0795. 0439. 0418237212641377. 084. 04. 828 Days2000Phim Hài. KịchTiếng AnhUSAPG-13103. 01. 3743000000. 037035515. 0Betty Thomas…12000. 010000. 0664. 0238640134597194. 0116. 06. 03 Strikes2000Phim hàiTiếng AnhUSAR82. 01. 856000000. 09821335. 0DJ Pooh…939. 0706. 0585. 033541181141510. 022. 04. 0Aberdeen2000DramaTiếng AnhUKNaN106. 01. 856500000. 064148. 0Hans Petter Moland…844. 02. 00. 08462600260135. 028. 07. 3 Tất Cả Những Con Ngựa Xinh Đẹp 2000. Lãng mạn. Miền TâyTiếng AnhUSAPG-13220. 02. 3557000000. 015527125. Billy Bob Thornton…13000. 0861. 0820. 015006652211388183. 085. 05. 8
NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhậpĐạo diễn…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – Số lượng Facebook trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDBTiêu đề127 giờ2010. 0Phiêu lưu. Tiểu sử. Kịch. Kinh dịTiếng AnhUSAR94. 01. 8518000000. 018329466. 0Danny Boyle…11000. 0642. 0223. 011984630000. 0279179440. 0450. 07. 63 Sân Sau2010. 0DramaTiếng AnhUSAR88. 0NaN300000. 0NaNEric Mendelsohn…795. 0659. 0301. 01884920. 055423. 020. 05. 232010. 0Hài kịch. Kịch. Lãng mạnĐứcĐứcUnrated119. 02. 35NaN59774. 0Tom Tykwer…24. 020. 09. 06920000. 0421218. 076. 06. 88. Đề xuất Mặc Môn2010. 0Phim tài liệuTiếng AnhUSAR80. 01. 782500000. 099851. 0Bò sậy…191. 012. 05. 021000. 0113830. 028. 07. 1A Chuyện Rùa. Cuộc Phiêu Lưu Của Sammy2010. 0Phiêu lưu. hoạt hình. Gia đìnhTiếng AnhPhápPG88. 02. 35NaNNaNBen Stassen…783. 0749. 0602. 0387402. 0538522. 056. 06. 1 Vì cả ba trang tính đều có dữ liệu giống nhau nhưng đối lập với các bản ghi khác nhau, chúng tôi sẽ tạo một DataFrame duy nhất từ cả ba DataFrames mà chúng tôi đã tạo ở trên. Chúng tôi sẽ sử dụng phương thức concat của Pandas cho công việc này và chuyển vào tên của ba DataFram mà chúng tôi vừa tạo và gán kết quả cho một đối tượng DataFrame mới, phim. Bằng cách giữ tên DataFrame giống như trước đây, chúng tôi đã ghi đè lên DataFrame được tạo trước đó
Chúng ta có thể kiểm tra xem sự kết hợp này bằng cách kiểm tra số lượng hàng hóa trong DataFrame kết hợp bằng cách gọi hình dạng phương thức trên đó sẽ cho chúng ta biết số lượng hàng hóa và cột
Sử dụng lớp ExcelFile để đọc nhiều trang tính – Python Pandas ExcelChúng ta đồng thời có thể sử dụng lớp ExcelFile để làm việc với nhiều trang từ cùng một tệp Excel. Chúng ta cũng có thể sử dụng lớp ExcelFile để làm việc với nhiều trang tính từ cùng một tệp Excel. Trước chúng tôi bọc tệp Excel bằng cách sử dụng 5 và chuyển nó sang phương thức 6
Nếu bạn đang đọc tệp Excel có nhiều trang tính và đang tạo nhiều DataFrames, thì ExcelFile sẽ thuận tiện và hiệu quả hơn so với read_excel. Với ExcelFile, bạn chỉ cần truyền tệp Excel một lần và sau đó bạn có thể sử dụng tệp đó để lấy DataFrames. Khi sử dụng read_excel, bạn chuyển tệp Excel mỗi lần và do đó tệp được tải xuống cho mỗi trang tính. Đây có thể là một lực kéo có hiệu suất rất lớn nếu tệp Excel có nhiều trang tính với số lượng hàng hóa lớn
0Điều này cho tôi biết tệp Excel của tôi có 5042 hồ sơ và 25 cột hoặc quan sát. Điều này có thể hữu ích trong báo cáo số lượng bản ghi và cột và so sánh với số liệu được thiết lập 1Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – PhimFacebooksố trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB1599War & PeaceNaNDrama. Lịch sử. Lãng mạn. Chiến tranhTiếng AnhUKTV-14NaN16. 00NaNNaN…1000. 0888. 0502. 04528110001. 0927744. 010. 08. 21600WingsNaNChài kịch. KịchTiếng AnhMỹNaN30. 01. 33NaNNaN…685. 0511. 0424. 0188410005. 0764656. 019. 07. 31601Wolf CreekNaNDPhim. Rùng rợn. Kinh dịTiếng AnhÚcNaNNaN2. 00NaNNaN…511. 0457. 0206. 016179540. 07266. 02. 07. 11602Wuthering HeightsNaNDPhim truyền hình. Lãng mạnTiếng AnhUKNaN142. 0NaNNaNNaN…27000. 0698. 0427. 02919602. 0605333. 09. 07. 71603Yu-Gi-Oh. Duel MonstersNaNAHành động. Cuộc phiêu lưu. hoạt hình. Gia đình. Tưởng tượngNhật BảnNhật BảnNaN24. 0NaNNaNNaN…0. 0NaNNaN01240. 01241751. 06. 07. 0 Trong Excel, bạn có thể sắp xếp một trang tính dựa trên các giá trị trong một hoặc nhiều cột. Trong Pandas, bạn có thể làm điều tương tự với phương thức sort_values. Ví dụ. hãy sắp xếp các bộ phim DataFrame của chúng tôi dựa trên cột Tổng thu nhập sort_by_gross = phim. sort_values([‘Tổng thu nhập’], tăng dần = Sai) 2 3Chúng tôi cũng có thể tạo cốt truyện cho 10 bộ phim hàng đầu của Tổng thu nhập. Pandas giúp bạn dễ dàng trực quan hóa dữ liệu của bạn với sơ đồ và biểu đồ thông qua matplotlib, một thư viện trực quan hóa dữ liệu phổ biến. Với một vài dòng mã, bạn có thể bắt đầu vẽ. Hơn nữa, các lô matplotlib hoạt động tốt trong Notebook Jupyter vì bạn có thể thay thế các lô ngay bên dưới mã 4Chúng tôi sẽ vẽ một cốt truyện trong đó mỗi thanh sẽ đại diện cho một trong 10 bộ phim đầu. Chúng ta có thể làm điều này bằng cách gọi phương thức cốt truyện và đặt loại đối số thành barh. Điều này nói với matplotlib để vẽ một biểu đồ thanh ngang 5Hãy cùng nhau tạo ra một biểu tượng của điểm IMDB để kiểm tra sự phân phối của điểm IMDB trên tất cả các phim. Biểu đồ là một cách tốt để sắp xếp sự phân phối của một tập dữ liệu. Chúng tôi sử dụng phương pháp cốt truyện trên IMDB hàng loạt từ DataFrame phim của chúng tôi và truyền cho nó các đối số 6Trực quan hóa dữ liệu này cho thấy rằng hầu hết các điểm IMDB rơi vào khoảng từ sáu đến tám Get data information systemPandas có một số phương pháp rất tiện dụng để xem xét hệ thống dữ liệu thống kê về tệp dữ liệu của chúng tôi. Ví dụ. chúng ta có thể sử dụng phương pháp mô tả để có được một bản tóm tắt bảng thống kê của tệp dữ liệu 7Năm Thời lượng Tỷ lệ khung hình Ngân sách Tổng thu nhập Lượt thích trên Facebook – Đạo diễn Lượt thích trên Facebook – Diễn viên 1 Lượt thích trên Facebook – Diễn viên 2 Lượt thích trên Facebook – Diễn viên 3 Lượt thích trên Facebook – diễn viên Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phích Bình chọn của người dùng Đánh giá của người dùng Đánh giá của Crtiics Điểm IMDB4935. 0000005028. 0000004714. 0000004. 551000e+034. 159000e+034938. 0000005035. 0000005029. 0000005020. 0000005042. 0000005042. 0000005029. 0000005. 042000e+035022. 0000004993. 0000005042. 000000mean2002. 470517107. 2010742. 2204033. 975262e+074. 846841e+07686. 6217096561. 3239321652. 080533645. 0097619700. 9591437527. 4571601. 3714468. 368475e+04272. 770808140. 1942726. 442007std12. 47459925. 1974411. 3851132. 061149e+086. 845299e+072813. 60240515021. 9776354042. 7746851665. 04172818165. 10192519322. 0705372. 0136831. 384940e+05377. 982886121. 6016751. 125189min1916. 0000007. 0000001. 1800002. 180000e+021. 620000e+020. 0000000. 0000000. 0000000. 0000000. 0000000. 0000000. 0000005. 000000e+001. 0000001. 0000001. 60000025%1999. 00000093. 0000001. 8500006. 000000e+065. 340988e+067. 000000614. 500000281. 000000133. 0000001411. 2500000. 0000000. 0000008. 599250e+0365. 00000050. 0000005. 80000050%2005. 000000103. 0000002. 3500002. 000000e+072. 551750e+0749. 000000988. 000000595. 000000371. 5000003091. 000000166. 0000001. 0000003. 437100e+04156. 000000110. 0000006. 60000075%2011. 000000118. 0000002. 3500004. 500000e+076. 230944e+07194. 75000011000. 000000918. 000000636. 00000013758. 7500003000. 0000002. 0000009. 634700e+04326. 000000195. 0000007. 200000max2016. 000000511. 00000016. 0000001. 221550e+107. 605058e+0823000. 000000640000. 000000137000. 00000023000. 000000656730. 000000349000. 00000043. 0000001. 689764e+065060. 000000813. 0000009. 500000 Phương pháp mô tả hiển thị thông tin bên dưới cho mỗi cột number or value value 7Cũng giống như trung bình, có các phương thức có sẵn cho mỗi thông tin thống kê mà chúng tôi muốn truy cập. Bạn có thể đọc về các phương pháp này trong bảng cheat Pandas miễn phí của chúng tôi Đọc tệp không có tiêu đề và bỏ qua hồ sơTrước đó trong hướng dẫn này, chúng tôi đã thấy một số cách để đọc một loại tệp Excel cụ thể có tiêu đề và không có hàng nào cần bỏ qua. Đôi khi, bảng tính Excel không có bất kỳ hàng tiêu đề nào. Đối với những trường hợp như vậy, bạn có thể yêu cầu Pandas không coi hàng đầu tiên là tên tiêu đề hoặc cột. Và nếu một vài hàng đầu tiên trong bảng tính Excel có chứa dữ liệu không nên đọc, bạn có thể yêu cầu phương thức read_excel bỏ qua một số hàng nhất định, bắt đầu từ đầu Tệp này rõ ràng không có tiêu đề và bốn hàng đầu tiên không phải là bản ghi thực và do đó không nên đọc. Chúng ta có thể nói với read_excel không có tiêu đề bằng cách đặt tiêu đề đối số thành Không có và chúng ta có thể bỏ qua bốn hàng đầu tiên bằng cách đặt bỏ qua đối số thành bốn 80123456789…151617181920212223240Metropolis1927Kịch. Sci-FiGermanGermanyNot Rated1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 31Pandora’s Box1929Crime. Drama. RomanceGermanGermanyNot Rated1101. 33NaN9950. 0…426203. 0455926174318471. 08. 02The Broadway Melody1929Musical. RomanceEnglishUSAPassed1001. 37379000. 02808000. 0…77284. 0109167845467136. 06. 33Hell’s Angels1930Drama. Chiến tranhTiếng AnhHoa KỳĐã qua961. 203950000. 0NaN…431124. 0457279137535335. 07. 84A Vĩnh biệt vũ khí1932Phim truyền hình. Lãng mạn. Chiến tranhTiếng AnhMỹUnrated791. 37800000. 0NaN…99816499. 01284213135194642. 06. 6 Chúng tôi đã loại bỏ bốn hàng từ trang tính và không sử dụng bất kỳ hàng nào làm tiêu đề. Ngoài ra, lưu ý rằng người ta có thể kết hợp các tùy chọn khác nhau trong một tuyên bố đọc. Để bỏ qua các hàng ở cuối trang tính, bạn có thể sử dụng tùy chọn Skip_footer, hoạt động giống như bỏ qua, sự khác biệt duy nhất là các hàng được tính từ dưới lên Các cột tên trong DataFrame trước đó là số và được phân bổ theo mặc định của Pandas. Chúng ta có thể thay đổi tên các cột thành các mô tả bằng cách gọi các cột phương thức trên DataFrame và chuyển các cột tên dưới dạng danh sách 9Tiêu đề NămThể loạiNgôn ngữQuốc giaĐánh giá nội dungThời lượngTỷ lệ khung hìnhNgân sáchTổng thu nhập…Lượt thích trên Facebook – Diễn viên 1Lượt thích trên Facebook – Diễn viên 2Lượt thích trên Facebook – Diễn viên 3Lượt thích trên Facebook – cast Tổng số lượt thích trên Facebook – MovieFacenumber trong áp phíchNgười dùng bình chọnNhận xét của người dùngNhận xét của CrtiicsĐiểm IMDB0Metropolis1927Drama. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1451. 336000000. 026435. 0…1362318. 0203120001111841413260. 08. 31Chiếc hộp Pandora1929Tội ác. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng1101. 33NaN9950. 0…426203. 0455926174318471. 08. 02 Vở nhạc kịch giai điệu Broadway 1929. Lãng mạnTiếng AnhMỹĐã qua1001. 37379000. 02808000. 0…77284. 0109167845467136. 06. 33Thiên thần địa ngục1930Phim truyền hình. Chiến tranhTiếng AnhHoa KỳĐã qua961. 203950000. 0NaN…431124. 0457279137535335. 07. 84A Vĩnh biệt vũ khí1932Phim truyền hình. Lãng mạn. Chiến tranhTiếng AnhMỹUnrated791. 37800000. 0NaN…99816499. 01284213135194642. 06. 6 Bây giờ chúng ta đã thấy cách đọc một tập hợp các hàng từ tệp Excel, chúng ta có thể tìm hiểu cách đọc một tập hợp các cột Đọc tập hợp con của các cộtMặc dù read_excel mặc định để đọc và nhập tất cả các cột, bạn có thể chọn chỉ nhập một số cột nhất định. Bằng cách chuyển parse_cols = 6, chúng tôi đang nói với phương thức read_excel chỉ đọc các cột đầu tiên cho đến khi chỉ mục sáu hoặc bảy cột đầu tiên (cột đầu tiên được thiết lập chỉ mục bằng 0) 0TitleYearGenresLanguageCountryContent RatingDuration0Intolerance. Cuộc đấu tranh của tình yêu xuyên suốt các thời đại1916Phim chính kịch. Lịch sử. WarNaNUSAKhông được xếp hạng1231 Vượt qua ngọn đồi đến ngôi nhà nghèo 1920 Tội ác. KịchNaNUSANaN1102Cuộc diễu hành lớn1925Kịch. Lãng mạn. WarNaNUSAKhông được xếp hạng1513Metropolis1927Chính kịch. Khoa học viễn tưởngĐứcĐứcKhông được xếp hạng1454Hộp Pandora1929Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng110 Ngoài ra, bạn có thể chuyển vào một danh sách các số, điều này sẽ cho phép bạn nhập các cột vào các mục cụ thể có thể Áp dụng các công thức trên các cộtMột trong những tính năng được sử dụng nhiều của Excel là áp dụng các công thức để tạo các cột mới từ các giá trị cột hiện có. Trong tệp Excel của chúng tôi, chúng tôi có các cột Tổng thu nhập và Ngân sách. Chúng tôi có thể nhận net income bằng cách trừ Ngân sách khỏi Total income. Sau đó chúng ta có thể áp dụng công thức này trong tệp Excel cho tất cả các hàng. Chúng ta có thể làm điều này trong Pandas như dưới đây 1Ở trên, chúng tôi đã sử dụng Pandas để tạo một cột mới có tên Thu nhập ròng và đưa vào đó sự khác biệt của Tổng thu nhập và ngân hàng. Nó có giá trị đáng chú ý ở đây về cách các công thức được xử lý trong Excel so với Pandas. Trong Excel, một công thức tồn tại trong ô và cập nhật khi dữ liệu thay đổi – với Python, các tính năng được phép xảy ra và các giá trị được lưu trữ – nếu Tổng thu nhập cho một bộ phim được thay đổi theo cách thủ công, 2Bảng Pivot trong gấu trúc – Python Pandas ExcelNgười dùng Excel nâng cao cũng thường sử dụng các bảng trụ. Bảng xoay vòng bảng tóm tắt dữ liệu của một bảng khác bằng cách nhóm dữ liệu trên một mục duy nhất và áp dụng các hoạt động như sắp xếp, tính tổng hoặc tính trung bình. Bạn cũng có thể sử dụng tính năng này trong Pandas 3Năm Tổng thu nhập01916. 0NaN11920. 03000000. 021925. 0NaN31927. 026435. 041929. 09950. 0 Bây giờ chúng tôi gọi p Pivot_table trên tập hợp con dữ liệu này. Phương thức p Pivot_table lấy một chỉ số tham số. Như đã đề cập, chúng tôi muốn sử dụng Năm làm chỉ mục 4Gross EarningsYear1916. 0NaN1920. 03000000. 01925. 0NaN1927. 026435. 01929. 01408975. 0 Điều này đã cho chúng tôi một bảng trụ cột với việc phân nhóm theo Năm và tổng hợp trên tổng Thu nhập gộp. Lưu ý, chúng tôi đã không cần chỉ định rõ ràng cột Thu nhập gộp vì Pandas tự động xác định đó là các giá trị nên áp dụng tóm tắt 5Chúng tôi đã thấy làm thế nào để xoay vòng với một cột duy nhất là chỉ mục. Mọi thứ sẽ trở nên thú vị hơn nếu chúng ta có thể sử dụng nhiều cột. Chúng ta hãy tạo ra một tập hợp con DataFrame khác nhưng lần này chúng ta sẽ chọn các cột, Quốc gia, Ngôn ngữ và Tổng thu nhập 6CountryLanguageGross Earnings0USANaNNaN1USANaN3000000. 02USANaNNaN3GermanyGerman26435. 04GermanyGerman9950. 0 Chúng tôi sẽ sử dụng các cột Quốc gia và Ngôn ngữ làm chỉ mục cho bảng trụ. Chúng tôi sẽ sử dụng Tổng thu nhập làm bảng tóm tắt, tuy nhiên, chúng tôi không cần chỉ định rõ ràng điều này như chúng tôi đã thấy trước đó 7Gross EarningsCountryLanguageAfghanistanDari1. 127331e+06ArgentinaSpanish7. 230936e+06ArubaEnglish1. 007614e+07AustraliaAboriginal6. 165429e+06Dzongkha5. 052950e+05 Hãy để trực quan hóa bảng này với một cốt truyện thanh. Vì vẫn còn vài trăm bản ghi trong bảng xoay vòng này, chúng tôi sẽ chỉ vẽ một vài trong số chúng 8Xuất kết quả ra file Excel – Python Pandas ExcelNếu bạn sẽ làm việc với các đồng nghiệp sử dụng Excel, việc lưu các tệp Excel ra khỏi Pandas là rất quan trọng. Bạn có thể xuất hoặc ghi một DataFrame của Pandas vào tệp Excel bằng phương pháp pandas to_excel. Pandas sử dụng mô-đun Python xlwt bên trong để ghi vào các tệp Excel. Phương thức to_excel được gọi trên DataFrame mà chúng tôi muốn xuất. Chúng tôi cũng cần truyền tên tệp mà DataFrame này sẽ được viết 9Theo mặc định, chỉ mục cũng được lưu vào tệp đầu ra. Tuy nhiên, đôi khi chỉ số này không cung cấp bất kỳ thông tin hữu ích nào. Ví dụ. DataFrame phim có chỉ mục tăng tự động số, không phải là một phần của dữ liệu Excel gốc 0TitleYearGenresLanguageCountryContent RatingDurationAspect RatioBudgetGross Earnings…Facebook Likes – Actor 2Facebook Likes – Actor 3Facebook Likes – cast TotalFacebook likes – MovieFacenumber in postersUser VotesReviews by UsersReviews by CrtiicsIMDB ScoreNet Earnings0Intolerance. Love’s Struggle Throughout the Ages1916. 0Drama. History. WarNaNUSAKhông được xếp hạng123. 01. 33385907. 0NaN…22. 09. 04816911. 01071888. 069. 08. 0NaN1Over the Hill to the Poorhouse1920. 0Crime. DramaNaNUSANaN110. 01. 33100000. 03000000. 0…2. 00. 0401. 051. 01. 04. 82900000. 02The Big Parade1925. 0Drama. Romance. WarNaNUSANot Rated151. 01. 33245000. 0NaN…12. 06. 01082260. 0484945. 048. 08. 3NaN3Metropolis1927. 0Drama. Sci-FiGermanGermanyNot Rated145. 01. 336000000. 026435. 0…23. 018. 0203120001. 0111841413. 0260. 08. 3-5973565. 04Hộp Pandora1929. 0Tội phạm. Kịch. Lãng mạnĐứcĐứcKhông được xếp hạng110. 01. 33NaN9950. 0…20. 03. 04559261. 0743184. 071. 08. 0NaN Bạn có thể chọn bỏ qua chỉ mục bằng cách chuyển qua chỉ mục-Sai 1Chúng tôi cần có khả năng làm cho các tệp đầu ra của chúng tôi trông đẹp hơn trước khi chúng tôi có thể gửi nó cho đồng nghiệp của mình. Chúng ta có thể sử dụng lớp Pandas ExcelWriter cùng với mô-đun XlsxWriter Python để áp dụng định dạng 2Chúng tôi có thể áp dụng các tùy chỉnh bằng cách gọi add_format trên cửa sổ đang làm việc mà chúng tôi đang viết. Ở đây chúng tôi đang thiết lập định dạng tiêu đề là đậm 3Cuối cùng, chúng ta lưu tệp đầu ra bằng cách gọi phương thức lưu vào đối tượng nhà văn 4Ví dụ, chúng tôi đã lưu dữ liệu với các cột tiêu đề được đặt thành đậm. File đã lưu trông giống như hình ảnh bên dưới Giống như thế này, người ta có thể sử dụng XlsxWriter để áp dụng các định dạng khác nhau cho tệp Excel đầu ra Phần kết luậnPandas không phải là một thay thế cho Excel. Cả hai công cụ đều có vị trí trong quy trình phân tích dữ liệu và có thể là công cụ đồng hành rất tuyệt vời. Như chúng tôi đã chứng minh, Pandas có thể thực hiện nhiều thao tác và phân tích dữ liệu phức tạp, tùy theo yêu cầu và chuyên môn của bạn, có thể vượt qua những gì bạn có thể đạt được nếu bạn chỉ sử dụng ứng dụng . Một trong những lợi ích chính của việc sử dụng Python và Pandas trên Excel là nó giúp bạn tự động hóa công việc xử lý tệp Excel bằng cách viết các lệnh và tích hợp với quy trình làm việc tự động của dữ liệu của bạn. Pandas cũng có các phương pháp tuyệt vời để đọc tất cả các loại dữ liệu từ tệp Excel. Bạn cũng có thể xuất kết quả của mình từ Pandas trở lại Excel nếu đối tượng đó được ưa thích bởi đối tượng dự kiến của bạn Nếu bạn đang muốn tìm hiểu thêm về Pandas và Phân tích dữ liệu thì hãy truy cập ngay Nordic Coder – Trung tâm đào tạo lập trình hàng đầu với khóa học Phân tích dữ liệu với Python |