Đọc file Excel [phần mở rộng. xlsx,. xls] với Python Pandas. Để đọc tệp excel dưới dạng DataFrame, hãy sử dụng phương pháp pandas
12
2
3
4
5
Bạn có thể đọc trang đầu tiên, trang cụ thể, nhiều trang hoặc tất cả các trang. Pandas chuyển đổi cấu trúc này thành cấu trúc DataFrame, đây là cấu trúc dạng bảng
khóa học liên quan. Phân tích dữ liệu với Python Pandas
Excel
Trong bài viết này, chúng tôi sử dụng một tệp Excel ví dụ. Các chương trình chúng tôi sẽ thực hiện để đọc Excel thành Python
Tạo một file excel gồm 2 sheet sheet1 và sheet2. Bạn có thể sử dụng bất kỳ chương trình hỗ trợ Excel nào như Microsoft Excel hoặc Google Sheets
Nội dung của từng cái như sau
tờ1
tờ2
Cài đặt xlrd
gấu trúc. . read_excel một. ] sử dụng thư viện có tên xlrd trong nội bộ
xlrd là một thư viện để đọc [nhập] tệp Excel [. xlsx,. xls] bằng Python
bài viết liên quan. Cách dùng xlrd, xlwt đọc ghi file Excel bằng Python
Nếu bạn gọi gấu trúc. read_excel s[] trong môi trường chưa cài đặt xlrd, bạn sẽ nhận được thông báo lỗi tương tự như sau
Nhập Lỗi. Cài đặt xlrd >= 0. 9. 0 để được hỗ trợ Excel
xlrd có thể được cài đặt bằng pip. [pip3 tùy thuộc vào môi trường]
1
$ pip install xlrd
đọc excel
Chỉ định đường dẫn hoặc URL của tệp Excel trong đối số đầu tiên.
Nếu có nhiều trang tính, gấu trúc chỉ sử dụng trang tính đầu tiên.
Nó đọc là DataFrame.
1
2
3
4
5
import pandas as pd
df = pd.read_excel['sample.xlsx']
print[df]
Đoạn code trên xuất ra nội dung sheet excel
1
2
3
4
Unnamed: 0 A B C
0 one 11 12 13
1 two 21 22 23
2 three 31 32 33
Nhận trang tính
Bạn có thể chỉ định trang tính để đọc với đối số sheet_name
Chỉ định theo số [bắt đầu từ 0]
1
2
3
df_sheet_index = pd.read_excel['sample.xlsx', sheet_name=1]
print[df_sheet_index]
1
2
3
4
10
Chỉ định theo tên trang tính
1
2
3
$ pip install xlrd1____5
10
Tải nhiều tờ
Cũng có thể chỉ định một danh sách trong đối số sheet_name. Nó là OK ngay cả khi nó là một số 0 bắt đầu hoặc tên trang tính
Số hoặc tên trang tính được chỉ định là khóa chính và gấu trúc dữ liệu. DataFrame được đọc dưới dạng từ điển được đặt hàng OrderedDict với giá trị giá trị
Trong các bài viết trước, chúng ta đã học cách sử dụng phương thức read_excel của Pandas để nhập tệp xlsx bằng Python. Tuy nhiên, như đã đề cập trước đây, chúng tôi sẽ sử dụng một gói khác có tên openpyxl trong bài đăng này. Trong đoạn tiếp theo, chúng ta sẽ tìm hiểu cách cài đặt openpyxl
Mục lục
Cú pháp Openpyxl
Về cơ bản, đây là hình thức sử dụng openpyxl đơn giản nhất để đọc tệp xlsx trong Python
15
Tiết kiệm
Tất nhiên, cũng có thể học cách đọc, viết và nối vào các tệp bằng Python [e. g. , tập tin văn bản]. Đảm bảo kiểm tra bài đăng đó
điều kiện tiên quyết. Python và Openpyxl
Bây giờ, trước khi tìm hiểu Openpyxl là gì, chúng ta cần đảm bảo rằng chúng ta đã cài đặt cả Python 3 và mô-đun openpyxl. Một cách dễ dàng để cài đặt Python là tải xuống bản phân phối Python như Anaconda hoặc ActivePython. Mặt khác, Openpyxl có thể giống như nhiều gói Python, được cài đặt bằng cả pip và conda. Bây giờ, sử dụng pip, chúng tôi nhập nội dung sau vào dấu nhắc lệnh hoặc cửa sổ đầu cuối,
163 và sử dụng conda, chúng tôi nhập nội dung này; . Lưu ý, đôi khi chúng tôi đang cài đặt các gói Python bằng pip, chúng tôi có thể nhận thấy rằng chúng tôi không có phiên bản mới nhất của pip. May mắn thay, khá dễ dàng để nâng cấp pip lên phiên bản mới nhất bằng cách sử dụng pip
Tiết kiệm
Việc sử dụng Openpyxl trong Python là gì?
Openpyxl là một mô-đun Python có thể được sử dụng để đọc và ghi các tệp Excel [có phần mở rộng xlsx/xlsm/xltx/xltm]. Hơn nữa, mô-đun này cho phép tập lệnh Python sửa đổi các tệp Excel. Chẳng hạn, nếu chúng ta muốn xem qua hàng nghìn hàng nhưng chỉ đọc một số điểm dữ liệu nhất định và thực hiện những thay đổi nhỏ đối với những điểm này, chúng ta có thể thực hiện việc này dựa trên một số tiêu chí với openpyxl
Làm cách nào để đọc Tệp Excel [xlsx] bằng Python?
Bây giờ, phương pháp chung để đọc tệp xlsx trong Python [với openpyxl] là nhập openpyxl [
165] rồi đọc sổ làm việc.
166. Trong bài đăng này, tất nhiên chúng ta sẽ tìm hiểu thêm về điều này
Cách đọc tệp Excel [xlsx] bằng Python
Bây giờ, trong phần này, chúng ta sẽ đọc tệp xlsx bằng Python bằng openpyxl. Trong phần trước, chúng ta đã làm quen với mẫu [cú pháp] chung để đọc tệp Excel bằng openpyxl và bây giờ chúng ta sẽ tìm hiểu chi tiết hơn về mô-đun này. Lưu ý, chúng tôi cũng sẽ làm việc với phương thức Đường dẫn từ mô-đun Pathlib
1. Nhập các mô-đun cần thiết
Ở bước đầu tiên, để đọc tệp xlsx bằng Python, chúng ta cần nhập các mô-đun chúng ta cần. Tức là chúng ta sẽ nhập Path và openpyxl
16
Tiết kiệm
2. Đặt đường dẫn đến tệp Excel [xlsx]
Trong bước thứ hai, chúng ta sẽ tạo một biến bằng Path. Hơn nữa, biến này sẽ trỏ đến vị trí và tên tệp của tệp Excel mà chúng tôi muốn nhập bằng Python
$ pip install xlrd1
Tiết kiệm
Lưu ý, “SimData” là thư mục con của tập lệnh Python [hoặc sổ ghi chép]. Đó là, nếu chúng ta lưu trữ tệp Excel trong một thư mục hoàn toàn khác, chúng ta cần đặt đường dẫn đầy đủ. Ví dụ:
167nếu dữ liệu được lưu trữ trong Tài liệu trong thư mục chính của chúng tôi
3. Đọc File Excel [Workbook]
Trong bước thứ ba, chúng tôi thực sự sẽ sử dụng Python để đọc tệp xlsx. Bây giờ, chúng ta đang sử dụng phương thức load_workbook[]
$ pip install xlrd3
Tiết kiệm
4. Đọc Active Sheet từ tệp Excel
Bây giờ, trong bước thứ tư, chúng ta sẽ đọc trang tính đang hoạt động bằng phương thức hoạt động
$ pip install xlrd4
Tiết kiệm
Lưu ý, nếu chúng ta biết tên trang tính, chúng ta cũng có thể sử dụng tên này để đọc trang tính mà chúng ta muốn.
168
5. Làm việc, hoặc Thao tác, Bảng tính Excel
Trong bước cuối cùng và bước thứ năm, chúng ta có thể làm việc hoặc thao tác với trang tính Excel mà chúng ta đã nhập bằng Python. Ví dụ: nếu chúng ta muốn lấy giá trị từ một ô cụ thể, chúng ta có thể làm như sau
$ pip install xlrd6
Một ví dụ khác, về những gì chúng ta có thể làm với bảng tính trong Python, đó là chúng ta có thể lặp qua các hàng và in chúng
$ pip install xlrd7
Lưu ý rằng chúng tôi đã sử dụng max_row và đặt thành 6 để in 6 hàng đầu tiên từ tệp Excel
6. Thưởng. Xác định số hàng và số cột trong tệp Excel
Trong bước thứ sáu và phần bổ sung, chúng ta sẽ tìm hiểu xem chúng ta có bao nhiêu hàng và cột trong tệp Excel mẫu mà chúng ta đã nhập bằng Python
$ pip install xlrd8
Tiết kiệm
Đọc tệp Excel [xlsx] vào từ điển Python
Bây giờ, trước khi tìm hiểu cách đọc nhiều tệp xlsx, chúng ta sẽ nhập dữ liệu từ Excel vào từ điển Python. Nó khá đơn giản, nhưng với ví dụ bên dưới, chúng ta cần biết tên các cột trước khi bắt đầu. Nếu chúng ta muốn tìm tên cột, chúng ta có thể chạy đoạn mã sau [hoặc chỉ cần mở tệp Excel]
$ pip install xlrd9
Tạo từ điển từ tệp Excel
Trong phần này, cuối cùng chúng ta sẽ đọc tệp Excel bằng Python và tạo từ điển
10
2
3
4
5
Bây giờ, hãy xem qua ví dụ mã ở trên. Đầu tiên, chúng tôi tạo một từ điển Python [dữ liệu]. Thứ hai, chúng tôi lặp qua từng hàng [sử dụng iter_rows] và chúng tôi chỉ duyệt qua các hàng có giá trị. Thứ hai, chúng tôi có một câu lệnh if trong đó chúng tôi kiểm tra xem đó có phải là hàng đầu tiên hay không và chúng tôi thêm các khóa vào từ điển. Đó là, chúng tôi đặt tên cột là khóa. Thứ ba, chúng tôi nối dữ liệu vào từng khóa [tên cột] trong câu lệnh khác
Cách đọc nhiều tệp Excel [xlsx] trong Python
Trong phần này, chúng ta sẽ tìm hiểu cách đọc nhiều tệp xlsx trong Python bằng openpyxl. Ngoài openpyxl và Path, chúng ta cũng sẽ làm việc với mô-đun os
1. Nhập mô-đun
Trong bước đầu tiên, chúng tôi sẽ nhập các mô-đun Đường dẫn, toàn cầu và openpyxl
160
2. Đọc tất cả các tệp xlsx trong Thư mục vào Danh sách
Thứ hai, chúng ta sẽ đọc tất cả các. xlsx trong thư mục con vào danh sách. Bây giờ, chúng tôi sử dụng mô-đun toàn cầu cùng với Đường dẫn
161
3. Tạo các đối tượng Workbook [i. e. , đọc các tệp xlsx]
Thứ ba, giờ đây chúng ta có thể đọc tất cả các tệp xlsx bằng Python. Một lần nữa, chúng ta sẽ sử dụng phương thức load_workbook. Tuy nhiên, lần này chúng tôi sẽ lặp qua từng tệp mà chúng tôi tìm thấy trong thư mục con,
162
Bây giờ, trong các ví dụ mã ở trên, chúng tôi đang sử dụng khả năng hiểu danh sách Python [hai lần, ở cả bước 2 và 3]. Đầu tiên, chúng tôi tạo danh sách tất cả các tệp xlsx trong thư mục “XLSX_FILES”. Thứ hai, chúng tôi lặp qua danh sách này và tạo danh sách sổ làm việc. Tất nhiên, chúng ta có thể thêm phần này vào dòng mã đầu tiên ở trên
4. Làm việc với các tệp Excel đã nhập
Ở bước thứ tư, bây giờ chúng ta có thể làm việc với các tệp excel đã nhập. Ví dụ: chúng ta có thể lấy tệp đầu tiên bằng cách thêm “[0]” vào danh sách. Nếu chúng tôi muốn biết tên trang tính của tệp này, chúng tôi sẽ làm như thế này.
169. Đó là, nhiều điều chúng ta có thể làm và đã làm trong ví dụ trước về cách đọc tệp xlsx bằng Python, có thể được thực hiện khi chúng ta đọc nhiều tệp Excel
Lưu ý, đây là một ví dụ tuyệt vời về cách sử dụng ngôn ngữ lập trình này. Ví dụ khác là sử dụng nó để đổi tên tệp trong Python