Trước khi đọc một file excel trong pandas, chúng ta cần cài đặt thư viện openpyxl. Đây là thư viện phụ thuộc cần thiết để đọc và ghi tệp excel trong pandas
Trong Terminal trên Mac hoặc Dòng lệnh trong windows, trước tiên hãy chạy lệnh sau
pip install openpyxl
Và trong bài đăng này, chúng tôi sẽ làm việc với tệp mẫu này mà bạn có thể tải xuống từ đây – liên kết tải xuống dữ liệu
Ở đây, chúng tôi có một số dữ liệu bán hàng trong nhiều trang tính và chúng tôi muốn đọc những dữ liệu này bằng pandas. hãy xem làm thế nào để làm điều đó
Đầu tiên để lấy tên của tất cả các sheet trong file excel ta có thể sử dụng lệnh pd. Tệp Excel[]
sheets_names = pd.ExcelFile['reading_excel_file.xlsx'].sheet_names
sheets_names
giả sử chúng ta muốn đọc dữ liệu Đơn đặt hàng 1. Để làm điều đó, chúng ta cần chuyển tên trang tính cho tham số sheet_name trong pandas.
df = pd.read_excel['reading_excel_file.xlsx', sheet_name='Purchase Orders 1']
2. Cách bỏ qua hàng khi đọc tệp excel trong pandas
Nếu bạn muốn bỏ qua số n hàng từ trên xuống, bạn cần sử dụng tham số bỏ qua
Giả sử chúng ta muốn bỏ qua 2 hàng đầu tiên khi đọc tệp
df = pd.read_excel['reading_excel_file.xlsx',
sheet_name='Purchase Orders 1',
skiprows=2]
Chúng ta có thể thấy rằng hai hàng trên cùng đã bị bỏ qua khỏi kết quả.
Và nếu bạn muốn bỏ qua n hàng từ cuối, bạn có thể sử dụng tham số skipfooter
Giả sử chúng ta muốn bỏ qua 3 hàng từ cuối
df = pd.read_excel['reading_excel_file.xlsx',
sheet_name='Purchase Orders 1',
skipfooter=3]
3. Cách bỏ qua các cột khi đọc tệp excel trong gấu trúc.
Để bỏ cột khi đọc file excel, bạn có thể sử dụng tham số usecols của read_excel
giả sử tôi chỉ quan tâm đến việc đọc các cột từ ID sản phẩm đến Số lượng đặt hàng
df = pd.read_excel['reading_excel_file.xlsx',
sheet_name='Purchase Orders 1',
usecols='C:F']
Bây giờ, giả sử bạn muốn chọn hai cột đầu tiên và hai cột cuối cùng. Để làm điều đó, bạn sẽ viết
df = pd.read_excel['reading_excel_file.xlsx',
sheet_name='Purchase Orders 1',
usecols='A:B, H:I']
4. Cách đọc tệp excel trong gấu trúc có tiêu đề
Đôi khi có thể xảy ra trường hợp dữ liệu mà bạn muốn làm việc không bắt đầu từ hàng đầu tiên. Hãy sao chép dữ liệu bán hàng sang một tệp excel mới và thêm một số dòng trống trước dữ liệu để chứng minh rằng
Bây giờ, nếu bạn nhìn vào hình bên dưới, bạn có thể thấy rằng dữ liệu không bắt đầu từ hàng đầu tiên. Có rất nhiều hàng trống mà gấu trúc điền vào NaN [Không phải là số] và tên cột cũng được đặt tên là Chưa đặt tên