PD read_excel hoạt động như thế nào?

Bảng tính Excel là một trong những dạng tệp phổ biến nhất trong ngành CNTT. Tất cả những người sử dụng máy tính lúc này hay lúc khác đều đã bắt gặp và làm việc với bảng tính excel. Sự phổ biến này của excel là do phạm vi ứng dụng rộng lớn của nó trong lĩnh vực lưu trữ và thao tác dữ liệu ở dạng bảng và có hệ thống. Hơn nữa, các trang tính excel rất bản năng và thân thiện với người dùng, điều này khiến nó trở nên lý tưởng để thao tác với các tập dữ liệu lớn ngay cả đối với những người ít kỹ thuật hơn. Nếu bạn đang tìm kiếm nơi để học cách thao tác và tự động hóa nội dung trong tệp excel bằng Python, thì không còn gì nữa. Bạn đang ở đúng nơi

Trong bài viết này, bạn sẽ học cách sử dụng Pandas để làm việc với bảng tính Excel. Vào cuối bài viết, bạn sẽ có kiến ​​thức về

  • Các mô-đun cần thiết cho việc này và cách thiết lập chúng trong hệ thống của bạn
  • Đọc dữ liệu từ tệp excel vào gấu trúc bằng Python
  • Khám phá dữ liệu từ tệp excel trong Pandas
  • Sử dụng các chức năng để thao tác và định hình lại dữ liệu trong Pandas

Cài đặt

Để cài đặt pandas trong Anaconda, chúng ta có thể sử dụng lệnh sau trong Anaconda Terminal

conda install pandas

Để cài đặt gấu trúc trong Python thông thường (Không phải Anaconda), chúng ta có thể sử dụng lệnh sau trong dấu nhắc lệnh

pip install pandas

Bắt đầu

Trước hết, chúng ta cần nhập mô-đun pandas có thể được thực hiện bằng cách chạy lệnh




import pandas as pds

Tệp đầu vào. Giả sử tệp excel trông như thế này

tờ 1

PD read_excel hoạt động như thế nào?

tờ 2

PD read_excel hoạt động như thế nào?

Bây giờ chúng ta có thể nhập tệp excel bằng hàm read_excel trong gấu trúc, như hình bên dưới




file =('path_of_excel_file')

newData=

pip install pandas
1file)

newData

đầu ra

PD read_excel hoạt động như thế nào?

Câu lệnh thứ hai đọc dữ liệu từ excel và lưu trữ nó vào Khung dữ liệu gấu trúc được biểu thị bằng biến newData. Nếu bảng tính excel có nhiều sheet thì lệnh sẽ nhập dữ liệu của sheet đầu tiên. Để tạo một khung dữ liệu với tất cả các trang tính trong sổ làm việc, phương pháp đơn giản nhất là tạo các khung dữ liệu khác nhau một cách riêng biệt rồi nối chúng lại. Phương thức read_excel nhận đối số

pip install pandas
6 và
pip install pandas
7 trong đó chúng ta có thể chỉ định trang tính chứa khung dữ liệu và
pip install pandas
7 chỉ định cột tiêu đề

Thí dụ




pip install pandas
9=
pip install pandas
1fileimport3

import4

pip install pandas
6= import7import3

import4

pip install pandas
7= import7)

pandas as pds4

pandas as pds5=

pip install pandas
1fileimport3

import4

pip install pandas
6= file3import3

import4

pip install pandas
7= import7)

pandas as pds4

newData= =3

Câu lệnh thứ ba nối cả hai trang tính. Bây giờ để kiểm tra toàn bộ khung dữ liệu, chúng ta chỉ cần chạy lệnh sau




newData

đầu ra

PD read_excel hoạt động như thế nào?

Để xem 5 cột từ trên xuống và từ dưới lên của khung dữ liệu ta chạy lệnh




=5

=6

đầu ra

PD read_excel hoạt động như thế nào?

PD read_excel hoạt động như thế nào?

Phương thức =7 và =8 này cũng lấy đối số làm số cho số lượng cột hiển thị
Phương pháp =9 có thể được sử dụng để xem số lượng hàng và cột trong khung dữ liệu như sau




(0

đầu ra

PD read_excel hoạt động như thế nào?

Nếu bất kỳ cột nào chứa dữ liệu số, chúng ta có thể sắp xếp cột đó bằng cách sử dụng phương thức (1 trong pandas như sau




(2_______16_______ (4(5_______17_______6= (8)

Bây giờ, giả sử chúng ta muốn 5 giá trị hàng đầu của cột được sắp xếp, chúng ta có thể sử dụng phương thức =7 tại đây




'path_of_excel_file'1(5'path_of_excel_file'3'path_of_excel_file'4)

đầu ra

PD read_excel hoạt động như thế nào?

Chúng ta có thể làm điều đó với bất kỳ cột số nào của khung dữ liệu như hình bên dưới




'path_of_excel_file'6'path_of_excel_file'7'path_of_excel_file'8

đầu ra

PD read_excel hoạt động như thế nào?

Bây giờ, giả sử dữ liệu của chúng tôi chủ yếu là số. Chúng tôi có thể lấy thông tin thống kê như giá trị trung bình, tối đa, tối thiểu, v.v. về khung dữ liệu bằng cách sử dụng phương pháp 'path_of_excel_file'9 như hình bên dưới




)0

đầu ra

PD read_excel hoạt động như thế nào?

Điều này cũng có thể được thực hiện riêng cho tất cả các cột số bằng lệnh sau




'path_of_excel_file'6'path_of_excel_file'7)3

đầu ra

PD read_excel hoạt động như thế nào?

Thông tin thống kê khác cũng có thể được tính toán bằng các phương pháp tương ứng
Giống như trong excel, các công thức cũng có thể được áp dụng và các cột được tính toán có thể được tạo như sau




'path_of_excel_file'6)5)6= )8)9 newData0

'path_of_excel_file'6)5'path_of_excel_file'8

đầu ra

PD read_excel hoạt động như thế nào?

Sau khi thao tác trên dữ liệu trong khung dữ liệu, chúng ta có thể xuất dữ liệu trở lại tệp excel bằng phương pháp newData4. Đối với điều này, chúng ta cần chỉ định một tệp excel đầu ra nơi dữ liệu được chuyển đổi sẽ được ghi, như được hiển thị bên dưới

PD read_excel là gì?

Chúng ta có thể sử dụng hàm read_excel() của mô-đun pandas để đọc dữ liệu tệp excel vào đối tượng DataFrame . Nếu bạn nhìn vào một bảng excel, đó là một bảng hai chiều. Đối tượng DataFrame cũng đại diện cho cấu trúc dữ liệu dạng bảng hai chiều.

PD read_excel trả về cái gì?

gấu trúc. hàm read_excel() được sử dụng để đọc bảng excel có phần mở rộng xlsx vào DataFrame của gấu trúc. Bằng cách đọc một trang tính, nó trả về một đối tượng DataFrame gấu trúc, nhưng đọc hai trang tính, nó trả về một Dict of DataFrame .

Làm cách nào để đọc dữ liệu từ excel trong gấu trúc?

Cách đọc nhiều trang tính từ một tệp Excel trong Pandas? .
nhập gấu trúc dưới dạng pd Sheet1=pd. read_excel('/content/Subject_Scores. xlsx', sheet_name=0) Sheet2=pd. read_excel('/content/Subject_Scores. xlsx', sheet_name=1) print("Trang tính 1. \n",Sheet1) print() print("Sheet1. \n",Trang tính 2)
Tờ1. Cuộn

PD read_excel có tạo DataFrame không?

DataFrame được tạo bằng hàm read_excel() . Từ DataFrame, chúng ta có thể sử dụng dữ liệu một cột để tạo một danh sách bằng cách sử dụng tolist().