Chào các bạn. Bài học hôm nay mình sẽ tổng hợp một số phương thức [Method] thường dùng để xử lý dữ liệu trong gấu trúc
Phương thức nhập xuất dữ liệu
Data method input
Trong pandas, ta có thể nhập dữ liệu từ nhiều tệp và nguồn khác nhau, chẳng hạn như tệp csv, excel, html, SQL, JSON, url…
Đọc tệp CSV
# truyền đối số là đường dẫn file vào df = pd.read_csv["/content/drive/MyDrive/Data_thuchanh/Data_baitap_1.csv"] print[df]
đầu ra
Đọc từ nhiều nguồn khác nhau
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........
Xuất dữ liệu
Ta có thể xuất dữ liệu từ Data Frame ra định dạng CSV hoặc Excel hoặc nhiều định dạng khác
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........
Các phương thức xử lý Data Frame
Ta lấy Data Frame with name is df side on to thao tác
Delete the column in data frame
Delete the column “Unnamed. 0” in df on, inplace parameter = True to change on df
df.drop["Unnamed: 0", axis =1, inplace = True] print[df]
đầu ra
Phương thức df. cái đầu[]
Mặc định lấy thông tin 5 lần đầu tiên, ta có thể truyền vào tham số để lấy bao nhiêu dòng tùy chọn
# Lấy 5 dòng đầu tiên df.head[]
đầu ra
Phương thức df. cái đuôi[]
Mặc định lấy 5 dòng cuối trong df
# Lấy 5 dòng sau cùng trong bảng df df.tail[]
đầu ra
Phương thức df. vật mẫu[]
Get Random 5 lines in df
# Mặc định chỉ lấy 1 dòng, ta truyền đối số là 5 để lấy 5 dòng df.sample[5]
đầu ra
Phương thức df. thông tin[]
Kiểm tra thông tin df, bao gồm các giá trị cột và dòng
df.info[]
đầu ra
Phương thức df. mô tả[]
Trả về thông tin thống kê cơ bản các cột là số trong df
________số 8đầu ra
Thuộc tính df. mục lục
Trả về phạm vi chỉ mục trong khung dữ liệu, thuộc tính này được sử dụng để lấy vị trí tất cả các dòng trong df
df.index
đầu ra
Thuộc tính df. cột
Trả về tên của tất cả các cột trong df
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........0
hàm len[df]
Get the length of 1 df information [df has many lines]
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........1
Phương thức duy nhất[]
Trả về thông tin các giá trị có trong cột, các giá trị trùng nhau được gom thành 1. only apply for series
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........2
đầu ra
Phuong thức nunique[]
Trả về số lượng các phần tử có trong cột “Ngày 1”
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........3
Phương thức value_counts[]
Đếm các phần tử trong cột “Ngày 1”
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........4
đầu ra
Phương thức sort_value[]
Phương thức này sẽ mặc định trả về giá trị từ nhỏ đến lớn trong một chuỗi, sắp xếp theo thứ tự từ lớn đến nhỏ ta truyền tham số tăng dần = Sai vào phương thức trên
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........5
đầu ra
Ta có thể sắp xếp từ nhỏ đến lớn theo nhiều cột
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........6
đầu ra
Hàm [hàm] apply[]
Hàm apply[] áp dụng cho một chuỗi trong khung dữ liệu, hàm này nhận đối số truyền vào là một hàm a, b, c nào đó mà Trình xử lý dữ liệu trong cột theo mong muốn đầu ra của ta. xem ví dụ bên dưới bạn sẽ biết
Ta xem trước giá trị ban đầu của df khi chưa áp dụng hàm apply nhé
ta muốn nhân đôi cột giá trị “Ngày 1” bằng 1 chức năng
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........7
đầu ra
Bên cạnh đó, để đơn giản và áp dụng ngay không cần khai báo trước một hàm, ta có thể sử dụng hàm ẩn danh lambda cũng cho kết quả tương tự
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........8
đầu ra
Phương thức rename[] đổi tên cột hoặc chỉ mục
df1 = pd.read_excel["path"]# đọc file excel df1 = pd.read_html["path"]# đọc html df1 = pd.read_json["path"]# đọc json df1 = pd.read_sql[]# lấy dữ liệu sql #........9
đầu ra
Ngoài ra, ta có thể thay đổi tên hàng loạt chỉ mục hoặc cột bằng cách sau
- Đổi tên cột
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........0
Lưu ý. khi ta đổi tên hàng loạt cột thì giá trị cột truyền vào phải bằng với tên cột hiện có trên df, nếu muôn đổi vài cột thì ta sử dụng phương thức đổi tên bên trên
đầu ra
2. Thay đổi chỉ mục
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........1
đầu ra
Method loc[] and iloc[]
Phương thức loc[] để truy xuất giá trị trong cột hoặc dòng với đối số truyền vào là tên cột [cột] hoặc tên chỉ mục
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........2
đầu ra
Phương thức iloc[] truy cập cột hoặc lập chỉ mục theo vị trí [ lưu ý. default position from 0 trở đi]
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........3
đầu ra. kết quả tương tự như loc[] tùy chọn theo vị trí ta muốn lấy
truy xuất dữ liệu theo điều kiện
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........4
đầu ra
Bên dưới là một số cách thường được sử dụng khi truy xuất khung dữ liệu dữ liệu
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel #.........5
Ok các bạn, đến đây cơ bản ta đã hoàn thành qua phần bài học Pandas, các bạn có thể tham khảo thêm tài liệu hướng dẫn về pandas tại đây. https. //gấu trúc. pydata. org/tài liệu/tham khảo/chỉ mục. html