Khung dữ liệu trong ví dụ python

Chào các bạn. Bài học hôm nay mình sẽ tổng hợp một số phương thức [Method] thường dùng để xử lý dữ liệu trong gấu trúc

Phương thức nhập xuất dữ liệu

Data method input

Trong pandas, ta có thể nhập dữ liệu từ nhiều tệp và nguồn khác nhau, chẳng hạn như tệp csv, excel, html, SQL, JSON, url…

Đọc tệp CSV

# truyền đối số là đường dẫn file vào 
df = pd.read_csv["/content/drive/MyDrive/Data_thuchanh/Data_baitap_1.csv"]
print[df]

đầu ra

Đọc từ nhiều nguồn khác nhau

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........

Xuất dữ liệu

Ta có thể xuất dữ liệu từ Data Frame ra định dạng CSV hoặc Excel hoặc nhiều định dạng khác

df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........

Các phương thức xử lý Data Frame

Ta lấy Data Frame with name is df side on to thao tác

Delete the column in data frame

Delete the column “Unnamed. 0” in df on, inplace parameter = True to change on df

df.drop["Unnamed: 0", axis =1, inplace = True]
print[df]

đầu ra

Phương thức df. cái đầu[]

Mặc định lấy thông tin 5 lần đầu tiên, ta có thể truyền vào tham số để lấy bao nhiêu dòng tùy chọn

# Lấy 5 dòng đầu tiên
df.head[]

đầu ra

Phương thức df. cái đuôi[]

Mặc định lấy 5 dòng cuối trong df

# Lấy 5 dòng sau cùng trong bảng df
df.tail[]

đầu ra

Phương thức df. vật mẫu[]

Get Random 5 lines in df

# Mặc định chỉ lấy 1 dòng, ta truyền đối số là 5 để lấy 5 dòng
df.sample[5]

đầu ra

Phương thức df. thông tin[]

Kiểm tra thông tin df, bao gồm các giá trị cột và dòng

df.info[]

đầu ra

Phương thức df. mô tả[]

Trả về thông tin thống kê cơ bản các cột là số trong df

________số 8

đầu ra

Thuộc tính df. mục lục

Trả về phạm vi chỉ mục trong khung dữ liệu, thuộc tính này được sử dụng để lấy vị trí tất cả các dòng trong df

df.index

đầu ra

Thuộc tính df. cột

Trả về tên của tất cả các cột trong df

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
0

hàm len[df]

Get the length of 1 df information [df has many lines]

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
1

Phương thức duy nhất[]

Trả về thông tin các giá trị có trong cột, các giá trị trùng nhau được gom thành 1. only apply for series

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
2

đầu ra

Phuong thức nunique[]

Trả về số lượng các phần tử có trong cột “Ngày 1”

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
3

Phương thức value_counts[]

Đếm các phần tử trong cột “Ngày 1”

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
4

đầu ra

Phương thức sort_value[]

Phương thức này sẽ mặc định trả về giá trị từ nhỏ đến lớn trong một chuỗi, sắp xếp theo thứ tự từ lớn đến nhỏ ta truyền tham số tăng dần = Sai vào phương thức trên

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
5

đầu ra

Ta có thể sắp xếp từ nhỏ đến lớn theo nhiều cột

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
6

đầu ra

Hàm [hàm] apply[]

Hàm apply[] áp dụng cho một chuỗi trong khung dữ liệu, hàm này nhận đối số truyền vào là một hàm a, b, c nào đó mà Trình xử lý dữ liệu trong cột theo mong muốn đầu ra của ta. xem ví dụ bên dưới bạn sẽ biết

Ta xem trước giá trị ban đầu của df khi chưa áp dụng hàm apply nhé

ta muốn nhân đôi cột giá trị “Ngày 1” bằng 1 chức năng

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
7

đầu ra

Bên cạnh đó, để đơn giản và áp dụng ngay không cần khai báo trước một hàm, ta có thể sử dụng hàm ẩn danh lambda cũng cho kết quả tương tự

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
8

đầu ra

Phương thức rename[] đổi tên cột hoặc chỉ mục

df1 = pd.read_excel["path"]# đọc file excel
df1 = pd.read_html["path"]# đọc html
df1 = pd.read_json["path"]# đọc json
df1 = pd.read_sql[]# lấy dữ liệu sql
#........
9

đầu ra

Ngoài ra, ta có thể thay đổi tên hàng loạt chỉ mục hoặc cột bằng cách sau

  1. Đổi tên cột
df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........
0

Lưu ý. khi ta đổi tên hàng loạt cột thì giá trị cột truyền vào phải bằng với tên cột hiện có trên df, nếu muôn đổi vài cột thì ta sử dụng phương thức đổi tên bên trên

đầu ra

2. Thay đổi chỉ mục

df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........
1

đầu ra

Method loc[] and iloc[]

Phương thức loc[] để truy xuất giá trị trong cột hoặc dòng với đối số truyền vào là tên cột [cột] hoặc tên chỉ mục

df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........
2

đầu ra

Phương thức iloc[] truy cập cột hoặc lập chỉ mục theo vị trí [ lưu ý. default position from 0 trở đi]

df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........
3

đầu ra. kết quả tương tự như loc[] tùy chọn theo vị trí ta muốn lấy

truy xuất dữ liệu theo điều kiện

df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........
4

đầu ra

Bên dưới là một số cách thường được sử dụng khi truy xuất khung dữ liệu dữ liệu

df.to_csv["hi.csv"]# Xuất ra tệp hi.csv
df.to_excel["hi.xlsx"] # Xuất ra định dạng file excel
#.........
5

Ok các bạn, đến đây cơ bản ta đã hoàn thành qua phần bài học Pandas, các bạn có thể tham khảo thêm tài liệu hướng dẫn về pandas tại đây. https. //gấu trúc. pydata. org/tài liệu/tham khảo/chỉ mục. html

Chủ Đề