Trong bài viết này, chúng ta sẽ tìm hiểu cách tạo nhiều tệp CSV từ tệp CSV hiện có bằng Pandas. Khi chúng tôi nhập mã của mình vào sản xuất, chúng tôi sẽ cần xử lý việc chỉnh sửa các tệp dữ liệu của mình. Do dung lượng của file dữ liệu lớn nên chúng ta sẽ gặp nhiều vấn đề hơn nên chúng ta chia file này thành một số file nhỏ dựa trên một số tiêu chí như chia thành hàng, cột, giá trị cụ thể của cột, v.v.
Trước tiên, hãy tạo một tệp CSV đơn giản và sử dụng nó cho tất cả các ví dụ bên dưới trong bài viết. Tạo tập dữ liệu bằng phương pháp khung dữ liệu của gấu trúc và sau đó lưu nó vào “Khách hàng. csv” hoặc chúng ta có thể tải tập dữ liệu hiện có bằng hàm Pandas read_csv[]
Python3
import
pandas as pd
# initialise data dictionary.
data_dict
=
{
'CustomerID'
: [
1
,
pandas as pd
0,
pandas as pd
2,
pandas as pd
4,
pandas as pd
6,
pandas as pd
8,
# initialise data dictionary.
0,
# initialise data dictionary.
2,
# initialise data dictionary.
4,
# initialise data dictionary.
6# initialise data dictionary.
7
# initialise data dictionary.
8
# initialise data dictionary.
8data_dict
0: [
data_dict
2,
data_dict
4,
data_dict
4,
data_dict
2,
=
0data_dict
2,
data_dict
4,
data_dict
2,
data_dict
2,
=
0data_dict
4,
data_dict
2# initialise data dictionary.
7
# initialise data dictionary.
8
# initialise data dictionary.
8{
6: [
{
8,
'CustomerID'
0,
'CustomerID'
2,
'CustomerID'
4,
'CustomerID'
6,
'CustomerID'
8,
: [
0,
: [
2,
{
8,
'CustomerID'
2# initialise data dictionary.
7
# initialise data dictionary.
8
# initialise data dictionary.
81
0: [
_______26,
{
8,
__1
6,
# initialise data dictionary.
6,
'CustomerID'
6,
,
2,
,
4,
,
6______97,
'CustomerID'
0,
pandas as pd
01# initialise data dictionary.
7
# initialise data dictionary.
8
# initialise data dictionary.
8pandas as pd
05: [
1
6,
pandas as pd
09,
pandas as pd
11,
pandas as pd
13,
pandas as pd
15,
pandas as pd
17,
: [
0,
pandas as pd
21,
pandas as pd
23pandas as pd
24____9pandas as pd
26pandas as pd
27
pandas as pd
28
pandas as pd
29=
pandas as pd
31
pandas as pd
32
pandas as pd
33pandas as pd
34pandas as pd
35
pandas as pd
36
pandas as pd
37pandas as pd
38
đầu ra
Tạo nhiều tệp CSV từ tệp CSV hiện có
Để thực hiện công việc của chúng tôi, chúng tôi sẽ thảo luận về các phương pháp khác nhau như sau
Phương pháp 1. Tách dựa trên hàng
Trong phương pháp này, chúng tôi sẽ chia một tệp CSV thành nhiều tệp CSV dựa trên các hàng
Python3
import
pandas as pd
pandas as pd
41
pandas as pd
29=
pandas as pd
44pandas as pd
34pandas as pd
35
pandas as pd
47
pandas as pd
48=
pandas as pd
0
pandas as pd
51=
pandas as pd
6
pandas as pd
54 pandas as pd
55pandas as pd
56 pandas as pd
57pandas as pd
58
pandas as pd
59pandas as pd
60=
pandas as pd
62pandas as pd
63pandas as pd
64pandas as pd
63pandas as pd
66pandas as pd
671
pandas as pd
69
pandas as pd
59pandas as pd
71____172pandas as pd
73=
pandas as pd
75pandas as pd
35
pandas as pd
77=
pandas as pd
44pandas as pd
80pandas as pd
35
pandas as pd
37pandas as pd
83
pandas as pd
84=
pandas as pd
44pandas as pd
87pandas as pd
35
pandas as pd
37pandas as pd
90
đầu ra
Phương pháp 2. Tách dựa trên cột
ví dụ 1
Sử dụng phương thức groupby[] của Pandas, chúng ta có thể tạo nhiều tệp CSV theo hàng. Để tạo một tệp, chúng ta có thể sử dụng phương thức to_csv[] của Pandas. Tại đây đã tạo hai tệp dựa trên các giá trị hàng giá trị “nam” và “nữ” của cột Giới tính cụ thể cho Điểm chi tiêu