Bước đầu tiên trong phân tích dữ liệu là nhập dữ liệu vào Python pandas DataFrame. Và sau đó khám phá và làm sạch nó
Một số thủ thuật có thể được sử dụng trong khi tải dữ liệu vào DataFrame để giảm công việc sau
Trong 3 phút này, bạn sẽ thành thạo 3 cách sử dụng pandas.read_csv[]
hiệu quả. 💡
Để trình diễn, tôi đang sử dụng Bộ dữ liệu FIFA 2021 từ Kaggle. Xem trước tập dữ liệu ở đây
Trước tiên, hãy tải tập dữ liệu và kiểm tra số lượng cột khác nhau. Tập dữ liệu này có 8 cột
Hãy tìm hiểu thêm thông tin chi tiết về loại dữ liệu và số lượng hàng trong tập dữ liệu
Python3
pandas.read_csv[]
84
đầu ra
Chúng tôi có tổng cộng 159571 hàng khác null
ví dụ 2. Đang tải một lượng lớn dữ liệu bằng đối số chunksize
Python3
usecols
4usecols
5 pandas.read_csv[]
87pandas.read_csv[]
88pandas.read_csv[]
89usecols
5pandas.read_csv[]
91pandas.read_csv[]
81
pandas.read_csv[]
93pandas.read_csv[]
94pandas.read_csv[]
93pandas.read_csv[]
96
đầu ra
Ở đây chúng tôi đang tạo một đoạn có kích thước 10000 bằng cách chuyển tham số chunksize. Đối tượng trả về không phải là data frame mà là iterator, để lấy dữ liệu sẽ cần lặp qua đối tượng này
Python3
________ 197 ________ 198 ________ 199 ________ 200
usecols
01usecols
02
đầu ra
Bây giờ, tính toán số khối-
Python3
usecols
4usecols
5 pandas.read_csv[]
87pandas.read_csv[]
88pandas.read_csv[]
89usecols
5usecols
09pandas.read_csv[]
81
usecols
3
________ 197 ________ 198 ________ 199 ________ 200
usecols
01pandas.read_csv[]
77
usecols
01____179
đầu ra
Trong ví dụ trên, mỗi phần tử/khối được trả về có kích thước là 10000. Hãy nhớ rằng chúng tôi đã có 159571. Do đó, số khối là 159571/10000 ~ 15 khối và 9571 ví dụ còn lại tạo thành khối thứ 16
Số lượng cột cho mỗi chunk là 8. Do đó, chunking không ảnh hưởng đến các cột. Bây giờ chúng ta đã hiểu cách sử dụng chunksize và lấy dữ liệu, hãy để có hình ảnh trực quan cuối cùng về dữ liệu, vì mục đích hiển thị, kích thước chunk được gán cho 10