Python đọc csv theo khối

Bước đầu tiên trong phân tích dữ liệu là nhập dữ liệu vào Python pandas DataFrame. Và sau đó khám phá và làm sạch nó

Một số thủ thuật có thể được sử dụng trong khi tải dữ liệu vào DataFrame để giảm công việc sau

Trong 3 phút này, bạn sẽ thành thạo 3 cách sử dụng pandas.read_csv[] hiệu quả. 💡

Để trình diễn, tôi đang sử dụng Bộ dữ liệu FIFA 2021 từ Kaggle. Xem trước tập dữ liệu ở đây

Trước tiên, hãy tải tập dữ liệu và kiểm tra số lượng cột khác nhau. Tập dữ liệu này có 8 cột

Hãy tìm hiểu thêm thông tin chi tiết về loại dữ liệu và số lượng hàng trong tập dữ liệu

Python3




pandas.read_csv[]84

đầu ra

Chúng tôi có tổng cộng 159571 hàng khác null

ví dụ 2. Đang tải một lượng lớn dữ liệu bằng đối số chunksize

Python3




usecols4usecols5 pandas.read_csv[]87pandas.read_csv[]88pandas.read_csv[]89usecols5pandas.read_csv[]91pandas.read_csv[]81

pandas.read_csv[]93pandas.read_csv[]94pandas.read_csv[]93pandas.read_csv[]96

đầu ra

Ở đây chúng tôi đang tạo một đoạn có kích thước 10000 bằng cách chuyển tham số chunksize. Đối tượng trả về không phải là data frame mà là iterator, để lấy dữ liệu sẽ cần lặp qua đối tượng này

Python3




________ 197 ________ 198 ________ 199 ________ 200

usecols01usecols02

đầu ra

Bây giờ, tính toán số khối-

Python3




usecols4usecols5 pandas.read_csv[]87pandas.read_csv[]88pandas.read_csv[]89usecols5usecols09pandas.read_csv[]81

usecols3

________ 197 ________ 198 ________ 199 ________ 200

usecols01pandas.read_csv[]77

usecols01____179

đầu ra

Trong ví dụ trên, mỗi phần tử/khối được trả về có kích thước là 10000. Hãy nhớ rằng chúng tôi đã có 159571. Do đó, số khối là 159571/10000 ~ 15 khối và 9571 ví dụ còn lại tạo thành khối thứ 16

Số lượng cột cho mỗi chunk là 8. Do đó, chunking không ảnh hưởng đến các cột. Bây giờ chúng ta đã hiểu cách sử dụng chunksize và lấy dữ liệu, hãy để có hình ảnh trực quan cuối cùng về dữ liệu, vì mục đích hiển thị, kích thước chunk được gán cho 10

Làm cách nào để đọc CSV trong gấu trúc bằng khối?

Bạn đọc dữ liệu trong khối Panda như thế nào? . Điều này đặc biệt hữu ích nếu bạn đang gặp lỗi MemoryError khi cố đọc toàn bộ DataFrame cùng một lúc. use the read_csv[~] method and specify the chunksize parameter. This is particularly useful if you are facing a MemoryError when trying to read in the whole DataFrame at once.

Chunksize trong read_csv là gì?

Phương thức read_csv[] có nhiều tham số nhưng tham số chúng ta quan tâm là chunksize. Về mặt kỹ thuật số lượng hàng mà pandas đọc tại một thời điểm trong tệp được gọi là chunksize. Giả sử nếu chunksize là 100 thì gấu trúc sẽ tải 100 hàng đầu tiên.

Làm cách nào để đọc tệp CSV 10gb bằng Python?

GẤU TRÚC .
gấu trúc. read_csv[] Đầu vào. Đọc tệp CSV. đầu ra. khung dữ liệu gấu trúc. gấu trúc. read_csv[] tải toàn bộ tệp CSV cùng một lúc vào bộ nhớ trong một khung dữ liệu duy nhất. .
gấu trúc. read_csv[chunksize] Đầu vào. Đọc tệp CSV. đầu ra. khung dữ liệu gấu trúc. Thay vì đọc toàn bộ CSV cùng một lúc, các đoạn CSV được đọc vào bộ nhớ

Làm cách nào để chia các tệp CSV lớn thành các phần nhỏ hơn bằng gấu trúc?

Bước 1 [Sử dụng Pandas]. Tìm số lượng hàng từ các tập tin. Bước 1 [Sử dụng Python truyền thống]. Tìm số lượng hàng từ các tập tin. Bước 2. Người dùng nhập số dòng trên mỗi tệp [Phạm vi] và tạo một số ngẫu nhiên. Trong trường hợp bạn muốn chia đều, hãy cung cấp cùng một số cho tối đa và tối thiểu

Chủ Đề