Python đọc csv theo khối
Bước đầu tiên trong phân tích dữ liệu là nhập dữ liệu vào Python pandas DataFrame. Và sau đó khám phá và làm sạch nó Show Một số thủ thuật có thể được sử dụng trong khi tải dữ liệu vào DataFrame để giảm công việc sau Trong 3 phút này, bạn sẽ thành thạo 3 cách sử dụng Để trình diễn, tôi đang sử dụng Bộ dữ liệu FIFA 2021 từ Kaggle. Xem trước tập dữ liệu ở đây Trước tiên, hãy tải tập dữ liệu và kiểm tra số lượng cột khác nhau. Tập dữ liệu này có 8 cột Hãy tìm hiểu thêm thông tin chi tiết về loại dữ liệu và số lượng hàng trong tập dữ liệu Python3
đầu ra Chúng tôi có tổng cộng 159571 hàng khác null ví dụ 2. Đang tải một lượng lớn dữ liệu bằng đối số chunksize Python3
đầu ra Ở đây chúng tôi đang tạo một đoạn có kích thước 10000 bằng cách chuyển tham số chunksize. Đối tượng trả về không phải là data frame mà là iterator, để lấy dữ liệu sẽ cần lặp qua đối tượng này Python3________ 197 ________ 198 ________ 199 ________ 200
đầu ra Bây giờ, tính toán số khối- Python3
________ 197 ________ 198 ________ 199 ________ 200
đầu ra Trong ví dụ trên, mỗi phần tử/khối được trả về có kích thước là 10000. Hãy nhớ rằng chúng tôi đã có 159571. Do đó, số khối là 159571/10000 ~ 15 khối và 9571 ví dụ còn lại tạo thành khối thứ 16 Số lượng cột cho mỗi chunk là 8. Do đó, chunking không ảnh hưởng đến các cột. Bây giờ chúng ta đã hiểu cách sử dụng chunksize và lấy dữ liệu, hãy để có hình ảnh trực quan cuối cùng về dữ liệu, vì mục đích hiển thị, kích thước chunk được gán cho 10 Làm cách nào để đọc CSV trong gấu trúc bằng khối?Bạn đọc dữ liệu trong khối Panda như thế nào? . Điều này đặc biệt hữu ích nếu bạn đang gặp lỗi MemoryError khi cố đọc toàn bộ DataFrame cùng một lúc. use the read_csv(~) method and specify the chunksize parameter. This is particularly useful if you are facing a MemoryError when trying to read in the whole DataFrame at once.
Chunksize trong read_csv là gì?Phương thức read_csv() có nhiều tham số nhưng tham số chúng ta quan tâm là chunksize. Về mặt kỹ thuật số lượng hàng mà pandas đọc tại một thời điểm trong tệp được gọi là chunksize. Giả sử nếu chunksize là 100 thì gấu trúc sẽ tải 100 hàng đầu tiên.
Làm cách nào để đọc tệp CSV 10gb bằng Python?GẤU TRÚC . gấu trúc. read_csv() Đầu vào. Đọc tệp CSV. đầu ra. khung dữ liệu gấu trúc. gấu trúc. read_csv() tải toàn bộ tệp CSV cùng một lúc vào bộ nhớ trong một khung dữ liệu duy nhất. . gấu trúc. read_csv(chunksize) Đầu vào. Đọc tệp CSV. đầu ra. khung dữ liệu gấu trúc. Thay vì đọc toàn bộ CSV cùng một lúc, các đoạn CSV được đọc vào bộ nhớ Làm cách nào để chia các tệp CSV lớn thành các phần nhỏ hơn bằng gấu trúc?Bước 1 (Sử dụng Pandas). Tìm số lượng hàng từ các tập tin. Bước 1 (Sử dụng Python truyền thống). Tìm số lượng hàng từ các tập tin. Bước 2. Người dùng nhập số dòng trên mỗi tệp (Phạm vi) và tạo một số ngẫu nhiên. Trong trường hợp bạn muốn chia đều, hãy cung cấp cùng một số cho tối đa và tối thiểu |