Hướng dẫn python read large csv - python đọc csv lớn
Dữ liệu đóng một vai trò quan trọng trong việc xây dựng máy học máy và mô hình AI. Trong thế giới ngày nay, nơi dữ liệu được tạo ra với tốc độ thiên văn bởi mọi thiết bị và cảm biến điện toán, điều quan trọng là phải xử lý chính xác khối lượng dữ liệu khổng lồ. Một trong những cách phổ biến nhất để lưu trữ dữ liệu là ở dạng giá trị phân tách dấu phẩy (CSV). Nhập trực tiếp một lượng lớn dữ liệu dẫn đến lỗi ngoài bộ nhớ và đọc toàn bộ tệp cùng một lúc dẫn đến sự cố hệ thống do RAM không đủ.Comma-Separated Values(CSV). Directly importing a large amount of data leads to out-of-memory error and reading the entire file at once leads to system crashes due to insufficient RAM. Sau đây là một vài cách để xử lý hiệu quả các tệp dữ liệu lớn ở định dạng .csv. Bộ dữ liệu chúng ta sẽ sử dụng là giới tính_voice_dataset. Sử dụng pandas.read_csv (Chkksize)Một cách để xử lý các tệp lớn là đọc các mục trong các khối có kích thước hợp lý, được đọc vào bộ nhớ và được xử lý trước khi đọc phần tiếp theo. Chúng ta có thể sử dụng tham số kích thước chunk để chỉ định kích thước của khối, đó là số lượng dòng. Hàm này trả về một trình lặp được sử dụng để lặp lại thông qua các khối này và sau đó xử lý chúng. Vì chỉ có một phần của tệp được đọc tại một thời điểm, bộ nhớ thấp là đủ để xử lý. Sau đây là mã để đọc các mục trong các khối. chunk = pandas.read_csv(filename,chunksize=...) Mã dưới đây cho thấy thời gian thực hiện để đọc một bộ dữ liệu mà không cần sử dụng các khối: Python3
pip install dask0 pip install dask1 = pip install dask3 pip install dask4 pip install dask5 pip install dask6 = pip install dask0 pip install dask9 import 0import 1import 2import 3import 4import 5pip install dask5
pip install dask5 Output: Bộ dữ liệu được sử dụng trong ví dụ này chứa 986894 hàng có 21 cột. Thời gian thực hiện là khoảng 4 giây có thể không dài đến thế, nhưng đối với các mục có hàng triệu hàng, thời gian để đọc các mục có ảnh hưởng trực tiếp đến hiệu quả của mô hình. Bây giờ, chúng ta hãy sử dụng các khối để đọc tệp CSV: Python3
pip install dask0 pip install dask1 = pip install dask3 pip install dask4 pip install dask5 pip install dask6 = pip install dask0 Bộ dữ liệu được sử dụng trong ví dụ này chứa 986894 hàng có 21 cột. Thời gian thực hiện là khoảng 4 giây có thể không dài đến thế, nhưng đối với các mục có hàng triệu hàng, thời gian để đọc các mục có ảnh hưởng trực tiếp đến hiệu quả của mô hình. Bây giờ, chúng ta hãy sử dụng các khối để đọc tệp CSV:
pip install dask5 Output:
pip install dask0 pandas as pd9= pip install dask3import2___
pip install dask0 Các pip install dask pip install dask1 = import 0Python3
pip install dask0 pip install dask1 = pip install dask3 pip install dask4 pip install dask5 pip install dask6 = pip install dask0 Bộ dữ liệu được sử dụng trong ví dụ này chứa 986894 hàng có 21 cột. Thời gian thực hiện là khoảng 4 giây có thể không dài đến thế, nhưng đối với các mục có hàng triệu hàng, thời gian để đọc các mục có ảnh hưởng trực tiếp đến hiệu quả của mô hình. pip install dask9 import 0s_time 7s_time 8import 3= 0import 5pip install dask5
pip install dask5 Output: Bây giờ, chúng ta hãy sử dụng các khối để đọc tệp CSV:
|