Hướng dẫn python read large csv - python đọc csv lớn

Dữ liệu đóng một vai trò quan trọng trong việc xây dựng máy học máy và mô hình AI. Trong thế giới ngày nay, nơi dữ liệu được tạo ra với tốc độ thiên văn bởi mọi thiết bị và cảm biến điện toán, điều quan trọng là phải xử lý chính xác khối lượng dữ liệu khổng lồ. Một trong những cách phổ biến nhất để lưu trữ dữ liệu là ở dạng giá trị phân tách dấu phẩy (CSV). Nhập trực tiếp một lượng lớn dữ liệu dẫn đến lỗi ngoài bộ nhớ và đọc toàn bộ tệp cùng một lúc dẫn đến sự cố hệ thống do RAM không đủ.Comma-Separated Values(CSV). Directly importing a large amount of data leads to out-of-memory error and reading the entire file at once leads to system crashes due to insufficient RAM.

Sau đây là một vài cách để xử lý hiệu quả các tệp dữ liệu lớn ở định dạng .csv. Bộ dữ liệu chúng ta sẽ sử dụng là giới tính_voice_dataset.

Sử dụng pandas.read_csv (Chkksize)

Một cách để xử lý các tệp lớn là đọc các mục trong các khối có kích thước hợp lý, được đọc vào bộ nhớ và được xử lý trước khi đọc phần tiếp theo. Chúng ta có thể sử dụng tham số kích thước chunk để chỉ định kích thước của khối, đó là số lượng dòng. Hàm này trả về một trình lặp được sử dụng để lặp lại thông qua các khối này và sau đó xử lý chúng. Vì chỉ có một phần của tệp được đọc tại một thời điểm, bộ nhớ thấp là đủ để xử lý.

Sau đây là mã để đọc các mục trong các khối.

chunk = pandas.read_csv(filename,chunksize=...)

Mã dưới đây cho thấy thời gian thực hiện để đọc một bộ dữ liệu mà không cần sử dụng các khối:

Python3

import pandas as pd

import numpy as np

import time

s_time =

pip install dask
0

pip install dask
1=
pip install dask
3
pip install dask
4
pip install dask
5

pip install dask
6=
pip install dask
0

pip install dask
9import0import1import2import3import4import5
pip install dask
5

import7import8

pip install dask
5

Output:

Hướng dẫn python read large csv - python đọc csv lớn

Bộ dữ liệu được sử dụng trong ví dụ này chứa 986894 hàng có 21 cột. Thời gian thực hiện là khoảng 4 giây có thể không dài đến thế, nhưng đối với các mục có hàng triệu hàng, thời gian để đọc các mục có ảnh hưởng trực tiếp đến hiệu quả của mô hình.

Bây giờ, chúng ta hãy sử dụng các khối để đọc tệp CSV:

Python3

import pandas as pd

import numpy as np

import time

s_time =

pip install dask
0

pip install dask
1=
pip install dask
3
pip install dask
4
pip install dask
5

pip install dask
6=
pip install dask
0

Bộ dữ liệu được sử dụng trong ví dụ này chứa 986894 hàng có 21 cột. Thời gian thực hiện là khoảng 4 giây có thể không dài đến thế, nhưng đối với các mục có hàng triệu hàng, thời gian để đọc các mục có ảnh hưởng trực tiếp đến hiệu quả của mô hình.

Bây giờ, chúng ta hãy sử dụng các khối để đọc tệp CSV:

import7import8

pip install dask
5

Output:

Hướng dẫn python read large csv - python đọc csv lớn

pandas as pd6=

pip install dask
0

pandas as pd9= pip install dask3import2___

import7=

pip install dask
0

Các

pip install dask

pip install dask
1= import0

Python3

import pandas as pd

import numpy as np

import time

s_time =

pip install dask
0

pip install dask
1=
pip install dask
3
pip install dask
4
pip install dask
5

pip install dask
6=
pip install dask
0

Bộ dữ liệu được sử dụng trong ví dụ này chứa 986894 hàng có 21 cột. Thời gian thực hiện là khoảng 4 giây có thể không dài đến thế, nhưng đối với các mục có hàng triệu hàng, thời gian để đọc các mục có ảnh hưởng trực tiếp đến hiệu quả của mô hình.

pip install dask
9import0s_time 7s_time 8import3=0import5
pip install dask
5

=3import8

pip install dask
5

Output:

Hướng dẫn python read large csv - python đọc csv lớn

Bây giờ, chúng ta hãy sử dụng các khối để đọc tệp CSV:

pandas as pd6=

pip install dask
0 The dataset in the link has around 3000 rows. Additional data was added separately for the purpose of this article, to increase the size of the file. It does not exist in the original dataset.