Định dạng tệp dữ liệu tốt nhất cho Python

JSON là viết tắt của JavaScript Object Notation và là một định dạng tệp chuẩn mở. Mặc dù nó chứa các cặp thuộc tính-giá trị và kiểu dữ liệu mảng, nhưng nó sử dụng văn bản mà con người có thể đọc được cho việc này. Định dạng tệp dữ liệu Python này không phụ thuộc vào ngôn ngữ và chúng tôi có thể sử dụng nó trong giao tiếp trình duyệt-máy chủ không đồng bộ. Phần mở rộng cho tệp JSON JSON là. json

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

Hãy cùng khám phá Python Zipfile – Lợi ích, Mô-đun, Đối tượng
Đây là tệp JSON trong Python mà chúng tôi sẽ sử dụng cho bản trình diễn-

{
"ID":["1","2","3","4","5"],
"Title":["Dog with a Blog","Liv and Maddie","Girl Meets World","KC Undercover","Austin and Ally"],
"Timing":["17:30-18:00","18:00-18:30","18:30-19:00","19:00-19:30","19:30-20:00"],
"Genre":["Comedy","Comedy","Comedy","Comedy","Comedy"],
"Rating":["4.7","6.3","7.2","6.1","6"]
}

Chúng tôi lưu cái này dưới dạng lịch trình. json trên Máy tính để bàn

c. Định dạng tệp dữ liệu Python – Python XLS

Phần mở rộng cho bảng tính Excel là. xlsx. Điều này chứng tỏ hữu ích cho khoa học dữ liệu; .
Trang tính 1-

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

Tờ 2-

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

Chúng tôi lưu sổ làm việc này dưới dạng lịch biểu. xlsx trên Desktop của chúng tôi.
Bạn có biết Xử lý XML trong Python 3 

3. điều kiện tiên quyết

Để xử lý các định dạng tệp dữ liệu Python này, chúng ta cần thư viện pandas

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

Cài đặt nó bằng pip-

>>> pip install pandas

4. Làm cách nào để đọc tệp CSV bằng Python?

Để đọc toàn bộ tệp, hàng, cột hoặc kết hợp của chúng, hãy đọc tiếp

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

a. Đọc toàn bộ tệp CSV Python

Để đọc toàn bộ file, chúng ta có thể sử dụng hàm read_csv[]

>>> import pandas
>>> import os
>>> os.chdir['C:\\Users\\lifei\\Desktop']
>>> print[pandas.read_csv['schedule.csv']]

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

Đọc về Công cụ Python – 4 tiện ích chính

b. Đọc các hàng cho một cột

Đôi khi, chúng tôi có thể chỉ muốn tìm nạp một số hàng nhất định cùng một lúc cho một cột nhất định. Chúng tôi sử dụng toán tử cắt cho việc này. Đọc về Toán tử Python

>>> data=pandas.read_csv['schedule.csv']
>>> print[data[0:3]['title']]

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

c. Đọc các cột nhất định

Bây giờ chúng tôi cũng chỉ có thể tìm nạp một số cột nhất định. Đối với điều này, chúng tôi sử dụng. phương thức loc[] để lập chỉ mục nhiều trục

>>> data=pandas.read_csv['schedule.csv']
>>> print[data.loc[:,['title','rating']]]

Tệp CSV Python – Đọc một số cột nhất định

d. Đọc các hàng nhất định và các cột nhất định

Sử dụng. loc[], chúng ta cũng có thể tìm nạp một số hàng và một số cột nhất định

>>> data=pandas.read_csv['schedule.csv']
>>> print[data.loc[[1,3],['title','rating']]]

Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS

e. Đọc các cột nhất định cho một phạm vi hàng

Bây giờ, để tìm nạp các cột nhất định cho một phạm vi hàng, chúng tôi thay đổi một chút cú pháp trước đó và sử dụng cắt lát thay vì chỉ mục

Là một nhà khoa học hoặc nhà phân tích dữ liệu, có thể bạn sẽ bắt gặp nhiều loại tệp để nhập và sử dụng trong tập lệnh Python của mình. Một số nhà phân tích sử dụng Microsoft Excel, nhưng ứng dụng này giới hạn những gì bạn có thể làm khi nhập dữ liệu lớn. Tùy chọn tốt hơn là pandas — một bộ công cụ phân tích mạnh mẽ, trực quan hơn nhiều đối với nhà khoa học dữ liệu

Pandas có thể sử dụng định dạng tệp nào?

Python có thể xử lý hầu như mọi định dạng tệp dữ liệu — hơn cả Microsoft Excel. Đó là thế mạnh của Python. Đó là nguồn mở và có thể có một thư viện để xử lý nó, vì vậy bạn sẽ có được một hệ thống tương thích hơn rất nhiều

Python có thể hoạt động với các định dạng tệp sau

  1. Các giá trị được phân tách bằng dấu phẩy [CSV]

  2. XLSX

  3. ZIP

  4. Văn bản thuần túy [txt]

  5. JSON

  6. XML

  7. HTML

  8. Hình ảnh

  9. Định dạng dữ liệu phân cấp

  10. PDF

  11. DOCX

  12. MP3

  13. MP4

  14. SQL

Làm thế nào để cài đặt gấu trúc

Cài đặt gấu trúc thật dễ dàng. Mở thiết bị đầu cuối của bạn và sử dụng mã này

1
2  [code language="shell"]
3  pip install pandas
4  [/code]
5

Đối với Python3, bạn sẽ cần sử dụng

1
2  [code language="shell"]
3  pip3 install pandas
4  [/code]
5

Nếu bạn đang nhận được một biển Giết màu đỏ, bạn có thể cần một lệnh sudo rồi nhập mật khẩu của mình

________số 8

Cách nhập tệp trong Python

Với hầu hết mọi dự án khoa học dữ liệu, bạn cần nhập tệp. gấu trúc làm cho các thao tác nhập này trở nên trực quan, nhưng thậm chí còn tốt hơn khi nó được thực hiện chỉ với một vài dòng mã

Cách nhập HTML bằng gấu trúc

HTML thường là dữ liệu phi cấu trúc, nhưng bạn có thể có một trang có bảng dữ liệu mà bạn muốn nhập. Pandas đọc HTML chỉ trong một dòng mã và phân tích dữ liệu cho bạn, bao gồm cả các thành phần thẻ

[code language="python"]
import pandas as pd
tables = pd.read_html['//www.cbtnuggets.com/blog/technology/data/13-honest-data-center-technician-salaries-in-2018']
tables.head[]
[/code language

GHI CHÚ. Điều này chỉ dành cho các trang có bảng. Pandas phát huy tác dụng kỳ diệu của nó một cách dễ dàng khi một trang có bảng, chẳng hạn như bài đăng 13 Mức lương công nghệ trung tâm dữ liệu trung thực của chúng tôi

Nếu bạn muốn thực hiện một số thao tác nghiêm túc, bạn nên xem Beautiful Soup

Cách nhập SQL bằng gấu trúc

Bạn có thể chạy truy vấn SQL trên cơ sở dữ liệu quan hệ và xuất dữ liệu sang định dạng tệp có cấu trúc hoặc bạn có thể chạy câu lệnh SQL trực tiếp trong tập lệnh Python của mình. Pandas có một chức năng lấy một chuỗi SQL và chạy nó trên cơ sở dữ liệu quan hệ

Nó phức tạp hơn một chút vì bạn cần viết một truy vấn SQL, đồng thời mở một kết nối tới cơ sở dữ liệu SQL. Đừng để điều đó làm bạn nản lòng. SQL rất đơn giản và thật dễ dàng khi bạn thiết lập kết nối với thư viện Python pyodbc

>>> pip install pandas
0

Chắc chắn bạn sẽ muốn tìm hiểu thêm về các kết nối SQL trong khóa học về gấu trúc của Ben Finkel

Cách nhập CSV bằng gấu trúc

Pandas cũng giúp việc nhập CSV trở nên dễ dàng

>>> pip install pandas
1

Điều quan trọng là bạn có thể đặt hầu như bất kỳ định dạng tệp nào vào pd. read_[file format] và nó sẽ hoạt động theo cách tương tự

Cách xuất định dạng

Sau khi nhập dữ liệu, bạn có thể thực hiện tính toán và sắp xếp cấu trúc dữ liệu mới trong tập lệnh của mình. Sau đó, bạn có thể muốn xuất dữ liệu sang một tệp mới chứa các phép tính của mình

Pandas có chức năng xuất dữ liệu sang CSV. Bạn có thể xuất bằng các định dạng tệp khác, nhưng hầu hết các nhà khoa học dữ liệu thích xuất ở định dạng tệp dễ dàng chuyển giữa các hệ thống hơn. Chúng tôi đã đề cập rằng CSV được sử dụng để truyền dữ liệu trong môi trường ví dụ giữa MySQL và SQL Server, nhưng nó được sử dụng trong các trường hợp khác mà bạn cần đảm bảo rằng bên thứ ba có thể nhập tệp của bạn

Bạn có thể không biết khách hàng của mình sử dụng hệ thống nào hoặc cần xuất dữ liệu cho bên thứ ba sử dụng. Sử dụng định dạng tệp CSV, bạn có thể đảm bảo tốt hơn rằng bất kỳ phần mềm, công cụ cơ sở dữ liệu hoặc mã được biên dịch nào khác đều có thể nhập thông tin của bạn mà không gặp sự cố không tương thích

Cách xuất CSV bằng gấu trúc

>>> pip install pandas
2

Với tệp mới được xuất này, bạn hoặc bất kỳ bên thứ ba nào có thể nhập tệp đó vào hệ thống khác bao gồm tập lệnh Python khác. Một vài dòng mã này là tất cả những gì cần thiết để nhập dữ liệu và gấu trúc có thể làm được điều đó

Cách chuyển đổi bất kỳ tệp nào thành tệp Excel bằng gấu trúc

Định dạng tệp CSV là một trong những định dạng phổ biến nhất. Tệp CSV được sử dụng để truyền dữ liệu giữa hai nền tảng khác nhau. Chẳng hạn, tệp CSV có thể được sử dụng để truyền dữ liệu giữa SQL Server và MySQL. Đó là một định dạng phổ quát cũng yêu cầu rất ít chi phí định dạng

Cách chuyển đổi tệp JSON thành CSV bằng gấu trúc

Các tệp JSON được cấu trúc cho máy tính, không phải con người. Các nhà phân tích dữ liệu có thể cần xem xét dữ liệu tốt hơn ở định dạng dễ đọc. Với gấu trúc, điều đó thật dễ dàng

>>> pip install pandas
3

mẹo thư viện. Thư viện Simplejson cung cấp các thông báo Kill từng dòng giúp cuộc sống dễ dàng hơn nhiều. Ví dụ, nếu bạn. json không được định dạng chính xác, Simplejson sẽ cho bạn biết chính xác dòng nào bị lỗi. Thư viện json chỉ cho bạn biết có sự cố [hoặc sự cố] ở đâu đó trong một tệp lớn, không dễ đọc

Bạn có thể chuyển đổi hầu như bất kỳ định dạng tệp dữ liệu nào sang bất kỳ định dạng nào khác với pandas

Phần kết luận

Là một nhà khoa học dữ liệu, bạn cần sử dụng đúng thư viện và định dạng tệp giúp ích cho sự nghiệp của mình. Khi bạn trở nên quen thuộc với các định dạng tệp và các chức năng dễ dàng nhập và xuất dữ liệu, bạn sẽ trở thành một nhà khoa học dữ liệu linh hoạt hơn với các kỹ năng mở rộng mà bạn mang đến cho các nhà tuyển dụng tiềm năng

Tải xuống

Hướng dẫn chứng chỉ quản trị hệ thống cơ bản

Hướng dẫn dài 158 trang về mọi chứng chỉ của Microsoft, VMware, Citrix, AWS, Google và Linux cũng như cách chúng phù hợp với sự nghiệp của bạn

Họ

Cần thiết

Họ

E-mail

Vai trò công việc của bạn là gì?

Gửi cho tôi tin tức và tài nguyên đào tạo CNTT về CBT Nuggets. [không bắt buộc]

Nộp

Bằng cách gửi biểu mẫu này, bạn đồng ý rằng bạn đã đọc, hiểu và có thể đồng ý với chính sách bảo mật của chúng tôi

Python sử dụng định dạng dữ liệu nào?

Python có thể hoạt động với các định dạng tệp sau. Các giá trị được phân tách bằng dấu phẩy [CSV] XLSX . KÉP .

Cách tốt nhất để lưu trữ dữ liệu trong Python là gì?

Sử dụng định dạng dữ liệu nhanh hơn và nhẹ hơn .

Cái gì tốt hơn CSV?

So sánh hiệu suất . JSON is referred to as comparatively better than CSV while working with the large volume of data and in terms of scalability of files or application.

HDF có nhanh hơn CSV không?

Một quan sát thú vị ở đây là hdf hiển thị tốc độ tải thậm chí còn chậm hơn tệp csv trong khi các định dạng nhị phân khác hoạt động tốt hơn rõ rệt.

Chủ Đề