JSON là viết tắt của JavaScript Object Notation và là một định dạng tệp chuẩn mở. Mặc dù nó chứa các cặp thuộc tính-giá trị và kiểu dữ liệu mảng, nhưng nó sử dụng văn bản mà con người có thể đọc được cho việc này. Định dạng tệp dữ liệu Python này không phụ thuộc vào ngôn ngữ và chúng tôi có thể sử dụng nó trong giao tiếp trình duyệt-máy chủ không đồng bộ. Phần mở rộng cho tệp JSON JSON là. json
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
Hãy cùng khám phá Python Zipfile – Lợi ích, Mô-đun, Đối tượng
Đây là tệp JSON trong Python mà chúng tôi sẽ sử dụng cho bản trình diễn-
{ "ID":["1","2","3","4","5"], "Title":["Dog with a Blog","Liv and Maddie","Girl Meets World","KC Undercover","Austin and Ally"], "Timing":["17:30-18:00","18:00-18:30","18:30-19:00","19:00-19:30","19:30-20:00"], "Genre":["Comedy","Comedy","Comedy","Comedy","Comedy"], "Rating":["4.7","6.3","7.2","6.1","6"] }
Chúng tôi lưu cái này dưới dạng lịch trình. json trên Máy tính để bàn
c. Định dạng tệp dữ liệu Python – Python XLS
Phần mở rộng cho bảng tính Excel là. xlsx. Điều này chứng tỏ hữu ích cho khoa học dữ liệu; .
Trang tính 1-
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
Tờ 2-
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
Chúng tôi lưu sổ làm việc này dưới dạng lịch biểu. xlsx trên Desktop của chúng tôi.
Bạn có biết Xử lý XML trong Python 3
3. điều kiện tiên quyết
Để xử lý các định dạng tệp dữ liệu Python này, chúng ta cần thư viện pandas
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
Cài đặt nó bằng pip-
>>> pip install pandas
4. Làm cách nào để đọc tệp CSV bằng Python?
Để đọc toàn bộ tệp, hàng, cột hoặc kết hợp của chúng, hãy đọc tiếp
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
a. Đọc toàn bộ tệp CSV Python
Để đọc toàn bộ file, chúng ta có thể sử dụng hàm read_csv[]
>>> import pandas >>> import os >>> os.chdir['C:\\Users\\lifei\\Desktop'] >>> print[pandas.read_csv['schedule.csv']]
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
Đọc về Công cụ Python – 4 tiện ích chính
b. Đọc các hàng cho một cột
Đôi khi, chúng tôi có thể chỉ muốn tìm nạp một số hàng nhất định cùng một lúc cho một cột nhất định. Chúng tôi sử dụng toán tử cắt cho việc này. Đọc về Toán tử Python
>>> data=pandas.read_csv['schedule.csv'] >>> print[data[0:3]['title']]
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
c. Đọc các cột nhất định
Bây giờ chúng tôi cũng chỉ có thể tìm nạp một số cột nhất định. Đối với điều này, chúng tôi sử dụng. phương thức loc[] để lập chỉ mục nhiều trục
>>> data=pandas.read_csv['schedule.csv'] >>> print[data.loc[:,['title','rating']]]
Tệp CSV Python – Đọc một số cột nhất định
d. Đọc các hàng nhất định và các cột nhất định
Sử dụng. loc[], chúng ta cũng có thể tìm nạp một số hàng và một số cột nhất định
>>> data=pandas.read_csv['schedule.csv'] >>> print[data.loc[[1,3],['title','rating']]]
Định dạng tệp dữ liệu Python – Cách đọc tệp CSV, JSON và XLS
e. Đọc các cột nhất định cho một phạm vi hàng
Bây giờ, để tìm nạp các cột nhất định cho một phạm vi hàng, chúng tôi thay đổi một chút cú pháp trước đó và sử dụng cắt lát thay vì chỉ mục
Là một nhà khoa học hoặc nhà phân tích dữ liệu, có thể bạn sẽ bắt gặp nhiều loại tệp để nhập và sử dụng trong tập lệnh Python của mình. Một số nhà phân tích sử dụng Microsoft Excel, nhưng ứng dụng này giới hạn những gì bạn có thể làm khi nhập dữ liệu lớn. Tùy chọn tốt hơn là pandas — một bộ công cụ phân tích mạnh mẽ, trực quan hơn nhiều đối với nhà khoa học dữ liệu
Pandas có thể sử dụng định dạng tệp nào?
Python có thể xử lý hầu như mọi định dạng tệp dữ liệu — hơn cả Microsoft Excel. Đó là thế mạnh của Python. Đó là nguồn mở và có thể có một thư viện để xử lý nó, vì vậy bạn sẽ có được một hệ thống tương thích hơn rất nhiều
Python có thể hoạt động với các định dạng tệp sau
Các giá trị được phân tách bằng dấu phẩy [CSV]
XLSX
ZIP
Văn bản thuần túy [txt]
JSON
XML
HTML
Hình ảnh
Định dạng dữ liệu phân cấp
PDF
DOCX
MP3
MP4
SQL
Làm thế nào để cài đặt gấu trúc
Cài đặt gấu trúc thật dễ dàng. Mở thiết bị đầu cuối của bạn và sử dụng mã này
1
2 [code language="shell"]
3 pip install pandas
4 [/code]
5
Đối với Python3, bạn sẽ cần sử dụng
1
2 [code language="shell"]
3 pip3 install pandas
4 [/code]
5
Nếu bạn đang nhận được một biển Giết màu đỏ, bạn có thể cần một lệnh sudo rồi nhập mật khẩu của mình
________số 8
Cách nhập tệp trong Python
Với hầu hết mọi dự án khoa học dữ liệu, bạn cần nhập tệp. gấu trúc làm cho các thao tác nhập này trở nên trực quan, nhưng thậm chí còn tốt hơn khi nó được thực hiện chỉ với một vài dòng mã
Cách nhập HTML bằng gấu trúc
HTML thường là dữ liệu phi cấu trúc, nhưng bạn có thể có một trang có bảng dữ liệu mà bạn muốn nhập. Pandas đọc HTML chỉ trong một dòng mã và phân tích dữ liệu cho bạn, bao gồm cả các thành phần thẻ
[code language="python"]
import pandas as pd
tables = pd.read_html['//www.cbtnuggets.com/blog/technology/data/13-honest-data-center-technician-salaries-in-2018']
tables.head[]
[/code language
GHI CHÚ. Điều này chỉ dành cho các trang có bảng. Pandas phát huy tác dụng kỳ diệu của nó một cách dễ dàng khi một trang có bảng, chẳng hạn như bài đăng 13 Mức lương công nghệ trung tâm dữ liệu trung thực của chúng tôi
Nếu bạn muốn thực hiện một số thao tác nghiêm túc, bạn nên xem Beautiful Soup
Cách nhập SQL bằng gấu trúc
Bạn có thể chạy truy vấn SQL trên cơ sở dữ liệu quan hệ và xuất dữ liệu sang định dạng tệp có cấu trúc hoặc bạn có thể chạy câu lệnh SQL trực tiếp trong tập lệnh Python của mình. Pandas có một chức năng lấy một chuỗi SQL và chạy nó trên cơ sở dữ liệu quan hệ
Nó phức tạp hơn một chút vì bạn cần viết một truy vấn SQL, đồng thời mở một kết nối tới cơ sở dữ liệu SQL. Đừng để điều đó làm bạn nản lòng. SQL rất đơn giản và thật dễ dàng khi bạn thiết lập kết nối với thư viện Python pyodbc
>>> pip install pandas0
Chắc chắn bạn sẽ muốn tìm hiểu thêm về các kết nối SQL trong khóa học về gấu trúc của Ben Finkel
Cách nhập CSV bằng gấu trúc
Pandas cũng giúp việc nhập CSV trở nên dễ dàng
>>> pip install pandas1
Điều quan trọng là bạn có thể đặt hầu như bất kỳ định dạng tệp nào vào pd. read_[file format] và nó sẽ hoạt động theo cách tương tự
Cách xuất định dạng
Sau khi nhập dữ liệu, bạn có thể thực hiện tính toán và sắp xếp cấu trúc dữ liệu mới trong tập lệnh của mình. Sau đó, bạn có thể muốn xuất dữ liệu sang một tệp mới chứa các phép tính của mình
Pandas có chức năng xuất dữ liệu sang CSV. Bạn có thể xuất bằng các định dạng tệp khác, nhưng hầu hết các nhà khoa học dữ liệu thích xuất ở định dạng tệp dễ dàng chuyển giữa các hệ thống hơn. Chúng tôi đã đề cập rằng CSV được sử dụng để truyền dữ liệu trong môi trường ví dụ giữa MySQL và SQL Server, nhưng nó được sử dụng trong các trường hợp khác mà bạn cần đảm bảo rằng bên thứ ba có thể nhập tệp của bạn
Bạn có thể không biết khách hàng của mình sử dụng hệ thống nào hoặc cần xuất dữ liệu cho bên thứ ba sử dụng. Sử dụng định dạng tệp CSV, bạn có thể đảm bảo tốt hơn rằng bất kỳ phần mềm, công cụ cơ sở dữ liệu hoặc mã được biên dịch nào khác đều có thể nhập thông tin của bạn mà không gặp sự cố không tương thích
Cách xuất CSV bằng gấu trúc
>>> pip install pandas2
Với tệp mới được xuất này, bạn hoặc bất kỳ bên thứ ba nào có thể nhập tệp đó vào hệ thống khác bao gồm tập lệnh Python khác. Một vài dòng mã này là tất cả những gì cần thiết để nhập dữ liệu và gấu trúc có thể làm được điều đó
Cách chuyển đổi bất kỳ tệp nào thành tệp Excel bằng gấu trúc
Định dạng tệp CSV là một trong những định dạng phổ biến nhất. Tệp CSV được sử dụng để truyền dữ liệu giữa hai nền tảng khác nhau. Chẳng hạn, tệp CSV có thể được sử dụng để truyền dữ liệu giữa SQL Server và MySQL. Đó là một định dạng phổ quát cũng yêu cầu rất ít chi phí định dạng
Cách chuyển đổi tệp JSON thành CSV bằng gấu trúc
Các tệp JSON được cấu trúc cho máy tính, không phải con người. Các nhà phân tích dữ liệu có thể cần xem xét dữ liệu tốt hơn ở định dạng dễ đọc. Với gấu trúc, điều đó thật dễ dàng
>>> pip install pandas3
mẹo thư viện. Thư viện Simplejson cung cấp các thông báo Kill từng dòng giúp cuộc sống dễ dàng hơn nhiều. Ví dụ, nếu bạn. json không được định dạng chính xác, Simplejson sẽ cho bạn biết chính xác dòng nào bị lỗi. Thư viện json chỉ cho bạn biết có sự cố [hoặc sự cố] ở đâu đó trong một tệp lớn, không dễ đọc
Bạn có thể chuyển đổi hầu như bất kỳ định dạng tệp dữ liệu nào sang bất kỳ định dạng nào khác với pandas
Phần kết luận
Là một nhà khoa học dữ liệu, bạn cần sử dụng đúng thư viện và định dạng tệp giúp ích cho sự nghiệp của mình. Khi bạn trở nên quen thuộc với các định dạng tệp và các chức năng dễ dàng nhập và xuất dữ liệu, bạn sẽ trở thành một nhà khoa học dữ liệu linh hoạt hơn với các kỹ năng mở rộng mà bạn mang đến cho các nhà tuyển dụng tiềm năng
Tải xuống
Hướng dẫn chứng chỉ quản trị hệ thống cơ bản
Hướng dẫn dài 158 trang về mọi chứng chỉ của Microsoft, VMware, Citrix, AWS, Google và Linux cũng như cách chúng phù hợp với sự nghiệp của bạn
Họ
Cần thiết
Họ
Vai trò công việc của bạn là gì?
Gửi cho tôi tin tức và tài nguyên đào tạo CNTT về CBT Nuggets. [không bắt buộc]
NộpBằng cách gửi biểu mẫu này, bạn đồng ý rằng bạn đã đọc, hiểu và có thể đồng ý với chính sách bảo mật của chúng tôi