Làm cách nào để trích xuất bảng từ HTML Python?
Bài Viết Liên Quan
Quảng Cáo
Có thể bạn quan tâm
Toplist được quan tâm
Top 7 sự tích hồ gươm - ngữ văn lớp 6 2023
1 năm trướcTop 7 gdcd 6 bài 1 kết nối tri thức 2023
1 năm trướcTop 6 kết thực phim mỹ nhân vô lệ 2023
1 năm trướcTop 5 tiểu sử của thầy thích pháp hòa 2023
1 năm trướcQuảng cáo
Xem Nhiều
Quảng cáo
Chúng tôi
Trợ giúp
|
Trước đây, chúng tôi đã tìm hiểu về những điều cơ bản của việc thu thập dữ liệu trên các trang web, nhưng bạn có biết rằng chúng tôi cũng có thể thu thập dữ liệu ở dạng bảng không? . Ví dụ: lịch bay, tính năng sản phẩm, sự khác biệt của dịch vụ, lịch truyền hình, xếp hạng, v.v.
Show
Trong một số trường hợp, có thể dễ dàng sao chép và dán bảng vào excel mà không cần viết mã, nhưng với tư cách là nhà khoa học dữ liệu, chúng ta cần hiểu rằng trong tương lai, chúng ta sẽ làm việc với dữ liệu lớn hơn khi phương pháp sao chép-dán không thực sự hiệu quả. Vì vậy, bây giờ tôi sẽ chỉ cho bạn cách cạo một bảng dữ liệu từ một trang web BƯỚC 1. CÀI ĐẶT THƯ VIỆN Trước hết, chúng tôi cần các thư viện cần thiết này được cài đặt trong môi trường của chúng tôi
Tôi khuyên bạn nên đọc hướng dẫn trước về cách lấy dữ liệu từ trang web cho người mới bắt đầu nếu bạn gặp khó khăn ở bước này BƯỚC 2. NHẬP KHẨU THƯ VIỆN CẦN THIẾT Vì vậy, sau khi các thư viện quan trọng đã được cài đặt, điều tiếp theo chúng ta có thể làm là mở Spyder. Lý do tại sao tôi sử dụng Spyder vì nó thoải mái hơn khi sử dụng cho các dự án, nhưng cũng không sao nếu bạn có sở thích của riêng mình Được rồi, khi chúng tôi mở Spyder, điều tiếp theo chúng tôi có thể làm là nhập thư viện cần thiết # Import libraries
BƯỚC 3. CHỌN TRANG Trong dự án này, chúng tôi sẽ cạo bảng dữ liệu covid từ Worldometers. Giống như hướng dẫn trước, trang web này cũng được coi là dễ hiểu hơn cho người mới bắt đầu vì nó được tạo bằng HTML BƯỚC 4. XIN PHEP Sau khi chúng tôi chọn trang mà chúng tôi muốn cạo, bây giờ chúng tôi có thể sao chép URL của trang và sử dụng các yêu cầu để xin phép máy chủ lưu trữ mà chúng tôi muốn lấy dữ liệu từ trang web của họ # Create an URL object If the output is that means the server allows us to collect data from their website. After we have permission from the server now we need to parse the HTML code using lxml to make it more readable. # parser-lxml = Change html to Python friendly format
BƯỚC 5. KIỂM TRA PHẦN MỀM BẢNG Trong bài viết trước, chúng ta đã học cách kiểm tra mọi thành phần trong một trang web, vì vậy tôi cho rằng bạn đã hiểu cách làm việc với nó. Để có được thông tin, trước tiên chúng ta cần kiểm tra vị trí của bảng As we can see from the picture above that table is located under the tag and id = ‘main_table_countries_today’. After we have found the location of the table now we can define the variable. In this section, we define the table as ‘table1’.# Obtain information from tag
table1 = soup.find(‘table’, id=’main_table_countries_today’) table1 BƯỚC 6. TẠO DANH SÁCH CỘT Sau khi bảng 1 đã được tạo, điều tiếp theo chúng ta có thể làm là kiểm tra vị trí của từng cột. Nếu chúng ta nhìn vào từng cột, chúng ta sẽ nhận thấy rằng chúng có cùng đặc điểm In the picture above we can see the characteristic of each column is they are located under the tag and items are located under tag
|
