Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?

Hầu như mọi trang web trên Internet đều được viết bằng HTML.

Nếu bạn muốn tự động trích xuất dữ liệu từ một trang web, bạn sẽ phải đối phó với một loạt mã HTML.

Một cạp web có thể giúp bạn trích xuất dữ liệu từ bất kỳ trang web nào và cũng rút bất kỳ thuộc tính HTML cụ thể nào như thẻ lớp và tiêu đề.

Sử dụng máy cạo web để cạo HTML

Ví dụ của chúng tôi, chúng tôi sẽ sử dụng Parsehub, một máy quét web miễn phí và mạnh mẽ.

Một tính năng cụ thể sẽ giúp chúng tôi với dự án này, là khả năng của Parsehub, cũng có thể kéo mã HTML và thuộc tính từ một trang web thay vì chỉ là văn bản trên trang.

Ngoài ra, trong ví dụ này, chúng tôi sẽ quét trang đầu tiên của kết quả Amazon cho thuật ngữ điện thoại thông minh.

Thiết lập một dự án cào web

Đầu tiên, bạn sẽ phải tải xuống và cài đặt parsehub miễn phí. Sau khi mở, nhấp vào dự án mới và gửi URL, chúng tôi sẽ cạo.download and install ParseHub for free. Once open, click on New Project and submit the URL we will be scraping.

Parsehub bây giờ sẽ hiển thị trang và bạn sẽ có thể chọn dữ liệu bạn muốn trích xuất.

Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?

Chọn và trích xuất dữ liệu

  1. Khi bạn đã gửi URL, hãy cuộn xuống kết quả hữu cơ đầu tiên (không được tài trợ) trên trang và nhấp vào tiêu đề của sản phẩm đầu tiên trên trang. Nó sẽ được tô sáng màu xanh lá cây để chỉ ra rằng nó đã được chọn.
Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?
  1. Phần còn lại của các sản phẩm trên trang sẽ được tô sáng màu vàng. Nhấp vào kết quả thứ hai của trang để chọn tất cả (bây giờ chúng sẽ được tô sáng màu xanh lá cây).
Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?
  1. Parsehub hiện đang trích xuất tên và URL cho mỗi sản phẩm trên trang, vì chúng có mặt trong phần tử chúng tôi đã chọn.
  2. Trên thanh bên trái, chúng tôi có thể đổi tên lựa chọn của mình thành sản phẩm.
Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?

Bây giờ chúng tôi đã chọn một số dữ liệu để trích xuất, chúng tôi sẽ có thể lấy thêm dữ liệu từ mã HTML trong lựa chọn của chúng tôi.

Khi bạn đã chọn một số dữ liệu để trích xuất, giờ đây bạn có thể chọn từng trích xuất trên thanh bên trái. Trong ví dụ của chúng tôi, chúng tôi có hai trích xuất: một cho tên sản phẩm và một cho URL niêm yết.

Bây giờ bạn có thể chọn các trích xuất và sử dụng thả xuống để chỉnh sửa chúng và trích xuất các phần tử HTML cụ thể.

Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?

Theo mặc định, việc trích xuất trước tiên sẽ trích xuất văn bản đã được chọn.

Khai thác: Textresult: Samsung Galaxy A10 32GB (A105M) 6.2 "HD+ Infinity -V 4G LTE Factory Mở khóa điện thoại thông minh GSM - Đen: Text
Result: Samsung Galaxy A10 32GB (A105M) 6.2" HD+ Infinity-V 4G LTE Factory Unlocked GSM Smartphone - Black

Tiếp theo, chúng tôi cũng có thể trích xuất thuộc tính HREF cho lựa chọn của chúng tôi (URL).

Khai thác: URL (thuộc tính href) Kết quả: https://www.amazon.com/samsung-a10-infinity-v-nlocked-smartphone/dp/b07q84dpzh/: URL (href Attribute)
Result: https://www.amazon.com/Samsung-A10-Infinity-V-Unlocked-Smartphone/dp/B07Q84DPZH/

Việc trích xuất HTML đầy đủ sẽ trích xuất toàn bộ mã HTML từ lựa chọn của bạn, điều này có thể đặc biệt hữu ích khi chọn toàn bộ các div trên trang.

Khai thác: HTMLResult đầy đủ: Samsung Galaxy A10 32GB (A105M) 6.2 "HD+ Infinity -V 4G LTE Factory Mở khóa điện thoại thông minh GSM - Đen: Full HTML
Result: Samsung Galaxy A10 32GB (A105M) 6.2" HD+ Infinity-V 4G LTE Factory Unlocked GSM Smartphone - Black

Trích xuất HTML bên trong sẽ trích xuất bất kỳ nội dung nào được tìm thấy trong các thẻ HTML của lựa chọn mà bạn đã thực hiện.

Khai thác: htmlresult bên trong: Samsung Galaxy A10 32GB (A105M) 6.2 "HD+ Infinity -V 4G LTE Factory Mở khóa điện thoại thông minh GSM - Đen: Inner HTML
Result: Samsung Galaxy A10 32GB (A105M) 6.2" HD+ Infinity-V 4G LTE Factory Unlocked GSM Smartphone - Black

Trong nhiều trường hợp, lựa chọn của bạn sẽ có các thuộc tính HTML như lớp, ID hoặc tiêu đề.

Parsehub sẽ tự động xác định các thuộc tính này và cho phép bạn trích xuất dữ liệu được đặt trong chúng.

Trong ví dụ này, lựa chọn chúng tôi đã thực hiện, Parsehub đã chọn thuộc tính lớp. Bây giờ chúng ta có thể chọn nó từ thả xuống để trích xuất dữ liệu đó một cách cụ thể.

Khai thác: Lớp phân bổ: class Attribute
Result: a-size-medium a-color-base a-text-normal

Xây dựng và chạy Scrape của bạn

Hướng dẫn how do i extract html from a website? - làm cách nào để trích xuất html từ một trang web?

Những gì chúng tôi đã thiết lập ngày hôm nay là một dự án cạo rất đơn giản, vì nó chỉ trích xuất tên và URL cho mỗi sản phẩm trong một trang.

Để có hướng dẫn chuyên sâu hơn về cách xây dựng một dự án lớn hơn (với các kỹ năng trích xuất HTML mới của bạn), hãy xem hướng dẫn của chúng tôi về việc thiết lập một dự án cạo web.

Bằng cách làm theo hướng dẫn của chúng tôi, bạn sẽ có thể trích xuất dữ liệu từ bất kỳ trang web nào và vào bảng tính, bao gồm dữ liệu và thuộc tính HTML.

Bạn cũng có thể nhận được một trong những chứng chỉ quét web miễn phí của chúng tôi. Đăng ký vào một trong những khóa học chứng nhận cào web của chúng tôi ngay hôm nay!