Hướng dẫn java html parser
Nhóm phát triển của chúng tôi vừa ra mắt website langlearning.net học tiếng Anh, Nga, Đức, Pháp, Việt, Trung, Hàn, Nhật, ... miễn phí cho tất cả mọi người. Là một website được viết trên công nghệ web Flutter vì vậy hỗ trợ rất tốt cho người học, kể cả những người học khó tính nhất. Hiện tại website đang tiếp tục được cập nhập nội dung cho phong phú và đầy đủ hơn. Mong các bạn nghé thăm và ủng hộ website mới của chúng tôi. Show 1- Jsoup là gì?Jsoup là Java HTML Parser. Nói cách khac Jsoup là một thư viện được sử dụng để phân tích tài liệu HTML. Jsoup cung cấp các API dùng để lấy dữ liệu và thao tác dữ liệu từ URL hoặc từ tập tin HTML. Nó sử dụng các phương thức giống với DOM, CSS , JQuery để lấy dữ liệu và thao tác với dữ liệu. Hãy xem một ví dụ với Jsoup: HelloJsoup.java
2- Thư viện JsoupBạn có thể sử dụng Maven hoặc download thư viện Jsoup dưới dạng file jar. Với maven:
Hoặc có thể download: 3- Jsoup APIJsoup bao gồm nhiều class, tuy nhiên có 3 class quan trọng nhất, bao gồm:
4- Thao tác với Document4.1- Tạo Documet từ URLGetDocumentFromURL.java
Chạy ví dụ: 4.2- Tạo Document từ File
GetDocumentFromFile.java
4.3- Tạo Document từ StringGetDocumentFromString.java
Chạy ví dụ: 4.4- Phân tích đoạn HTMLMột tài liệu HTML đầy đủ bao gồm cả Header và Body, đôi khi bạn cũng cần phân tích một đoạn HTML. Và bạn có thể lấy ra một tài liệu HTML đầy đủ bao gồm cả header & body. Hãy xem ví dụ: ParsingBodyFragment.java
Chạy ví dụ: 5- Các phương thức DOMJsoup có một vài phương thức gần giống với các phương thức trong mô hình DOM (Một mô hình để phân tích tài liệu XML)
Các phương thức lấy dữ liệu trên Element.
Các phương thức vận dụng HTML:
Ví dụ sử dụng các phương thức DOM, phân tích một tài liệu HTML ghi ra các thông tin trong thẻ form. register.html
ReadHtmlForm.java
Chạy ví dụ: GetAllLinks.java
Chạy ví dụ: 6- Các phương thức tương tự Css, jQueryBạn muốn tìm kiếm hoặc vận dụng các phần tử sử dụng ngữ pháp giống CSS hoặc jQuery? JSoup cung cấp cho bạn một vài phương thức để làm việc này:
Ví dụ:
Các phần tử JSoup hỗ trợ bạn cú pháp giống với CSS (hoặc JQuery) giúp bạn tìm kiếm các phần tử phù hợp. Những hỗ trợ như vậy là rất mạnh mẽ. Các phương thức lựa chọn có sẵn trong lớp Document, Element hoặc Elements. Tổng quan về Selector (Bộ lựa chọn).
Selector kết hợp
Pseudo selectors
QueryLinks.java
Kết quả chạy ví dụ: document.html
SelectorDemo1.java
|