programming php

Làm cách nào để lấy văn bản từ chuỗi HTML trong PHP?

Đây là hướng dẫn PHP về cách trích xuất tất cả các liên kết và văn bản liên kết của chúng từ một chuỗi HTML. Trong hướng dẫn này, tôi sẽ chỉ cho bạn cách tìm nạp nội dung HTML của một trang web và sau đó trích xuất các liên kết từ đó. Để làm điều này, chúng tôi sẽ sử dụng lớp DOMDocument của PHP

Hãy bắt đầu ngay và xem một ví dụ đơn giản

//Get the page's HTML source using file_get_contents.
$html = file_get_contents['//en.wikipedia.org'];

//Instantiate the DOMDocument class.
$htmlDom = new DOMDocument;

//Parse the HTML of the page using DOMDocument::loadHTML
@$htmlDom->loadHTML[$html];

//Extract the links from the HTML.
$links = $htmlDom->getElementsByTagName['a'];

//Array that will contain our extracted links.
$extractedLinks = array[];

//Loop through the DOMNodeList.
//We can do this because the DOMNodeList object is traversable.
foreach[$links as $link]{

    //Get the link text.
    $linkText = $link->nodeValue;
    //Get the link in the href attribute.
    $linkHref = $link->getAttribute['href'];

    //If the link is empty, skip it and don't
    //add it to our $extractedLinks array
    if[strlen[trim[$linkHref]] == 0]{
        continue;
    }

    //Skip if it is a hashtag / anchor link.
    if[$linkHref[0] == '#']{
        continue;
    }

    //Add the link to our $extractedLinks array.
    $extractedLinks[] = array[
        'text' => $linkText,
        'href' => $linkHref
    ];

}

//var_dump the array for example purposes
var_dump[$extractedLinks];

Trong đoạn mã trên

Chúng tôi đã gửi một yêu cầu GET tới một trang web nhất định bằng hàm file_get_contents của PHP. Hàm này sẽ trả về nguồn HTML của URL dưới dạng chuỗi
Chúng tôi đã khởi tạo lớp DOMDocument
Để tải chuỗi HTML vào đối tượng DOMDocument mới tạo của chúng tôi, chúng tôi đã sử dụng DOMDocument. hàm tảiHTML
After that, we used the getElementsByTagName function to search our HTML for all “a” elements. As I’m sure you already know, the tag is used to define a hyperlink. Note that this function will return a traversable DOMNodeList object.
Chúng tôi đã tạo một mảng trống có tên là $extractedLinks, mảng này sẽ được sử dụng để đóng gói gọn gàng tất cả các liên kết đã truy xuất của chúng tôi
Because the DOMNodeList object is traversable, we are able to loop through each tag using a foreach loop.
Trong vòng lặp foreach của chúng tôi, chúng tôi đã truy xuất văn bản liên kết bằng thuộc tính nodeValue. Để truy xuất chính liên kết thực tế, chúng tôi đã sử dụng hàm getAttribute để truy xuất thuộc tính href HTML
Nếu liên kết trống hoặc bắt đầu bằng thẻ bắt đầu bằng dấu thăng / liên kết neo, chúng tôi bỏ qua liên kết đó bằng cách sử dụng câu lệnh tiếp tục
Cuối cùng, chúng tôi lưu trữ các chi tiết của liên kết trong mảng $extractedLinks của chúng tôi

Nếu bạn chạy PHP ở trên, tập lệnh sẽ loại bỏ một loạt tất cả các liên kết được tìm thấy trên trang chủ Wikipedia. Lưu ý rằng các liên kết này có thể là tương đối hoặc tuyệt đối

Hàm preg_match[] là tùy chọn tốt nhất để trích xuất văn bản giữa các thẻ HTML bằng REGEX trong PHP. Nếu bạn muốn lấy nội dung giữa các thẻ, hãy sử dụng biểu thức chính quy với hàm preg_match[] trong PHP. Bạn cũng có thể trích xuất nội dung bên trong phần tử dựa trên tên lớp hoặc ID bằng PHP

Đoạn mã ví dụ cho biết cách lấy nội dung bên trong div cụ thể [phần tử HTML] bằng cách sử dụng PHP. Đoạn mã sau sử dụng preg_match[] với biểu thức chính quy để trích xuất nội dung văn bản hoặc HTML từ các thẻ bên dưới bằng cách sử dụng PHP

$htmlContent = 'Content goes here...';
preg_match['/
[.*?]/s', $htmlContent, $match];

Trích xuất và trả về nội dung bao gồm phần tử cha [thẻ]

$match[0];

Trích xuất và trả về nội dung giữa các thẻ

$match[1];

Giá trị trả về. Hàm này trả về chuỗi đã chuyển đổi. Nếu có chuỗi đầu vào không hợp lệ thì chuỗi rỗng sẽ được trả về

Thí dụ


	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Làm thế nào để tôi chỉ nhận được ngày trong python?

		
	

		
		
		   
		   
		   
		
		
			Kỳ nghỉ học ticino 2023-24

		
	

		
		
		   
		   
		   
		
		
			Bạn sử dụng php để truy cập cơ sở dữ liệu mysql

		
	

		
		
		   
		   
		   
		
		
			Bột đậu xây bao nhiêu calo?

		
	

		
		
		   
		   
		   
		
		
			Css tùy chỉnh phần tử không hoạt động

		
	

		
		
		   
		   
		   
		
		
			Python trích xuất văn bản giữa hai mẫu

		
	

		
		
		   
		   
		   
		
		
			Cách vẽ biểu đồ trong excel

		
	

		
		
		   
		   
		   
		
		
			Lịch học 2022 đến 2023 Ecuador Sierra

		
	

		
		
		   
		   
		   
		
		
			Chuyển đổi java sang python trực tuyến miễn phí

		
	

		
		
		   
		   
		   
		
		
			Ví dụ tiêm html

		
	

		
		
		   
		   
		   
		
		
			Liên kết Excel với Word

		
	

		
		
		   
		   
		   
		
		
			Làm cách nào để đặt dữ liệu biểu mẫu nhiều phần trong PHP?

		
	

		
		
		   
		   
		   
		
		
			Bạn có thể hiển thị ảnh bằng Python không?

		
	

		
		
		   
		   
		   
		
		
			Bữa tiệc Kỳ nghỉ Xuân Miami 2023

		
	

		
		
		   
		   
		   
		
		
			Có đáng để học bootstrap vào năm 2022 không?

		
	

		
		
		   
		   
		   
		
		
			Cách hiệu quả nhất để học Python là gì?

		
	

		
		
		   
		   
		   
		
		
			Làm thế nào để viết câu hỏi đuôi?

		
	

		
		
		   
		   
		   
		
		
			Bạn có thể quá tải phương thức trong Python không?

		
	

		
		
		   
		   
		   
		
		
			1 cup bột bằng bao nhiêu gr

		
	

		
		
		   
		   
		   
		
		
			Làm cách nào để tạo sự kiện lịch google từ bảng tính google?

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 7 sự tích hồ gươm - ngữ văn lớp 6 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 7 gdcd 6 bài 1 kết nối tri thức 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 7 ý nghĩa của xây dựng gia đình văn hóa 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 6 mẫu hợp đồng mượn đất làm nhà xưởng 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 3 tổng tài biến thái tôi yêu anh tập 27 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 6 kết thực phim mỹ nhân vô lệ 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 9 trong những câu thơ sau câu nào sử dụng thành ngữ 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 8 đề tài và chủ de của tác phẩm tắt đèn 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 5 tiểu sử của thầy thích pháp hòa 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Phương pháp nuôi cấy mô ở động vật là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Hay mộng tinh là bệnh gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Thông báo lỗi khi không nhập thông tin tìm kiếm năm 2024

		
	

		
		
		   
		   
		   
		
		
			Nước ta bắt đầu khai thác dầu mỏ năm nào năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập giảm mỡ bụng cho nam nhanh nhất năm 2024

		
	

		
		
		   
		   
		   
		
		
			Tình cảm của tác giả trong bài thơ là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Thu nhập trung bình của quản lý nhà hàng năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Toplist
		  Là gì
		  Bài Tập
		  Địa Điểm Hay
		  Mẹo Hay
		  Học Tốt
		  Nghĩa của từ
		  Công Nghệ
		  Khỏe Đẹp
		  bao nhiêu
		  Top List
		  Tiếng anh
		  Bao nhiêu
		  Sản phẩm tốt
		  Xây Đựng
		  Ngôn ngữ
		  javascript
		  Ở đâu
		  Đại học
		  Hướng dẫn
		  Bài tập
		  Tại sao
		  Dịch 
		  So Sánh
		  Máy tính
		  Món Ngon
		  mẹo hay
		  Bao lâu
		  Thế nào
		  So sánh
		  Khoa Học
		  Vì sao
		  Lớp 9
		  Lớp 10