programming html

Phân tích cú pháp html thành văn bản

Cuối tháng rồi mà chưa có đề tài báo cáo, tiện đang làm dự án nho nhỏ về parse html nên dịch từ cái demo trên mạng cho ae nào cần sử dụng

Ở đây vấn đề phân tích cú pháp html không phải là vấn đề khó nhưng ít ai động đến, nhưng đây cũng là 1 ý tưởng 1 ứng dụng của mình đã lên store. Bạn biết đấy không cần làm gì cao siêu mà chỉ cần có những ý tưởng tưởng hơi điên rồ 1 chút là có thể tạo ra ứng dụng ngay. Các bạn cứ tưởng tượng đi nhé còn mình thì hãy vào bài viết hướng dẫn nhé =]]

Như các bạn đã biết, một trang web là tập hợp của các thẻ html được định nghĩa sẵn và webview chỉ hiển thị nội dung. Dưới đây sẽ là hình ảnh đơn giản nhất minh họa cho 1 trang web đơn giản.

Để nhìn rõ hơn các bạn có thể nhìn hình ảnh sau, nó sẽ minh hoạ cho chúng ta về phân cấp các thẻ trong một trang web.

Như trên, khi bạn muốn lấy văn bản nội dung "một số trang web", bạn phải đi từ nút html -> đầu -> tiêu đề, và dòng văn bản đó chính là nội dung của tiêu đề thẻ. Nếu theo xpath bạn sẽ đc. /html/đầu/tiêu đề

Còn khi muốn lấy "đây là đoạn thứ hai" bạn sẽ phải đi theo dòng sau. /html/body/p[class='special']

Có thể hơi khó hình dung chúng ta sẽ phải làm gì tiếp theo nên chúng ta cứ tạo dự án rồi làm theo sẽ hiểu

Đầu tiên chúng ta tạo dự án có tên phân tích cú pháp html

Tiếp theo chúng ta tạo ra 1 mô hình để chứa các thông tin cần lấy. Chúng ta tạo 1 class có tên DataItem kế thừa từ NSObject

#import 

@interface DataItem : NSObject
@property [strong, nonatomic] NSString *name;
@property [strong, nonatomic] NSString *url;
@end

Tiếp tục tạo lớp có tên Contributor

@interface Contributor : NSObject
@property [strong, nonatomic] NSString *name;
@property [strong, nonatomic] NSString *imageUrl;
@end

Việc nữa là bạn sẽ thêm các thư viện trên github với liên kết sau

//github.com/topfunky/hpple

Bạn giải nén và sao chép các tệp sau.

Bạn nhớ tạo 1 thư mục hpple và thả các tệp vừa chọn phía trên vào nhé. Nhớ chọn copy item và target nữa nhé.

Tiếp tục theo chúng ta thêm thư viện libxml2

Giờ chúng ta sẽ lấy html từ liên kết sau. http. //vovgiaothong. vn/luat-giao-thong/9 Trước tiên chúng ta cần phải lấy nguồn của trang web đã về. cái hướng dẫn của reywenderlich nó ko nói rõ cái này nhưng mình sẽ đưa ra hàm lấy source cho các bợn trẻ dễ hiểu.

url=[NSURL URLWithString:[NSString stringWithFormat:@"http://vovgiaothong.vn/luat-giao-thong/9"]];
    data=[NSData dataWithContentsOfURL:url];
    NSString *htmlbody=[[NSString alloc]initWithData:data encoding:NSUTF8StringEncoding];
    NSLog[@"%@",htmlbody];

Tiếp theo chúng ta sẽ sử dụng cái thư viện hpple để phân tích cái dữ liệu, sau đó chúng ta sẽ truy xuất kiểu xpath

NSURL *url=[NSURL URLWithString:link];
    NSData *data=[NSData dataWithContentsOfURL:url];
    NSString *htmlbody=[[NSString alloc]initWithData:data encoding:NSUTF8StringEncoding];
    TFHpple *hppleParser=[TFHpple hppleWithHTMLData:data];
    NSString *query=@"//div[@class='title']/div";

Các bạn lưu ý, truy xuất dứ dưới dạng xpath thì dấu "//" tức là search mọi nơi cho đến khj cuối cây thì thôi. ở trên chuỗi truy vấn của mình, nó sẽ tìm ra các thẻ div có lớp tên là tiêu đề và lấy ra thẻ div phía trong. Có thể các bạn trẻ đã hiểu sơ qua về cách truy xuất trong xpath rồi, nếu chưa hiểu các bạn cứ luyện thêm đi hồi tưởng còn trẻ mình làm đoạn này cũng thắc mắc lắm. Bạn có thể tham khảo thêm phần mã trên reywenderlich sau.

Giờ quay lại trang web mà mình đã đưa lên trên. Chúng ta sẽ lấy tiêu đề và link + ảnh của bài viết. Các bạn tham khảo phần code dưới đây của mình

- [void]getData {
    //1
    NSURL *url=nil;
    NSData *data=nil;
    NSString *titleNews=nil;
    NSString *imgTitle=nil;
    NSString *link=nil;
    NSArray *arrayTitle = nil;
    NSArray *arrayImage = nil;
    NSArray *arrayDesc = nil;
    //    for [int i=10; i


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Đệ quy danh sách đảo ngược python

		
	

		
		
		   
		   
		   
		
		
			Nhập từ bàn phím php

		
	

		
		
		   
		   
		   
		
		
			Khi trình diễn 2023 Lá e

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng geoiptool trong PHP

		
	

		
		
		   
		   
		   
		
		
			Truy vấn dấu vết mysql

		
	

		
		
		   
		   
		   
		
		
			Mysql trong php

		
	

		
		
		   
		   
		   
		
		
			Thay đổi kích thước hình ảnh wordpress

		
	

		
		
		   
		   
		   
		
		
			Làm thế nào để bạn cắt thời gian trong python?

		
	

		
		
		   
		   
		   
		
		
			Thẻ đóng cho php là gì?

		
	

		
		
		   
		   
		   
		
		
			2023 Chevy Colorado redesign

		
	

		
		
		   
		   
		   
		
		
			Một mẫu trăn kiểm tra t một mặt

		
	

		
		
		   
		   
		   
		
		
			Python có thể được sử dụng để tự động hóa excel không?

		
	

		
		
		   
		   
		   
		
		
			Câu nào đúng về các hàm dựng sẵn trong python?

		
	

		
		
		   
		   
		   
		
		
			2024 Honda Accord specs

		
	

		
		
		   
		   
		   
		
		
			Làm cách nào để trả về câu lệnh if trong php?

		
	

		
		
		   
		   
		   
		
		
			HTML xóa khoảng trắng

		
	

		
		
		   
		   
		   
		
		
			Cách nhập một ô trong excel bằng bàn phím

		
	

		
		
		   
		   
		   
		
		
			Cách tìm gcf trong python

		
	

		
		
		   
		   
		   
		
		
			Mamp mysql 8

		
	

		
		
		   
		   
		   
		
		
			Mac cài đặt python3 ở đâu?

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 7 sự tích hồ gươm - ngữ văn lớp 6 2023
			5 tháng trước
		
	



	
	 
		#2
		
			Top 7 gdcd 6 bài 1 kết nối tri thức 2023
			5 tháng trước
		
	



	
	 
		#3
		
			Top 7 ý nghĩa của xây dựng gia đình văn hóa 2023
			5 tháng trước
		
	



	
	 
		#4
		
			Top 6 mẫu hợp đồng mượn đất làm nhà xưởng 2023
			5 tháng trước
		
	



	
	 
		#5
		
			Top 3 tổng tài biến thái tôi yêu anh tập 27 2023
			5 tháng trước
		
	



	
	 
		#6
		
			Top 6 kết thực phim mỹ nhân vô lệ 2023
			5 tháng trước
		
	



	
	 
		#7
		
			Top 9 trong những câu thơ sau câu nào sử dụng thành ngữ 2023
			5 tháng trước
		
	



	
	 
		#8
		
			Top 8 đề tài và chủ de của tác phẩm tắt đèn 2023
			5 tháng trước
		
	



	
	 
		#9
		
			Top 5 tiểu sử của thầy thích pháp hòa 2023
			5 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Có xét ngành nghề khi nhập khẩu hàng hóa năm 2024

		
	

		
		
		   
		   
		   
		
		
			Phần mềm khắc phụ lỗi wifi trên an năm 2024

		
	

		
		
		   
		   
		   
		
		
			Banner cỡ lớn treo ngoài đường tiếng anh là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Top hãng mặt nạ nội địa trung quốc năm 2024

		
	

		
		
		   
		   
		   
		
		
			Học hỏi những điểm tốt tiếng anh là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Cường hóa lên thẳng 15 trong nháy mắt năm 2024

		
	

		
		
		   
		   
		   
		
		
			Phòng khám trung nguyện ở bình đại bến tre năm 2024

		
	

		
		
		   
		   
		   
		
		
			Cải lương chi bảo là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập hỗn hợp kim loại tác dụng với hno3 năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Toplist
		  Là gì
		  Bài Tập
		  Địa Điểm Hay
		  Mẹo Hay
		  Học Tốt
		  Nghĩa của từ
		  Công Nghệ
		  Khỏe Đẹp
		  bao nhiêu
		  Top List
		  Tiếng anh
		  Bao nhiêu
		  Sản phẩm tốt
		  Xây Đựng
		  Ngôn ngữ
		  javascript
		  Ở đâu
		  Đại học
		  Hướng dẫn
		  Bài tập
		  Tại sao
		  Dịch 
		  So Sánh
		  Máy tính
		  Món Ngon
		  mẹo hay
		  Bao lâu
		  Thế nào
		  So sánh
		  Khoa Học
		  Vì sao
		  Lớp 9
		  Lớp 10