Xóa ngay các thẻ HTML khỏi một chuỗi nội dung với công cụ trực tuyến này. Nhập tất cả mã cho một trang web hoặc chỉ là một phần của trang web và công cụ này sẽ tự động xóa tất cả các phần tử HTML chỉ để lại nội dung văn bản bạn muốn.
Công cụ dựa trên JavaScript này cũng sẽ trích xuất văn bản cho phần tử nút HTML và tiêu đề metatag cùng với nội dung văn bản thông thường.
Nếu bạn cần xóa các thẻ HTML thì hãy cho nó một vòng xoáy - nó hoạt động khá tốt trong việc loại bỏ các yếu tố HTML không mong muốn đó.
Cách xóa thẻ HTML khỏi văn bản
Đây chỉ là một chút ghi chú kỹ thuật về việc loại bỏ các phần tử HTML bằng mã JavaScript, vì vậy nếu bạn không tham gia các chi tiết kỹ thuật thì chỉ cần bỏ qua phần này và sử dụng công cụ Stripper HTML ở trên.
Nói chung, tốt hơn là sử dụng một cách tiếp cận tận dụng DOM một cách duyên dáng để tìm và xóa nội dung HTML qua một cách tiếp cận chỉ sử dụng các biểu thức thông thường để tìm và xóa thẻ HTML.
Bởi vì bạn sẽ gặp HTML bị dị tật, phương pháp Regex có thể thất bại theo những cách ngoạn mục nên ở đây tôi đã cố gắng tận dụng thuộc tính JavaScript InsideText để hoàn thành công việc theo cách đáng tin cậy hơn.
Vấn đề với việc sử dụng bên trong
Sử dụng thuộc tính bên trong JAAVScript để xóa các thẻ HTML không may không hoạt động chính xác như thế nào tôi muốn nó quá nên tôi phải làm ngọt thỏa thuận với một số biểu thức thông thường để có được đầu ra văn bản mà tôi muốn.
Đối với tôi, vấn đề lớn, với việc sử dụng InternalText để xóa các thẻ HTML là nó sẽ xóa các thẻ tập lệnh nhưng để lại nội dung ở giữa thẻ tập lệnh mở và đóng trong nội dung văn bản của bạn. Nó cũng đã làm tương tự cho các thẻ kiểu trong những trường hợp mà bạn có thể gặp một số quy tắc về kiểu trang.
Mặc dù tùy chọn, tôi cũng đã thêm một regex để làm cho đầu ra dễ đọc hơn bằng cách loại bỏ các lần phá vỡ nhiều dòng dư thừa. Nó chỉ làm cho định dạng đầu ra dễ đọc hơn một chút.
Dù sao, nếu không ai trong số này là bộ ngắt thỏa thuận cho bạn thì tôi sẽ chỉ nói sử dụng thuộc tính InnerText để xóa các thẻ HTML khỏi nội dung web của bạn. Nếu không, bạn sẽ cần sử dụng một số regex để xóa các thẻ HTML.
Các công cụ phổ biến nhất
Các công cụ mới nhất theo danh mục
Công cụ sửa lỗi văn bản
Công cụ mã hóa HTML
Công cụ Word & Ngôn ngữ
Công cụ cuộc sống ngẫu nhiên
Tôi đã thay đổi câu trả lời của JibberBoy2000 để bao gồm một số định dạng thẻ
, xóa mọi thứ bên trong các thẻ và
, định dạng HTML kết quả bằng cách loại bỏ nhiều lỗi và khoảng trắng và chuyển đổi một số mã được mã hóa HTML thành bình thường. Sau một số thử nghiệm, có vẻ như bạn có thể chuyển đổi hầu hết các trang web đầy đủ thành văn bản đơn giản nơi giữ lại tiêu đề và nội dung trang.
Trong ví dụ đơn giản,
This is my title
body {margin-top: 15px;}
a { color: #D80C1F; font-weight:bold; text-decoration:none; }
This string has html code i want to remove
In this line BBC with link is mentioned.
Now back to "normal text" and stuff using <html encoding>
trở thành
Đây là tiêu đề của tôi
Chuỗi này có mã html tôi muốn xóa
Trong dòng này BBC [//www.bbc.co.uk] với liên kết được đề cập.
Bây giờ trở lại "văn bản bình thường" và các công cụ sử dụng
Chức năng JavaScript và trang kiểm tra xem xét điều này:
function convertHtmlToText[] {
var inputText = document.getElementById["input"].value;
var returnText = "" + inputText;
//-- remove BR tags and replace them with line break
returnText=returnText.replace[/
/gi, "\n"];
returnText=returnText.replace[//gi, "\n"];
returnText=returnText.replace[//gi, "\n"];
//-- remove P and A tags but preserve what's inside of them
returnText=returnText.replace[//gi, "\n"];
returnText=returnText.replace[/[.*?]/gi, " $2 [$1]"];
//-- remove all inside SCRIPT and STYLE tags
returnText=returnText.replace[/[\w\W]{1,}[.*?][\w\W]{1,}/gi, ""];
returnText=returnText.replace[/[\w\W]{1,}[.*?][\w\W]{1,}/gi, ""];
//-- remove all else
returnText=returnText.replace[//g, ""];
//-- get rid of more than 2 multiple line breaks:
returnText=returnText.replace[/[?:[?:\r\n|\r|\n]\s*]{2,}/gim, "\n\n"];
//-- get rid of more than 2 spaces:
returnText = returnText.replace[/ +[?= ]/g,''];
//-- get rid of html-encoded characters:
returnText=returnText.replace[/ /gi," "];
returnText=returnText.replace[/&/gi,"&"];
returnText=returnText.replace[/"/gi,'"'];
returnText=returnText.replace[/</gi,''];
//-- return
document.getElementById["output"].value = returnText;
}
Nó đã được sử dụng với HTML này:
CONVERT