Làm cách nào để ngăn trình thu thập dữ liệu thu thập dữ liệu URL?

Trong tối ưu hóa công cụ tìm kiếm, mục tiêu điển hình là có càng nhiều trang trong trang web của bạn được lập chỉ mục và thu thập thông tin bởi các công cụ tìm kiếm như Google

Quan niệm sai lầm phổ biến là làm như vậy có thể dẫn đến xếp hạng SEO tốt hơn. Tuy nhiên, điều đó có thể không phải lúc nào cũng đúng. Thông thường, cần phải cố tình ngăn các công cụ tìm kiếm lập chỉ mục một số trang nhất định từ trang web của bạn để tăng cường SEO. Một nghiên cứu cho thấy lưu lượng tìm kiếm không phải trả tiền tăng 22% sau khi xóa các trang web trùng lặp, trong khi Moz báo cáo 13. Tăng 7% lưu lượng tìm kiếm không phải trả tiền sau khi xóa các trang có giá trị thấp

Các trang web không cần lập chỉ mục

Như đã đề cập, không phải tất cả các trang trong trang web của bạn đều cần được lập chỉ mục bởi các công cụ tìm kiếm. Thông thường, những điều này bao gồm, nhưng không giới hạn, những điều sau đây

  • Trang đích cho quảng cáo
  • trang cảm ơn
  • Trang riêng tư và chính sách
  • trang quản trị
  • Trang trùng lặp [e. g. , nội dung tương tự được đăng trên nhiều trang web thuộc sở hữu của một công ty]
  • Các trang có giá trị thấp [e. g. , nội dung lỗi thời từ nhiều năm trước, nhưng nội dung nào đó đủ giá trị để không bị xóa khỏi trang web của bạn]

Trước khi hủy lập chỉ mục, điều quan trọng là phải tiến hành kiểm tra nội dung kỹ lưỡng trên trang web của bạn để bạn có cách tiếp cận có hệ thống trong việc xác định trang nào cần bao gồm và loại trừ

Cách ngăn Google lập chỉ mục một số trang web

Có bốn cách để hủy lập chỉ mục các trang web khỏi công cụ tìm kiếm. thẻ meta “noindex”, X-Robots-Tag, robot. txt và thông qua Công cụ quản trị trang web của Google

1. Sử dụng thẻ meta “noindex”

Công cụ hiệu quả nhất và dễ dàng nhất để ngăn Google lập chỉ mục các trang web nhất định là thẻ meta “noindex”. Về cơ bản, đó là một lệnh yêu cầu trình thu thập thông tin của công cụ tìm kiếm không lập chỉ mục trang web và do đó không được hiển thị trong kết quả của công cụ tìm kiếm

Cách thêm thẻ meta “noindex”

All you need to do is to insert the following tag in the section of a page’s HTML markup:

Tùy thuộc vào hệ thống quản lý nội dung [CMS] của bạn, việc chèn thẻ meta này sẽ khá dễ dàng. Đối với các CMS như WordPress không cho phép người dùng truy cập mã nguồn, hãy sử dụng plugin như Yoast SEO. Một điều cần lưu ý ở đây là bạn cần làm điều này với mọi trang mà bạn muốn hủy lập chỉ mục.

Ngoài ra, nếu bạn muốn các công cụ tìm kiếm hủy lập chỉ mục trang web của bạn và không theo các liên kết trên trang đó [chẳng hạn như trong trường hợp các trang cảm ơn mà bạn không muốn các công cụ tìm kiếm lập chỉ mục liên kết đến phiếu mua hàng của bạn], hãy sử dụng

2. Sử dụng tiêu đề HTTP X-Robots-Tag

Ngoài ra, bạn có thể sử dụng Thẻ X-Robots mà bạn thêm vào tiêu đề phản hồi HTTP của một URL nhất định. Về cơ bản, nó có tác dụng tương tự như thẻ “noindex”, nhưng có thêm các tùy chọn để chỉ định điều kiện cho các công cụ tìm kiếm khác nhau. Để biết thêm thông tin, vui lòng xem hướng dẫn của Google tại đây

Cách thêm Thẻ X-Robots

Tùy thuộc vào trình duyệt web bạn sử dụng, có thể khá khó để tìm và chỉnh sửa tiêu đề phản hồi HTTP. Đối với Google Chrome, bạn có thể sử dụng các công cụ dành cho nhà phát triển như ModHeader hoặc Modify Header Value. Dưới đây là ví dụ về X-Robots-Tag cho các chức năng cụ thể

  • Để bỏ chỉ mục một trang web

X-Robot-Tag. ngăn lập chỉ mục

  • Để đặt các quy tắc hủy lập chỉ mục khác nhau cho các công cụ tìm kiếm khác nhau

X-Robot-Tag. googlebot. Không theo

X-Robot-Tag. bot khác. không lập chỉ mục, không theo dõi

3. Sử dụng robot. tập tin txt

một người máy. txt chủ yếu được sử dụng để quản lý lưu lượng truy cập của trình thu thập thông tin của công cụ tìm kiếm làm quá tải trang web của bạn với các yêu cầu. Tuy nhiên, cần lưu ý rằng loại tệp này không nhằm mục đích ẩn các trang web khỏi Google;

Cách sử dụng robot. txt để ẩn các tệp phương tiện khỏi Google

Sử dụng robot. txt khá kỹ thuật. Về cơ bản, bạn cần sử dụng trình soạn thảo văn bản để tạo tệp văn bản ASCII hoặc UTF-8 tiêu chuẩn, sau đó thêm tệp đó vào thư mục gốc của trang web của bạn. Để tìm hiểu thêm về cách tạo robot. txt, hãy xem hướng dẫn của Google tại đây. Google cũng đã tạo các hướng dẫn riêng để ẩn một số tệp phương tiện nhất định xuất hiện trong kết quả tìm kiếm

  • Ẩn hình ảnh bằng robot. tập tin txt
4. Sử dụng Công cụ quản trị trang web của Google

Bạn cũng có thể chọn tạm thời chặn các trang khỏi kết quả tìm kiếm của Google bằng Công cụ Xóa URL của Google Webmaster. Xin lưu ý rằng điều này chỉ áp dụng cho Google; . Cũng cần lưu ý rằng việc xóa này chỉ là tạm thời. Để xóa vĩnh viễn các trang web khỏi kết quả của công cụ tìm kiếm, hãy xem

Cách sử dụng công cụ Google Remove URL để loại trừ tạm thời các trang

Thủ tục khá dễ dàng. Mở Công cụ xóa URL và chọn một sản phẩm trong Search Console mà bạn sở hữu. Chọn Ẩn tạm thời và nhập URL trang. Sau đó, chọn   Xóa URL khỏi bộ nhớ cache và tạm thời xóa khỏi Tìm kiếm . Thao tác này sẽ ẩn trang khỏi kết quả tìm kiếm của Google trong 90 ngày và cũng xóa bản sao đã lưu trong bộ nhớ cache của trang và các đoạn trích khỏi chỉ mục của Google. Để biết thêm thông tin, hãy xem Hướng dẫn của Google tại đây.

gói nó lên

Có thể mất thời gian để Google nhận được yêu cầu hủy lập chỉ mục của bạn. Thường mất vài tuần để thay đổi bắt đầu. Nếu bạn nhận thấy rằng trang của mình vẫn xuất hiện trong kết quả tìm kiếm của Google, thì rất có thể là do Google chưa thu thập dữ liệu trang web của bạn kể từ khi bạn yêu cầu. Bạn có thể yêu cầu Google thu thập lại dữ liệu trang của mình bằng công cụ Tìm nạp như Google

Nếu bạn muốn biết thêm hoặc nếu bạn cần trợ giúp về bất kỳ nhu cầu SEO nào của mình, Ilfusion có chuyên môn và kinh nghiệm để giúp bạn một tay. Hãy gọi cho chúng tôi theo số 888-420-5115 hoặc gửi email cho chúng tôi tới

Bạn có thể ngăn bot thu thập dữ liệu trang web không?

Họ có thể làm điều này bằng cách sử dụng rô-bốt. txt để chặn các bot phổ biến mà các chuyên gia SEO sử dụng để đánh giá sự cạnh tranh của họ . Ví dụ Semrush và Ahrefs. Điều này sẽ chặn AhrefsBot thu thập dữ liệu toàn bộ trang web của bạn.

Tại sao bot thu thập dữ liệu trang web của tôi?

Nếu nhiều nội dung mới được thêm vào trang web của bạn, bot của công cụ tìm kiếm có thể thu thập dữ liệu trang web của bạn mạnh hơn để lập chỉ mục nội dung mới . Có thể đã xảy ra sự cố với trang web của bạn và các bot có thể đang kích hoạt lỗi này, gây ra hoạt động sử dụng nhiều tài nguyên, chẳng hạn như vòng lặp vô hạn.

Chủ Đề