Nhận tác nhân người dùng php

Hôm nay mình sẽ hướng dẫn các bạn cách chặn User Agent[Bot] truy cập website khi sử dụng aaPanel. Dưới đây mình có một trang web sử dụng aaPanel đang bị Bot truy cập với những tấn công vô cùng lớn gây ra quá tải VPS/Server như hình bên dưới

Thì sau khi mình kiểm tra log website trên aaPanel theo đường dẫn. /www/wwwlog/tên miền. com. log thì thấy website đang có nhiều lượt truy cập từ con Bot có tên coccocbot-web/1. 0 of Coccoc with the log tool outside

103.131.71.180 - - [27/Jun/2022:14:42:56 +0700] "GET /xxx-xxx-xxx-xx-tphcm/ HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; +//help.coccoc.com/searchengine]"
103.131.71.180 - - [27/Jun/2022:14:42:58 +0700] "GET  /xxx-xxx-xxx-xx-tphcm// HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; +//help.coccoc.com/searchengine]"
103.131.71.180 - - [27/Jun/2022:14:43:00 +0700] "GET  /xxx-xxx-xxx-xx-tphcm/ HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; +//help.coccoc.com/searchengine]"
103.131.71.180 - - [27/Jun/2022:14:43:02 +0700] "GET  /xxx-xxx-xxx-xx-tphcm/  HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; +//help.coccoc.com/searchengine]"
103.131.71.180 - - [27/Jun/2022:14:43:04 +0700] "GET /bao-hanh-arirang/ HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; + /xxx-xxx-xxx-xx-tphcm/  HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; +//help.coccoc.com/searchengine]"
40.77.167.56 - - [27/Jun/2022:14:43:08 +0700] "GET /xxx-xxx-xxx-xx-tphcm/  HTTP/2.0" 500 2527 "-" "Mozilla/5.0 [compatible; bingbot/2.0; +//www.bing.com/bingbot.htm]"
103.131.71.180 - - [27/Jun/2022:14:43:08 +0700] "GET  /xxx-xxx-xxx-xx-tphcm/  HTTP/1.1" 500 2539 "-" "Mozilla/5.0 [compatible; coccocbot-web/1.0; +//help.coccoc.com/searchengine]"

Và bây giờ mình sẽ hướng dẫn các bạn ngăn chặn nhanh con Bot này hoặc với các con Bot bạn cũng sử dụng cách tương tự để ngăn chặn, nếu gặp phải trạng thái như trên nhé. Chi tiết cách thực hiện các bạn xem tiếp ở phần bên dưới nhé

HƯỚNG DẪN THỰC HIỆN

Để chặn các Bot này, bạn chỉ cần truy cập vào trang quản trị aaPanel, sau đó vào phần Trang web >> Conf >> Config để chỉnh sửa Vhost của trang web cần chặn Bot và thêm cấu trúc bên dưới vào

Lưu ý. Trong dấu [] bạn điền các Bot cần chặn và ngăn cách nhau bằng dấu. . Bên dưới là cấu trúc ngăn chặn các ứng dụng Bot, nếu bạn cần loại bỏ Bot nào thì chỉ cần xóa đi nhé

    # Block Bot
if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
        return 403;
    }

Dưới đây là mình họa khi thêm vào cấu trúc vào Vhost

Sau khi thêm xong, bạn hãy kiểm tra lại nhật ký truy cập của trang web. Nếu bạn thấy các truy cập từ Bot mình chặn 403, nghĩa là bạn đã chặn Bot đó thành công

Và sau khi các Bot đã bị chặn thành công, Máy chủ của mình hiện đã tải ổn định trở lại như hình bên dưới

Ở trên là cách ngăn chặn Bot truy cập trang web vô cùng đơn giản trên aaPanel. Hy vọng bài viết sẽ hữu ích với các bạn

Nếu bạn sử dụng dịch vụ lưu trữ trang web, chẳng hạn như Wix hoặc Blogger, bạn có thể không cần [hoặc không thể] chỉnh sửa rô-bốt của mình. trực tiếp tệp txt. Thay vào đó, nhà cung cấp của bạn có thể hiển thị trang cài đặt tìm kiếm hoặc một số cơ chế khác để báo cho các công cụ tìm kiếm biết có thu thập dữ liệu trang của bạn hay không

Nếu bạn muốn ẩn hoặc bỏ ẩn một trong các trang của mình khỏi công cụ tìm kiếm, hãy tìm kiếm hướng dẫn về cách sửa đổi khả năng hiển thị trang của bạn trong công cụ tìm kiếm trên dịch vụ lưu trữ của bạn, ví dụ: tìm kiếm "wix hide page from search engines"

Bạn có thể kiểm soát những tệp mà trình thu thập thông tin có thể truy cập trên trang web của mình bằng tệp rô-bốt. tập tin txt

một người máy. txt tồn tại ở thư mục gốc của trang web của bạn. Vì vậy, đối với trang web

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
4, các rô-bốt. txt có giá trị tại
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
5. người máy. txt là một tệp văn bản thuần túy theo sau. một người máy. tệp txt bao gồm một hoặc nhiều quy tắc. Mỗi quy tắc chặn hoặc cho phép tất cả hoặc một trình thu thập thông tin cụ thể truy cập vào một đường dẫn tệp được chỉ định trên miền hoặc miền phụ nơi các rô-bốt. tệp txt được lưu trữ. Trừ khi bạn chỉ định khác trong rô-bốt của mình. txt, tất cả các tệp đều được phép thu thập thông tin hoàn toàn

Đây là một robot đơn giản. txt có hai quy tắc

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml

Đây là những gì robot. tệp txt có nghĩa là

  1. Tác nhân người dùng có tên Googlebot không được phép thu thập dữ liệu bất kỳ URL nào bắt đầu bằng
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
    6
  2. Tất cả các tác nhân người dùng khác được phép thu thập dữ liệu toàn bộ trang web. Điều này có thể đã được bỏ qua và kết quả sẽ giống nhau;
  3. Tệp sơ đồ trang web của trang web được đặt tại
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
    7

Xem phần để biết thêm ví dụ

Hướng dẫn cơ bản để tạo robot. tập tin txt

Tạo robot. txt và làm cho nó có thể truy cập được và hữu ích bao gồm bốn bước

  1. .
  2. .
  3. .
  4. .

Tạo rô-bốt. tập tin txt

Bạn có thể sử dụng hầu hết mọi trình soạn thảo văn bản để tạo robot. tập tin txt. Ví dụ: Notepad, TextEdit, vi và emacs có thể tạo rô-bốt hợp lệ. tập tin txt. Đừng sử dụng trình xử lý văn bản; . Đảm bảo lưu tệp bằng mã hóa UTF-8 nếu được nhắc trong hộp thoại lưu tệp

Định dạng và quy tắc vị trí

  • Tệp phải được đặt tên là robot. txt
  • Trang web của bạn chỉ có thể có một robot. tập tin txt
  • Rô bốt. txt phải được đặt ở thư mục gốc của máy chủ lưu trữ trang web mà nó áp dụng. Ví dụ: để kiểm soát việc thu thập thông tin trên tất cả các URL bên dưới
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
    8, các rô-bốt. txt phải được đặt tại
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
    9. Nó không thể được đặt trong thư mục con [ví dụ: tại
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    0]. Nếu bạn không chắc chắn về cách truy cập vào thư mục gốc trang web của mình hoặc cần có quyền để làm như vậy, hãy liên hệ với nhà cung cấp dịch vụ lưu trữ web của bạn. Nếu bạn không thể truy cập vào thư mục gốc của trang web, hãy sử dụng phương pháp chặn thay thế như thẻ meta
  • một người máy. txt có thể được đăng trên tên miền phụ [ví dụ:
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    1] hoặc trên các cổng không chuẩn [ví dụ:
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    2]
  • một người máy. txt chỉ áp dụng cho các đường dẫn trong giao thức, máy chủ và cổng nơi tệp được đăng. Nghĩa là, các quy tắc trong
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    3 chỉ áp dụng cho các tệp trong
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    4, không áp dụng cho các tên miền phụ như
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    5 hoặc các giao thức thay thế, chẳng hạn như
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    6
  • một người máy. txt phải là tệp văn bản được mã hóa UTF-8 [bao gồm ASCII]. Google có thể bỏ qua các ký tự không thuộc phạm vi UTF-8, có khả năng hiển thị rô-bốt. quy tắc txt không hợp lệ

Làm thế nào để viết robot. quy tắc txt

Quy tắc là hướng dẫn cho trình thu thập thông tin về những phần nào trên trang web của bạn mà chúng có thể thu thập thông tin. Thực hiện theo các nguyên tắc này khi thêm quy tắc vào rô-bốt của bạn. tập tin txt

  • một người máy. txt bao gồm một hoặc nhiều nhóm [bộ quy tắc]
  • Mỗi nhóm bao gồm nhiều quy tắc [còn được gọi là chỉ thị], một quy tắc trên mỗi dòng. Mỗi nhóm bắt đầu bằng một dòng
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    7 xác định mục tiêu của các nhóm
  • Nhóm đưa ra thông tin sau
    • Nhóm áp dụng cho ai [tác nhân người dùng]
    • Những thư mục hoặc tệp mà tác nhân có thể truy cập
    • Những thư mục hoặc tệp mà tác nhân không thể truy cập
  • Trình thu thập dữ liệu xử lý các nhóm từ trên xuống dưới. Tác nhân người dùng chỉ có thể khớp với một bộ quy tắc, là nhóm đầu tiên, cụ thể nhất khớp với một tác nhân người dùng nhất định. Nếu có nhiều nhóm cho cùng một tác nhân người dùng, các nhóm sẽ được kết hợp thành một nhóm duy nhất trước khi xử lý
  • Giả định mặc định là tác nhân người dùng có thể thu thập dữ liệu bất kỳ trang hoặc thư mục nào không bị chặn bởi quy tắc
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    8
  • Các quy tắc phân biệt chữ hoa chữ thường. Chẳng hạn,
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    9 áp dụng cho
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    90, nhưng không áp dụng cho
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    91
  • Ký tự
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    92 đánh dấu phần đầu của một bình luận. Nhận xét bị bỏ qua trong quá trình xử lý

Trình thu thập dữ liệu của Google hỗ trợ các quy tắc sau trong rô bốt. tập tin txt

  •     # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    93 [Bắt buộc, một hoặc nhiều cho mỗi nhóm] Quy tắc chỉ định tên của ứng dụng khách tự động được gọi là trình thu thập thông tin của công cụ tìm kiếm mà quy tắc áp dụng cho. Đây là dòng đầu tiên cho bất kỳ nhóm quy tắc nào. Tên tác nhân người dùng của Google được liệt kê trong danh sách tác nhân người dùng của Google. Sử dụng dấu hoa thị [
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    94] phù hợp với tất cả các trình thu thập thông tin ngoại trừ các trình thu thập thông tin AdsBot khác nhau, phải được đặt tên rõ ràng. Ví dụ.
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
  •     # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    95 [Ít nhất một hoặc nhiều mục nhập
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    8 hoặc
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    97 cho mỗi quy tắc] Một thư mục hoặc trang, liên quan đến miền gốc, mà bạn không muốn tác nhân người dùng thu thập dữ liệu. Nếu quy tắc đề cập đến một trang, thì đó phải là tên đầy đủ của trang như được hiển thị trong trình duyệt. Nó phải bắt đầu bằng ký tự
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    98 và nếu nó đề cập đến một thư mục, nó phải kết thúc bằng dấu
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    98
  • # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
    00 [Ít nhất một hoặc nhiều mục nhập
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    8 hoặc
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    97 cho mỗi quy tắc] Một thư mục hoặc trang, liên quan đến miền gốc, có thể được thu thập thông tin bởi tác nhân người dùng vừa được đề cập. Điều này được sử dụng để ghi đè quy tắc
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml
    8 nhằm cho phép thu thập dữ liệu thư mục con hoặc trang trong thư mục không được phép. Đối với một trang, chỉ định tên trang đầy đủ như được hiển thị trong trình duyệt. Nó phải bắt đầu bằng ký tự
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    98 và nếu nó đề cập đến một thư mục, nó phải kết thúc bằng dấu
        # Block Bot
    if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
            return 403;
        }
    98
  • # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
    User-agent: *
    Disallow: /
    06 [Tùy chọn, không hoặc nhiều hơn cho mỗi tệp] Vị trí của sơ đồ trang web cho trang web này. URL sơ đồ trang web phải là một URL đủ điều kiện; . thay thế không www. Sơ đồ trang web là một cách tốt để chỉ ra nội dung nào Google nên thu thập dữ liệu, trái ngược với nội dung nào nó có thể hoặc không thể thu thập dữ liệu. Tìm hiểu thêm về sơ đồ trang web. Ví dụ.
    Sitemap: //example.com/sitemap.xml
    Sitemap: //www.example.com/sitemap.xml

Tất cả các quy tắc, ngoại trừ

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
07, hỗ trợ ký tự đại diện
    # Block Bot
if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
        return 403;
    }
94 cho tiền tố đường dẫn, hậu tố hoặc toàn bộ chuỗi

Các dòng không khớp với bất kỳ quy tắc nào trong số này sẽ bị bỏ qua

Đọc trang của chúng tôi về cách giải thích của Google về rô-bốt. txt để có mô tả đầy đủ về từng quy tắc

Tải lên các robot. tập tin txt

Khi bạn đã lưu rô-bốt của mình. txt vào máy tính của bạn, bạn đã sẵn sàng cung cấp tệp này cho trình thu thập thông tin của công cụ tìm kiếm. Không có một công cụ nào có thể giúp bạn điều này, bởi vì cách bạn tải các tệp rô-bốt lên. txt vào trang web của bạn tùy thuộc vào kiến ​​trúc trang web và máy chủ của bạn. Hãy liên lạc với công ty lưu trữ của bạn hoặc tìm kiếm tài liệu về công ty lưu trữ của bạn;

Sau khi bạn tải lên các robot. txt, hãy kiểm tra xem nó có thể truy cập công khai hay không và liệu Google có thể phân tích cú pháp tệp đó không

robot thử nghiệm. đánh dấu txt

Để kiểm tra xem các rô-bốt mới tải lên của bạn có. txt có thể truy cập công khai, hãy mở cửa sổ duyệt web riêng tư [hoặc tương đương] trong trình duyệt của bạn và điều hướng đến vị trí của rô-bốt. tập tin txt. Ví dụ,

Sitemap: //example.com/sitemap.xml
Sitemap: //www.example.com/sitemap.xml
3. Nếu bạn thấy nội dung của rô-bốt của mình. txt, bạn đã sẵn sàng kiểm tra đánh dấu

Google cung cấp hai tùy chọn để thử nghiệm robot. đánh dấu txt

  1. Rô bốt. txt trong Search Console. Bạn chỉ có thể sử dụng công cụ này cho robot. txt đã có thể truy cập được trên trang web của bạn
  2. Nếu bạn là nhà phát triển, hãy xem và xây dựng rô-bốt mã nguồn mở của Google. txt, thư viện này cũng được sử dụng trong Google Tìm kiếm. Bạn có thể sử dụng công cụ này để kiểm tra robot. txt cục bộ trên máy tính của bạn

Gửi rô-bốt. txt lên Google

Sau khi bạn tải lên và kiểm tra rô-bốt của mình. txt, trình thu thập thông tin của Google sẽ tự động tìm và bắt đầu sử dụng rô-bốt của bạn. tập tin txt. Bạn không phải làm bất cứ điều gì. Nếu bạn đã cập nhật rô-bốt của mình. txt và bạn cần làm mới bản sao được lưu trong bộ nhớ cache của Google càng sớm càng tốt, hãy tìm hiểu cách gửi tệp robot đã cập nhật. tập tin txt

robot hữu ích. quy tắc txt

Dưới đây là một số robot hữu ích phổ biến. quy tắc txt

Các quy tắc hữu ích Không cho phép thu thập dữ liệu toàn bộ trang web

Hãy nhớ rằng trong một số trường hợp, URL từ trang web vẫn có thể được lập chỉ mục, ngay cả khi chúng chưa được thu thập thông tin

Ghi chú. Điều này không khớp với các trình thu thập dữ liệu AdsBot khác nhau, phải được đặt tên rõ ràng.
    # Block Bot
if [$http_user_agent ~* [MJ12bot/v1.4.8|MJ12bot/v1.4.4|SemrushBot/6~bl|SemrushBot/7~bl|DotBot/1.1|DotBot/1.2|MegaIndex.ru/2.0|AspiegelBot|PetalBot|BLEXBot/1.0|serpstatbot/2.1|bingbot/2.0|coccocbot-web/1.0]] {
        return 403;
    }
9Không cho phép thu thập thông tin thư mục và nội dung của thư mục

Thêm dấu gạch chéo lên tên thư mục để không cho phép thu thập thông tin toàn bộ thư mục

thận trọng. Hãy nhớ, không sử dụng robot. txt để chặn quyền truy cập vào nội dung riêng tư; . URL không được robot cho phép. txt vẫn có thể được lập chỉ mục mà không bị thu thập thông tin và rô bốt. txt có thể được xem bởi bất kỳ ai, có khả năng tiết lộ vị trí của nội dung riêng tư của bạn.
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
0Cho phép truy cập vào một trình thu thập dữ liệu

Chỉ

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
30 mới có thể thu thập dữ liệu toàn bộ trang web

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
3Cho phép truy cập vào tất cả trừ một trình thu thập dữ liệu

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
31 có thể không thu thập dữ liệu trang web, tất cả các bot khác có thể

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
6

Không cho phép thu thập dữ liệu của một trang web

Ví dụ: không cho phép trang

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
32 nằm ở
User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
33 và
User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
34 trong thư mục
User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
35

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
1

Không cho phép thu thập dữ liệu toàn bộ trang web ngoại trừ thư mục con

Trình thu thập thông tin chỉ có thể truy cập thư mục con

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
36

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
3

Chặn một hình ảnh cụ thể khỏi Google Images

Ví dụ: không cho phép hình ảnh

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
37

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
5

Chặn tất cả hình ảnh trên trang web của bạn khỏi Google Images

Google không thể lập chỉ mục hình ảnh và video mà không thu thập dữ liệu chúng

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
0

Không cho phép thu thập dữ liệu các tệp của một loại tệp cụ thể

Ví dụ: không cho phép thu thập dữ liệu tất cả các tệp

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
38

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot [AdsBot crawlers must be named explicitly]
User-agent: *
Disallow: /
1

Không cho phép thu thập thông tin toàn bộ trang web, nhưng cho phép

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
39

Việc triển khai này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập dữ liệu web của

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: //www.example.com/sitemap.xml
39 vẫn có thể phân tích chúng để quyết định quảng cáo nào sẽ hiển thị cho khách truy cập trên trang web của bạn

Chủ Đề