Nhận tác nhân người dùng php
Hôm nay mình sẽ hướng dẫn các bạn cách chặn User Agent(Bot) truy cập website khi sử dụng aaPanel. Dưới đây mình có một trang web sử dụng aaPanel đang bị Bot truy cập với những tấn công vô cùng lớn gây ra quá tải VPS/Server như hình bên dưới Show Thì sau khi mình kiểm tra log website trên aaPanel theo đường dẫn. /www/wwwlog/tên miền. com. log thì thấy website đang có nhiều lượt truy cập từ con Bot có tên coccocbot-web/1. 0 of Coccoc with the log tool outside
Và bây giờ mình sẽ hướng dẫn các bạn ngăn chặn nhanh con Bot này hoặc với các con Bot bạn cũng sử dụng cách tương tự để ngăn chặn, nếu gặp phải trạng thái như trên nhé. Chi tiết cách thực hiện các bạn xem tiếp ở phần bên dưới nhé HƯỚNG DẪN THỰC HIỆNĐể chặn các Bot này, bạn chỉ cần truy cập vào trang quản trị aaPanel, sau đó vào phần Trang web >> Conf >> Config để chỉnh sửa Vhost của trang web cần chặn Bot và thêm cấu trúc bên dưới vào Lưu ý. Trong dấu () bạn điền các Bot cần chặn và ngăn cách nhau bằng dấu. . Bên dưới là cấu trúc ngăn chặn các ứng dụng Bot, nếu bạn cần loại bỏ Bot nào thì chỉ cần xóa đi nhé
Dưới đây là mình họa khi thêm vào cấu trúc vào Vhost Sau khi thêm xong, bạn hãy kiểm tra lại nhật ký truy cập của trang web. Nếu bạn thấy các truy cập từ Bot mình chặn 403, nghĩa là bạn đã chặn Bot đó thành công Và sau khi các Bot đã bị chặn thành công, Máy chủ của mình hiện đã tải ổn định trở lại như hình bên dưới Ở trên là cách ngăn chặn Bot truy cập trang web vô cùng đơn giản trên aaPanel. Hy vọng bài viết sẽ hữu ích với các bạn Nếu bạn sử dụng dịch vụ lưu trữ trang web, chẳng hạn như Wix hoặc Blogger, bạn có thể không cần (hoặc không thể) chỉnh sửa rô-bốt của mình. trực tiếp tệp txt. Thay vào đó, nhà cung cấp của bạn có thể hiển thị trang cài đặt tìm kiếm hoặc một số cơ chế khác để báo cho các công cụ tìm kiếm biết có thu thập dữ liệu trang của bạn hay không Nếu bạn muốn ẩn hoặc bỏ ẩn một trong các trang của mình khỏi công cụ tìm kiếm, hãy tìm kiếm hướng dẫn về cách sửa đổi khả năng hiển thị trang của bạn trong công cụ tìm kiếm trên dịch vụ lưu trữ của bạn, ví dụ: tìm kiếm "wix hide page from search engines" Bạn có thể kiểm soát những tệp mà trình thu thập thông tin có thể truy cập trên trang web của mình bằng tệp rô-bốt. tập tin txt một người máy. txt tồn tại ở thư mục gốc của trang web của bạn. Vì vậy, đối với trang web # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /4, các rô-bốt. txt có giá trị tại # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /5. người máy. txt là một tệp văn bản thuần túy theo sau. một người máy. tệp txt bao gồm một hoặc nhiều quy tắc. Mỗi quy tắc chặn hoặc cho phép tất cả hoặc một trình thu thập thông tin cụ thể truy cập vào một đường dẫn tệp được chỉ định trên miền hoặc miền phụ nơi các rô-bốt. tệp txt được lưu trữ. Trừ khi bạn chỉ định khác trong rô-bốt của mình. txt, tất cả các tệp đều được phép thu thập thông tin hoàn toàn Đây là một robot đơn giản. txt có hai quy tắc User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml Đây là những gì robot. tệp txt có nghĩa là
Xem phần để biết thêm ví dụ Hướng dẫn cơ bản để tạo robot. tập tin txtTạo robot. txt và làm cho nó có thể truy cập được và hữu ích bao gồm bốn bước
Tạo rô-bốt. tập tin txtBạn có thể sử dụng hầu hết mọi trình soạn thảo văn bản để tạo robot. tập tin txt. Ví dụ: Notepad, TextEdit, vi và emacs có thể tạo rô-bốt hợp lệ. tập tin txt. Đừng sử dụng trình xử lý văn bản; . Đảm bảo lưu tệp bằng mã hóa UTF-8 nếu được nhắc trong hộp thoại lưu tệp Định dạng và quy tắc vị trí
Làm thế nào để viết robot. quy tắc txtQuy tắc là hướng dẫn cho trình thu thập thông tin về những phần nào trên trang web của bạn mà chúng có thể thu thập thông tin. Thực hiện theo các nguyên tắc này khi thêm quy tắc vào rô-bốt của bạn. tập tin txt
Trình thu thập dữ liệu của Google hỗ trợ các quy tắc sau trong rô bốt. tập tin txt
Tất cả các quy tắc, ngoại trừ # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /07, hỗ trợ ký tự đại diện 94 cho tiền tố đường dẫn, hậu tố hoặc toàn bộ chuỗiCác dòng không khớp với bất kỳ quy tắc nào trong số này sẽ bị bỏ qua Đọc trang của chúng tôi về cách giải thích của Google về rô-bốt. txt để có mô tả đầy đủ về từng quy tắc Tải lên các robot. tập tin txtKhi bạn đã lưu rô-bốt của mình. txt vào máy tính của bạn, bạn đã sẵn sàng cung cấp tệp này cho trình thu thập thông tin của công cụ tìm kiếm. Không có một công cụ nào có thể giúp bạn điều này, bởi vì cách bạn tải các tệp rô-bốt lên. txt vào trang web của bạn tùy thuộc vào kiến trúc trang web và máy chủ của bạn. Hãy liên lạc với công ty lưu trữ của bạn hoặc tìm kiếm tài liệu về công ty lưu trữ của bạn; Sau khi bạn tải lên các robot. txt, hãy kiểm tra xem nó có thể truy cập công khai hay không và liệu Google có thể phân tích cú pháp tệp đó không robot thử nghiệm. đánh dấu txtĐể kiểm tra xem các rô-bốt mới tải lên của bạn có. txt có thể truy cập công khai, hãy mở cửa sổ duyệt web riêng tư (hoặc tương đương) trong trình duyệt của bạn và điều hướng đến vị trí của rô-bốt. tập tin txt. Ví dụ, Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml3. Nếu bạn thấy nội dung của rô-bốt của mình. txt, bạn đã sẵn sàng kiểm tra đánh dấu Google cung cấp hai tùy chọn để thử nghiệm robot. đánh dấu txt
Gửi rô-bốt. txt lên GoogleSau khi bạn tải lên và kiểm tra rô-bốt của mình. txt, trình thu thập thông tin của Google sẽ tự động tìm và bắt đầu sử dụng rô-bốt của bạn. tập tin txt. Bạn không phải làm bất cứ điều gì. Nếu bạn đã cập nhật rô-bốt của mình. txt và bạn cần làm mới bản sao được lưu trong bộ nhớ cache của Google càng sớm càng tốt, hãy tìm hiểu cách gửi tệp robot đã cập nhật. tập tin txt robot hữu ích. quy tắc txtDưới đây là một số robot hữu ích phổ biến. quy tắc txt Các quy tắc hữu ích Không cho phép thu thập dữ liệu toàn bộ trang webHãy nhớ rằng trong một số trường hợp, URL từ trang web vẫn có thể được lập chỉ mục, ngay cả khi chúng chưa được thu thập thông tin Ghi chú. Điều này không khớp với các trình thu thập dữ liệu AdsBot khác nhau, phải được đặt tên rõ ràng. 9Không cho phép thu thập thông tin thư mục và nội dung của thư mụcThêm dấu gạch chéo lên tên thư mục để không cho phép thu thập thông tin toàn bộ thư mục thận trọng. Hãy nhớ, không sử dụng robot. txt để chặn quyền truy cập vào nội dung riêng tư; . URL không được robot cho phép. txt vẫn có thể được lập chỉ mục mà không bị thu thập thông tin và rô bốt. txt có thể được xem bởi bất kỳ ai, có khả năng tiết lộ vị trí của nội dung riêng tư của bạn.# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /0Cho phép truy cập vào một trình thu thập dữ liệu Chỉ User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml30 mới có thể thu thập dữ liệu toàn bộ trang web User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml3Cho phép truy cập vào tất cả trừ một trình thu thập dữ liệu User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml31 có thể không thu thập dữ liệu trang web, tất cả các bot khác có thể User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml6 Không cho phép thu thập dữ liệu của một trang web Ví dụ: không cho phép trang User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml32 nằm ở User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml33 và User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml34 trong thư mục User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml35 # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /1 Không cho phép thu thập dữ liệu toàn bộ trang web ngoại trừ thư mục con Trình thu thập thông tin chỉ có thể truy cập thư mục con User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml36 # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /3 Chặn một hình ảnh cụ thể khỏi Google Images Ví dụ: không cho phép hình ảnh User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml37 # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /5 Chặn tất cả hình ảnh trên trang web của bạn khỏi Google Images Google không thể lập chỉ mục hình ảnh và video mà không thu thập dữ liệu chúng # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /0 Không cho phép thu thập dữ liệu các tệp của một loại tệp cụ thể Ví dụ: không cho phép thu thập dữ liệu tất cả các tệp User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml38 # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /1 Không cho phép thu thập thông tin toàn bộ trang web, nhưng cho phép User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml39 Việc triển khai này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập dữ liệu web của User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml39 vẫn có thể phân tích chúng để quyết định quảng cáo nào sẽ hiển thị cho khách truy cập trên trang web của bạn |