Facebook có thực hiện một số trình thu thập dữ liệu web không? Trang web của tôi đã bị lỗi vài lần trong vài ngày qua, bị quá tải nghiêm trọng bởi các IP mà tôi đã truy tìm lại trên Facebook.Facebook Crawler Bot Crashing Site
Tôi đã thử tìm kiếm xung quanh nhưng không thể tìm thấy bất kỳ tài nguyên dứt khoát nào liên quan đến việc kiểm soát bot trình thu thập thông tin của Facebook thông qua robots.txt. Có một tài liệu tham khảo về việc bổ sung như sau:
User-agent: facebookexternalhit/1.1 Crawl-delay: 5
User-agent: facebookexternalhit/1.0 Crawl-delay: 5
User-agent : facebookexternalhit/* Thu thập thông tin chậm trễ: 5
Nhưng tôi không thể tìm thấy bất kỳ tham chiếu cụ thể nào về việc bot Facebook tôn trọng robots.txt hay không. Theo các nguồn tin cũ hơn, Facebook "không thu thập thông tin trang web của bạn". Nhưng điều này chắc chắn là sai, vì nhật ký máy chủ của tôi cho thấy họ thu thập dữ liệu trang web của tôi từ một tá + IP từ phạm vi 69.171.237.0/24 và 69.171.229.115/24 với tốc độ nhiều trang mỗi giây.
Và tôi không thể tìm thấy bất kỳ tài liệu nào về điều này. Tôi nghi ngờ nó là một cái gì đó mới mà FB chỉ thực hiện trong vài ngày qua, do máy chủ của tôi không bao giờ bị rơi trước đó.
Ai đó có thể xin lời khuyên?
Có, một cái gì đó gần đây đã thay đổi khi nó bắt đầu đâm chúng tôi lần đầu tiên trong 8 năm chúng tôi đã được xung quanh. Giả sử họ đang "cập nhật opengraph của họ". Tuy nhiên, nhìn vào các trang của chúng tôi nó đang yêu cầu (rất ít trang tối nghĩa), tôi tự hỏi nếu một bot hợp pháp đang thực hiện javascript, và kéo vào các nút tương tự, kích hoạt một bản cập nhật FB OpenGraph. Đó chỉ là một linh cảm ... – Stickley
Câu hỏi liên quan: http://stackoverflow.com/questions/11521798/excessive-traffic-from-facebookexternalhit-bot?lq=1 và http://stackoverflow.com/questions/7716531/ facebook-and-crawl-delay-in-robots-txt? lq = 1 – Stickley
Cảm ơn lời đề nghị và tài liệu tham khảo của bạn, Hank. Trong một biến cố của sự kiện, trang web của tôi đã bị choáng ngợp với hàng tá truy cập mỗi giây, trong một vài giờ vào ngày 8 và 9 tháng 11. Nhưng lần này - không phải Facebook, mà là Amazon. Nó đột nhiên bắt đầu xáo trộn một lượng lớn các liên kết trong trang web, nhưng dường như không có bất kỳ mô hình rõ ràng nào - một số trang được truy cập là những trang tối nghĩa/cũ, trong khi một số trang mới nhất. Tự hỏi liệu họ có đang làm mới cơ sở dữ liệu công cụ tìm kiếm của riêng mình hay không. – Andy