Chúng tôi có thể yêu cầu các bot thu thập thông tin hoặc không thu thập dữ liệu trang web của chúng tôi trong robots.txt. Mặt khác, chúng tôi có thể kiểm soát tốc độ thu thập thông tin trong Google Webmasters (số lượng bot của Google thu thập dữ liệu trang web). Tôi tự hỏi liệu có thể giới hạn hoạt động của trình thu thập thông tin theo robots.txtCó thể kiểm soát tốc độ thu thập dữ liệu bằng robots.txt không?
Tôi có nghĩa là chấp nhận rô bốt để thu thập dữ liệu trang nhưng giới hạn sự hiện diện của chúng theo thời gian hoặc trang hoặc kích thước!
Tôi nghe nói cuối cùng, Googlebot bỏ qua Thu thập thông tin chậm trễ, vì vậy điều này thực sự không giúp ích gì cho Google. Sẽ cho một vài chương trình khác, mặc dù. Nếu không có thông tin về chương trình nào nó hoạt động, câu trả lời này khá không đầy đủ. – derobert
Tìm hiểu thêm về 'Thu thập thông tin-Delay' xem câu hỏi SO này: http://stackoverflow.com/questions/17377835/robots-txt-what-is-the-proper-format-for-a-crawl-delay-for-multiple -user-agent –
Độ trễ thu thập dữ liệu không phải là một phần của tiêu chuẩn, nhưng một số bot tôn trọng nó: https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026