Sau khi việc sử dụng CPU của tôi đột nhiên vượt quá 400% do các bot làm xáo trộn trang web của tôi, tôi đã tạo robots.txt như sau và đặt tệp vào thư mục gốc, ví dụ: "www.example .com/":BingBot & BaiduSpider không tôn trọng robots.txt
User-agent: *
Disallow:/
Bây giờ Google tôn trọng tệp này và không có sự xuất hiện nào khác trong tệp nhật ký của tôi của Google. Tuy nhiên, BingBot & BaiduSpider vẫn hiển thị trong nhật ký của tôi (và rất nhiều).
Vì tôi đã tăng mức sử dụng CPU này rất lớn và tôi đã xóa tất cả các trang của mình qua địa chỉ IP bằng .htaccess & rồi tạo tệp robots.txt đó.
Tôi đã tìm kiếm ở khắp mọi nơi để xác nhận rằng tôi đã thực hiện đúng các bước (chưa thử tùy chọn "ReWrite" trong .htaccess).
Có ai có thể xác nhận rằng những gì tôi đã làm nên thực hiện công việc không? (Kể từ khi tôi bắt đầu liên doanh này, việc sử dụng CPU của tôi đã giảm xuống còn 120% trong vòng 6 ngày, nhưng ít nhất việc chặn các địa chỉ IP nên đã giảm mức sử dụng CPU xuống 5-10% thông thường của tôi).
buồn bã, robots.txt là một "thỏa thuận quý ông", nếu bạn có quyền truy cập vào một bức tường lửa sau đó bạn có thể chặn họ hoàn toàn, những người khác có cùng một vấn đề bạn có: http://www.webmasterworld.com/search_engine_spiders/4348357.htm (địa chỉ ip để cấm trong liên kết này) –
Xin chào Harald, cảm ơn vì liên kết. Chặn chúng hoàn toàn qua địa chỉ ip. Đoán đó là lý do tại sao họ không đọc robots.txt và thẻ meta của tôi (tôi đã thay đổi). Cpu sử dụng xuống đến 51%, vì vậy bây giờ tôi để cho một vài địa chỉ ip thông qua để họ có thể đọc các quy tắc robots.txt & quy tắc thẻ meta và sẽ thấy nó như thế nào đi. Cảm ơn một lần nữa, Richard – Richard