Tôi đang tìm danh sách đầy đủ các User-Agents của BOTS (trình thu thập thông tin, trình thu thập thông tin, chương trình twitter, v.v.).Cách biết Yêu cầu HTTP là BOT
Bạn có biết gì không?
Cảm ơn
Tôi đang tìm danh sách đầy đủ các User-Agents của BOTS (trình thu thập thông tin, trình thu thập thông tin, chương trình twitter, v.v.).Cách biết Yêu cầu HTTP là BOT
Bạn có biết gì không?
Cảm ơn
Ngắn câu chuyện ngắn: bạn không thể, không có viên đạn bạc. Bất kỳ bot nào cũng có thể đặt chuỗi user-agent
thành bất kỳ thứ gì từ 'googlebot' thành 'spamalot'.
Bạn có thể tự mình xem, tất cả những gì bạn cần làm là truy cập trang web đầu tiên Shinnok chỉ và bắt đầu đếm tất cả các chương trình Googlebot/2.X
được liệt kê trong đó. Bạn chặn họ, họ thay đổi tên của bot thành ngẫu nhiên ngữ pháp và vân vân. Cuối cùng, bạn sẽ kết thúc với danh sách 10k bots sẽ giảm thời gian tải của người dùng khi bạn cố gắng xác minh xem họ có phải là bot hay không.
cách Google thực hiện điều đó trong phân tích? – Himberjack
Kiểm tra danh sách này: http://www.botsvsbrowsers.com/category/1/index.html
Nó chứa một tổng số 4768 đại lý người dùng bot.
Cách khác để hoàn thành phát hiện bot là sử dụng cách tiếp cận ngược theo cách danh sách trắng, nghĩa là, kiểm tra xem tác nhân người dùng có phải là bot hay không, sau đó bất kỳ thứ gì khác là bot. :-)
Để biên soạn danh sách toàn diện các đại lý người dùng không sử dụng bot, bạn có thể sử dụng danh sách tại http://www.user-agents.org/ và http://www.botsvsbrowsers.com/.
Một số khác: http://www.useragentstring.com/pages/useragentstring.php – surfealokesea
Điều này có liên quan gì đến lập trình? – sbi
Tôi cần nó để lọc các yêu cầu HTTP – Himberjack
Google có nằm ở nơi bạn sống không? May mắn là nó làm việc cho tôi. Ở đây bạn đi: [http://www.user-agents.org/](http://www.user-agents.org/). –