Tôi đang lên kế hoạch sử dụng tính năng vẽ web trong ứng dụng tôi hiện đang làm việc. Tôi đã làm một số nghiên cứu về Nutch và chạy một số thử nghiệm sơ bộ bằng cách sử dụng nó. Nhưng sau đó tôi đã gặp rắc rối. Nhưng khi tôi đã làm một số nghiên cứu sơ bộ và đã đi qua các tài liệu về scrapy tôi thấy rằng nó có thể nắm bắt chỉ cấu trúc dữ liệu (Bạn phải cung cấp cho tên div mà từ đó bạn muốn nắm bắt dữ liệu). Các phụ trợ của ứng dụng tôi đang phát triển dựa trên Python và tôi hiểu được sự cố là dựa trên Python và một số đã gợi ý rằng mẩu tin lưu niệm là tốt hơn so với Nutch.Scrapy Nutch
Yêu cầu của tôi là thu thập dữ liệu từ hơn 1000 trang web khác nhau và chạy tìm kiếm các từ khóa có liên quan trong thông tin đó. Có cách nào có thể đáp ứng được yêu cầu tương tự.
1) Nếu có, bạn có thể chỉ ra một số ví dụ về cách nó có thể được thực hiện?
2) Hoặc Nutch + Solr là phù hợp nhất với yêu cầu của tôi
tên div không phải là một yêu cầu cho Scrapy, bạn có thể nắm bắt bất cứ điều gì bạn muốn. –