Tôi có một bộ tài liệu 200M tôi cần lập chỉ mục. Mỗi tài liệu đều có văn bản miễn phí và bộ thông tin siêu dữ liệu thưa thớt bổ sung (hơn 100 cột).Lập chỉ mục có cấu trúc và không có cấu trúc - Lucene và Hbase
Dường như công cụ thích hợp để lập chỉ mục văn bản tự do là Lucene trong khi công cụ thích hợp cho siêu dữ liệu thưa thớt có cấu trúc là HBase.
Tôi cần truy vấn dữ liệu và kết hợp giữa kết quả tìm kiếm văn bản miễn phí và kết quả dữ liệu có cấu trúc (ví dụ: nhận tất cả các sách có cụm từ "chào buổi sáng" trong văn bản của họ được xuất bản lần đầu vào năm 1980).
Tôi nên xem xét các công cụ/cơ chế nào để tham gia các truy vấn có cấu trúc và chưa được xử lý? Kết quả có thể bao gồm hàng triệu bản ghi (trước và sau khi tham gia)
Cảm ơn Saar
Trong khi phương pháp lai có thể tốt hơn , Tôi tin rằng nó có thể cho solr để có thêm 'cột' cho siêu dữ liệu tài liệu, và có thể giúp bạn tiết kiệm đau đầu khi bạn cố gắng để tích hợp truy vấn và hiển thị các kết quả từ hai nguồn. Bạn sẽ phải sửa đổi trình thu thập thông tin của bạn cfg để trình bày tất cả các thông tin được kết hợp và tất nhiên, xóa và reindex. Xin lỗi không có thời gian cụ thể hơn. chúc may mắn. – shellter