Lập chỉ mục có cấu trúc và không có cấu trúc - Lucene và Hbase

Tôi có một bộ tài liệu 200M tôi cần lập chỉ mục. Mỗi tài liệu đều có văn bản miễn phí và bộ thông tin siêu dữ liệu thưa thớt bổ sung (hơn 100 cột).Lập chỉ mục có cấu trúc và không có cấu trúc - Lucene và Hbase

Dường như công cụ thích hợp để lập chỉ mục văn bản tự do là Lucene trong khi công cụ thích hợp cho siêu dữ liệu thưa thớt có cấu trúc là HBase.

Tôi cần truy vấn dữ liệu và kết hợp giữa kết quả tìm kiếm văn bản miễn phí và kết quả dữ liệu có cấu trúc (ví dụ: nhận tất cả các sách có cụm từ "chào buổi sáng" trong văn bản của họ được xuất bản lần đầu vào năm 1980).

Tôi nên xem xét các công cụ/cơ chế nào để tham gia các truy vấn có cấu trúc và chưa được xử lý? Kết quả có thể bao gồm hàng triệu bản ghi (trước và sau khi tham gia)

Cảm ơn Saar

Nguồn

2011-08-01 Saar

Trong khi phương pháp lai có thể tốt hơn , Tôi tin rằng nó có thể cho solr để có thêm 'cột' cho siêu dữ liệu tài liệu, và có thể giúp bạn tiết kiệm đau đầu khi bạn cố gắng để tích hợp truy vấn và hiển thị các kết quả từ hai nguồn. Bạn sẽ phải sửa đổi trình thu thập thông tin của bạn cfg để trình bày tất cả các thông tin được kết hợp và tất nhiên, xóa và reindex. Xin lỗi không có thời gian cụ thể hơn. chúc may mắn. – shellter

Một vài điều tôi suy nghĩ, ngoài việc Lucene trên HBase:

1) Solr/Lucene có thể lưu trữ nhiều lĩnh vực, và mỗi trường có thể có các loại khác nhau. Vì vậy, ví dụ phạm vi ngày của bạn là hoàn toàn hợp lý trong Solr.

2) Nếu bạn đang nói về các tập dữ liệu thực sự rất lớn đòi hỏi phải có một cụm, cũng nhìn vào ElasticSearch: http://www.elasticsearch.org/

3) Lily cố gắng trả lời câu hỏi chính xác của bạn http://www.lilyproject.org/lily/index.html

Nguồn

2011-08-09 21:46:44 David

Hình như HBase muốn một số hành động Lucene cũng như: https://issues.apache.org/jira/browse/HBASE-3529.

Nguồn

2011-08-01 08:37:04 Prescott

từ các nhận xét này có vẻ như đang hoạt động, không được bao gồm trong tiêu chuẩn Hbase atm. – Prescott

Lập chỉ mục có cấu trúc và không có cấu trúc - Lucene và Hbase

Trả lời

Các vấn đề liên quan