Tôi hiện đang lập chỉ mục trang web bằng cách sử dụng lucene. Mục đích là để có thể nhanh chóng trích xuất trang nào chứa một biểu thức nhất định (thường là 1, 2 hoặc 3 từ) và các từ khác (hoặc nhóm từ 1 đến 3 từ) cũng nằm trong trang. Điều này sẽ được sử dụng để xây dựng/làm phong phú/thay đổi từ điển đồng nghĩa (từ vựng cố định).Sự khác nhau giữa truy vấn cụm từ và sử dụng bộ lọc zona là gì?
Từ các bài viết tôi tìm thấy, có vẻ như vấn đề là tìm kiếm n-grams (hoặc ván lợp).
Lucene có ShingleFilter, ShingleMatrixFilter và ShingleAnalyzerWrapper, có vẻ liên quan đến tác vụ này.
Từ này presentation, tôi đã học được rằng Lucene cũng có thể tìm kiếm các cụm từ được phân cách bằng một số từ cố định (được gọi là slops). Một ví dụ được cung cấp here.
Tuy nhiên, tôi không hiểu rõ sự khác biệt giữa các cách tiếp cận đó? Chúng có khác biệt về cơ bản không, hay đó là lựa chọn về hiệu suất/chỉ số mà bạn phải thực hiện?
Sự khác nhau giữa ShingleMatrixFilter và ShingleFilter là gì?
Hy vọng một guru Lucene sẽ TÌM câu hỏi này và trả lời ;-)!
Cảm ơn cho câu trả lời chi tiết này (chấp nhận). Có thể bình luận về sự khác biệt giữa ShingleFilter và ShingleMatrixFilter? – blackbox
Thực sự giải thích tốt. Bài viết này đã giúp tôi hiểu về bệnh zona bằng một số ví dụ: https://www.elastic.co/blog/searching-with-shingles – krinker