Khai thác Hiệp hội dường như cho kết quả tốt để truy xuất các điều khoản có liên quan trong văn bản corpora. Có một số công trình về chủ đề này bao gồm phương pháp nổi tiếng LSA. Cách đơn giản nhất để khai thác các hiệp hội là xây dựng ma trận đồng xuất hiện của docs X terms
và tìm các thuật ngữ xảy ra trong cùng một tài liệu thường xuyên nhất. Trong các dự án trước đây của tôi, tôi đã thực hiện nó trực tiếp trong Lucene bằng cách lặp qua TermDocs (tôi nhận nó bằng cách gọi IndexReader.termDocs(Term)). Nhưng tôi không thể thấy bất cứ điều gì tương tự trong Solr.Cách dễ nhất để triển khai khai thác cụm từ liên kết trong Solr là gì?
Vì vậy, nhu cầu của tôi là:
- Để lấy thuật ngữ liên quan nhất trong lĩnh vực cụ thể.
- Để truy xuất cụm từ , gần nhất với cụm từ được chỉ định trong trường cụ thể.
tôi sẽ tỷ lệ trả lời theo cách sau:
- Lý tưởng nhất là tôi muốn tìm phần Solr rằng trực tiếp bao gồm nhu cầu nhất định, có nghĩa là, một cái gì đó để có được các điều khoản liên quan trực tiếp.
- Nếu điều này là không thể, tôi đang tìm cách để có được thông tin ma trận đồng xảy ra cho trường được chỉ định.
- Nếu đây không phải là một lựa chọn quá, tôi muốn biết cách đơn giản nhất để 1) nhận được tất cả các điều khoản và 2) nhận được id (số) của văn bản các điều khoản xảy ra trong.
Tôi googled chủ đề và tôi đang chờ đợi câu trả lời bản thân mình. BTW, khả năng phân cụm của Solr được mô tả "như một cách để nhóm các kết quả/tài liệu liên quan đến ngữ nghĩa". Không đủ gần đúng không? – aitchnyu
Clustering có một chút khác biệt. Trước hết, nó làm việc với các tài liệu, không phải thuật ngữ, vì vậy bạn không thể cụm từ (ít nhất tôi không thể thấy bất kỳ ý nghĩa về cụm từ và không biết cách dễ dàng để làm điều đó với Solr). Mặc dù nó có vẻ như điều ngược lại là có thể: bạn có thể sử dụng khai thác liên kết trên các điều khoản để thực hiện phân cụm trên các tài liệu. – ffriend