Sử dụng TermDocs
để nhận tần suất cụm từ cho một tài liệu nhất định. Giống như tần suất tài liệu, bạn nhận được các tài liệu có kỳ hạn từ một số IndexReader
, sử dụng thuật ngữ quan tâm.
Bạn sẽ không tìm thấy phương thức nhanh hơn TermDocs
mà không mất đi một số tính tổng quát. TermDocs
đọc trực tiếp từ tệp ".frq" trong phân đoạn chỉ mục, trong đó mỗi tần suất cụm từ được liệt kê theo thứ tự tài liệu.
Nếu đó là "quá chậm", hãy đảm bảo rằng bạn đã tối ưu hóa chỉ mục của mình để hợp nhất nhiều phân đoạn thành một phân đoạn. Lặp lại các tài liệu theo thứ tự (bỏ qua là không sao, nhưng bạn không thể nhảy qua lại trong danh sách tài liệu một cách hiệu quả).
Bước tiếp theo của bạn có thể là xử lý bổ sung để tạo cấu trúc tệp đặc biệt hơn nữa rời khỏi SkipData
. Cá nhân tôi sẽ tìm kiếm một thuật toán tốt hơn để đạt được mục tiêu của tôi, hoặc cung cấp phần cứng tốt hơn — nhiều bộ nhớ, hoặc để giữ một RAMDirectory
, hoặc để cung cấp cho hệ điều hành để sử dụng trên hệ thống lưu trữ tệp của riêng nó.
cách tiếp cận này có thể được sử dụng để xác định tần suất cụm từ là tập hợp kết quả của truy vấn Lucene không? –
là nó có thể sử dụng termDocs để có được PhraseFrequency? – Dany