Sau khi nhìn xung quanh trang web này cho các vấn đề tương tự, tôi thấy điều này: http://math.nist.gov/javanumerics/jama/ và điều này: http://sujitpal.blogspot.com/2008/09/ir-math-with-java-similarity-measures.htmlCosine tương đồng của Vectors, với <O (n^2) phức tạp
Tuy nhiên, có vẻ như những chạy trong thời gian O (n^2). Tôi đã làm một số cụm tài liệu và nhận thấy mức độ phức tạp này không khả thi khi giao dịch với các bộ tài liệu nhỏ. Do, đối với sản phẩm dấu chấm, chúng tôi chỉ cần các thuật ngữ vectơ chứa trong cả hai vec-tơ thì có thể đặt các vectơ trong cây và do đó tính toán sản phẩm chấm với độ phức tạp n log n, trong đó n là số lượng từ duy nhất thấp nhất trong 1 trong 2 tài liệu.
Tôi có thiếu gì đó không? Có một thư viện java mà thực hiện điều này?
cảm ơn
Bạn sẽ không có nhiều may mắn khi mọi người đọc cả hai trang đó. Có lẽ bạn có thể giải thích vấn đề của bạn rõ ràng hơn - tại sao bạn nhân các vectơ (và ý bạn là gì, O (n^2)? Việc tính toán sản phẩm chấm của hai vectơ n-chiều là tầm thường O (n), tôi rất nghi ngờ gói vectơ có thể làm hỏng nó một cách tồi tệ) –
Anh ta đang tính toán sản phẩm chấm cho mọi cặp * tài liệu. Điều đó làm cho nó phức tạp bậc hai. – Rekin
BlueRaja - Danny Pflughoeft, vấn đề này là nhân các vectơ rất lớn nhưng rất thưa thớt; và n không phải là thứ nguyên nhưng đếm các phần tử khác 0. –