Tôi có tập dữ liệu lớn mà tôi muốn nhóm. Kích thước thiết lập chạy thử của tôi là 2.500 đối tượng; khi tôi chạy nó trên 'thỏa thuận thực', tôi sẽ cần phải xử lý ít nhất 20k đối tượng.phân cụm với độ tương tự cosin
Các đối tượng này có sự giống nhau về cosin giữa chúng. Tính tương tự cosin này không đáp ứng các yêu cầu của một số liệu khoảng cách toán học; nó không thỏa mãn sự bất bình đẳng tam giác.
Tôi muốn nhóm chúng theo một số cách "tự nhiên" để đặt các đối tượng tương tự với nhau mà không cần phải xác định trước số cụm mà tôi mong đợi.
Có ai biết thuật toán có thể làm điều đó không? Thực sự, tôi chỉ đang tìm bất kỳ thuật toán nào không yêu cầu a) chỉ số khoảng cách và b) số cụm được chỉ định trước.
Rất cám ơn!
Câu hỏi này đã được hỏi trước đây: Clustering from the cosine similarity values (nhưng giải pháp này chỉ cung cấp K-means clustering), và ở đây: Effective clustering of a similarity matrix (nhưng giải pháp này là khá mơ hồ)
Từ http://en.wikipedia.org/wiki/Cosine_similarity: "Mặc dù thuật ngữ" tương tự cosin "đã được sử dụng cho khoảng cách góc này, thuật ngữ được sử dụng kỳ lạ vì cosin của góc được sử dụng chỉ như một cơ chế thuận lợi để tính góc và không phải là một phần của ý nghĩa.Lợi thế của hệ số tương tự góc là, khi được sử dụng như một hệ số khác biệt (bằng cách trừ nó từ 1) * hàm kết quả là một chỉ số khoảng cách thích hợp *, không phải là trường hợp cho ý nghĩa đầu tiên. " – phs
Cảm ơn! nên đã được cụ thể hơn, tôi đang sử dụng một sự giống nhau giống như cô sin mà tôi đã xác định bản thân mình.Nó không đáp ứng sự bất bình đẳng tam giác. – user1473883