Không có câu trả lời khó và nhanh vì câu trả lời ở đây phụ thuộc rất nhiều vào miền nhập và vấn đề của bạn. Rất nhiều công việc học máy là nghệ thuật (không khoa học) chuẩn bị đầu vào của bạn, vì lý do này. Tôi có thể cung cấp cho bạn một số ý tưởng chung để suy nghĩ. Bạn có hai vấn đề: tạo ra những điểm giống nhau có ý nghĩa trong từng mục này và sau đó kết hợp chúng.
Tính tương đồng của thành phố có vẻ hợp lý nhưng thực sự phụ thuộc vào miền của bạn. Có thật là trường hợp ở cùng một thành phố có nghĩa là mọi thứ, và ở các thành phố lân cận có nghĩa là gì không? Ví dụ như ở các thành phố có kích thước tương tự được tính cho bất cứ điều gì? Trong cùng một tiểu bang? Nếu họ làm tương tự của bạn nên phản ánh điều đó.
Giáo dục: Tôi hiểu lý do tại sao bạn có thể sử dụng sự giống nhau về cosin nhưng điều đó sẽ không giải quyết được vấn đề thực sự ở đây, đó là xử lý các mã thông báo khác nhau có cùng ý nghĩa. Bạn cần "eng" và "kỹ thuật" để khớp, và "ba" và "cử nhân", những thứ như thế. Một khi bạn chuẩn bị các thẻ như vậy nó có thể cho kết quả tốt.
Quan tâm: Tôi không nghĩ rằng cosin sẽ là sự lựa chọn tốt nhất ở đây, hãy thử một sự tương đồng về hệ số tanimoto đơn giản (chỉ kích thước giao lộ với quy mô công đoàn).
Bạn không thể chỉ tổng hợp chúng, vì tôi cho rằng bạn vẫn muốn có giá trị trong phạm vi [0,1]. Bạn có thể trung bình họ. Điều đó làm cho giả định rằng đầu ra của mỗi cái này có thể so sánh trực tiếp, rằng chúng là cùng một "đơn vị" nếu bạn muốn. Họ không có ở đây; ví dụ như không phải là xác suất.
Nó có thể vẫn hoạt động OK trong thực tế để trung bình chúng, có lẽ với trọng số. Ví dụ, trong cùng một thành phố ở đây cũng quan trọng như có chính xác cùng sở thích. Điều đó có đúng hay ít quan trọng hơn?
Bạn có thể thử và thử nghiệm các biến thể và trọng số khác nhau với hy vọng bạn có một số lược đồ để thử nghiệm dựa trên dữ liệu lịch sử. Tôi sẽ chỉ cho bạn tại dự án của chúng tôi, Mahout, vì nó có một khuôn khổ hoàn chỉnh cho người giới thiệu và đánh giá.
Tuy nhiên, tất cả các loại giải pháp này đều là hacky và heuristic. Tôi nghĩ bạn có thể muốn thực hiện một cách tiếp cận chính thức hơn để có tính năng mã hóa và tương đồng. Nếu bạn sẵn sàng mua một cuốn sách và như Mahout, Mahout in Action có mức độ phù hợp tốt trong các chương phân cụm về cách chọn và mã hóa các tính năng và sau đó làm thế nào để tạo ra một điểm giống nhau.
Có rất nhiều phương pháp, bạn đã đọc rất nhiều tài liệu về văn học? –