Tôi cố gắng triển khai k-means làm bài tập về nhà. Bản tập thể dục của tôi cung cấp cho tôi nhận xét sau về các trung tâm trống:k-có nghĩa là cụm trống
Trong bất kỳ trung tâm cụm nào không có điểm dữ liệu liên kết với nó, hãy thay thế bằng một điểm dữ liệu ngẫu nhiên.
Điều đó gây nhầm lẫn cho tôi một chút, trước hết Wikipedia hoặc các nguồn khác tôi đọc không đề cập đến điều đó chút nào. Tôi tiếp tục đọc về một vấn đề với 'chọn một k tốt cho dữ liệu của bạn' - làm thế nào là thuật toán của tôi phải hội tụ nếu tôi bắt đầu thiết lập các trung tâm mới cho cụm mà có sản phẩm nào.
Nếu tôi bỏ qua các cụm trống mà tôi hội tụ sau 30-40 lần lặp lại. Có sai khi bỏ qua các cụm trống không?
'Điểm xa nhất từ cụm lớn nhất' "Lớn nhất" về khía cạnh nào? – ttnphns
Tôi sẽ giải thích nó là lớn nhất về số lượng các phần tử - nhưng bạn cũng có thể chọn điểm xa nhất từ trung tâm cụm của nó. – Ketil