2013-07-21 39 views
5

Tôi có hai câu hỏi chính xác. Thứ nhất, tôi muốn biết nếu có một cách dễ dàng để thích nghi với thuật toán cụm Markov để tôi có thể xác định trước, có bao nhiêu cụm tôi muốn có ở cuối. Nếu không, bạn sẽ đề xuất thuật toán tương tự nào?Markov Clustering

Và thứ hai là cách xử lý các cụm chồng chéo trong thế giới Markov?

Trả lời

13

1). Không có cách nào dễ dàng để thích ứng với thuật toán MCL (lưu ý: tên của nó là 'thuật toán cụm Markov' mà không có 'ing'. Nhiều người nói như trong 'làm Markov clustering', điều này là tốt) để xuất ra một số cụm được chỉ định . Điều này là theo ý kiến ​​của tôi, cho 99,99% thời gian một tính năng rất mong muốn. Nếu tôi muốn làm những gì bạn muốn, tôi sẽ tạo ra 4 hoặc 5 cụm ở các mức độ chi tiết khác nhau (nói thiết lập tham số lạm phát MCL thành 1.4, 2.0, 3.0, 4.0 và 6.0, nhưng nó có thể đáng để làm thêm một vài chọn dựa trên sự phân bố kích thước cụm), sau đó hợp nhất chúng trong một phân nhóm phân cấp (chương trình 'clm close' có thể làm điều đó). Sau đó người ta có thể đi qua cây và cố gắng tìm một cụm sao tối ưu có kích thước mong muốn. Điều này rõ ràng đòi hỏi nỗ lực đáng kể. Tôi đã làm một cái gì đó tương tự nhưng không hoàn toàn giống nhau trong quá khứ.

2). Các nhóm chồng chéo được sản xuất bởi MCL cực kỳ hiếm và luôn là kết quả của sự đối xứng trong biểu đồ đầu vào. Việc triển khai MCL tiêu chuẩn mà hầu hết mọi người sử dụng (từ http://micans.org/mcl/) sẽ loại bỏ trùng lặp. Điều này theo ý kiến ​​của tôi không phải là một mối quan tâm. Disclaimer: Tôi là tác giả của MCL.

+0

đó thực sự là một ý tưởng hay. sử dụng các giá trị lạm phát khác nhau là loại thử và lỗi nhưng có thể thực hiện được. cảm ơn. – user2560216

+0

Mcl phát triển hiện tại có một tùy chọn mới trong đó một cụm đầu vào được chỉ định: nó sẽ xây dựng một đồ thị con trên cụm đó (bằng cách loại bỏ các cạnh liên cụm) và tiến hành phân cụm. Điều này có thể hình dung hữu ích. Một điểm khác: bạn đã thử phương pháp cho phép số lượng cụm được chỉ định, ví dụ: phân vùng đồ thị bằng phương pháp quang phổ (Tôi tin hmetis là một phương pháp như vậy) hoặc phân cụm phổ? (và phải có nhiều phương pháp khác). – micans

+0

@micans, tôi mới tham gia MCL và chỉ xem qua các trang trình bày sau: http://www.cs.ucsb.edu/~xyan/classes/CS595D-2009winter/MCL_Presentation2.pdf, tại đây nó đề cập đến tham số 'công suất e' điều khiển hoạt động mở rộng. Tôi không thấy thông số này trong hướng dẫn MCL chính thức: http://micans.org/mcl/man/mcl.html#options. Có phải nó được đặt ngầm ở đâu đó, nếu không, có hướng dẫn để chọn một giá trị cho nó không? – MLister