Tôi cần tìm các lớp danh từ xuất hiện tự nhiên dựa trên phân bố của chúng với các giới từ khác nhau (như tác nhân, công cụ, thời gian, địa điểm, v.v.). Tôi đã cố gắng sử dụng cụm từ k, nhưng ít trợ giúp hơn, nó không hoạt động tốt, có rất nhiều sự chồng chéo lên các lớp mà tôi đang tìm kiếm (có lẽ do hình dạng không hình cầu của lớp và sự khởi tạo ngẫu nhiên trong k-means).Ước lượng tham số trong DBSCAN
Tôi hiện đang làm việc về sử dụng DBSCAN, nhưng tôi gặp khó khăn khi hiểu giá trị epsilon và giá trị điểm nhỏ trong thuật toán phân cụm này. Tôi có thể sử dụng các giá trị ngẫu nhiên hay tôi cần tính toán chúng. Ai có thể giúp. Đặc biệt với epsilon, ít nhất là cách tính nó nếu tôi cần.
Tôi sẽ không thể cho bạn biết thông số tại đây. Bạn cần * thử nghiệm *. Nhưng nghiêm túc, trước tiên hãy cố gắng tìm ra cách để đo lường sự giống nhau. Một kết quả phân cụm DBSCAN sẽ luôn luôn chỉ tốt như chức năng tương tự của bạn. –
Tôi giả định cấu trúc phân cấp trong dữ liệu của mình, với 3 lớp chính. Tôi có khoảng 32K điểm với 15 chiều. Điểm dữ liệu của tôi: danh từ, số đếm (prep1)/tổng số danh từ, số đếm (prep2)/tổng số ....... (prep15)/tổng. Tôi đang sử dụng chức năng khoảng cách Euclide, tôi chưa thử người khác. Ý của bạn là gì khi chuẩn hóa, làm thế nào tôi phải chuẩn hóa dữ liệu, tôi đã chuẩn hóa các bản phân phối theo tổng tần suất của một danh từ đã cho. Một câu hỏi nữa, về k-means, tôi có thể chọn centroid trước khi tay không, vì tôi có thể đoán nguyên mẫu của từng lớp được cung cấp cho kiến thức miền của tôi. – Riyaz