Tôi đang cố gắng giải quyết một vấn đề phân loại đơn giản.Phân loại dữ liệu bằng Apache Mahout
Sự cố:
Tôi có một bộ văn bản và tôi phải phân loại chúng dựa trên nội dung.
Giải pháp sử dụng Mahout:
Tôi hiểu rằng tôi phải chuyển đổi đầu vào thành tệp chuỗi để tạo mô hình. Vâng, tôi đã có thể làm được điều này. Bây giờ, làm cách nào để phân loại dữ liệu thử nghiệm của tôi? Ví dụ 20News chỉ kiểm tra tính chính xác. Nhưng, tôi muốn phân loại thực tế.
Tôi không chắc liệu mình có cần viết mã hay sử dụng một số lớp sẵn có để phân loại tập kiểm tra.?
IMO, các phần về phân loại trong sách có thể được cải thiện. Các phần về phân loại là dài dòng, không rõ ràng và, thường, không liên tục. Có thể có nhiều ví dụ mã hóa java hơn và các ví dụ shell ít hơn. Phân loại có thể tốt hơn nếu nó được viết giống như các chương giới thiệu: Hiển thị định dạng cho các tệp phân loại, cách đọc chúng, cách tải chúng vào phân loại của bạn, sau khi được đào tạo, cách sử dụng trình phân loại để phân loại mẫu mới. –
Tôi muốn Mahout có nhiều tài liệu hơn và tốt hơn. Những người là chuyên gia về học máy có một thời gian khó hiểu cấu trúc của đường ống xử lý và kiến trúc mã. Ngay cả các javadocs sử dụng thuật ngữ không phù hợp (setGramSize nên được setNGramSize) ngữ nghĩa nhỏ làm cho một sự khác biệt HUGE trong việc hiểu các khái niệm và mã. –