Ngày tốt, Tôi đang cố gắng viết một ứng dụng phân tích tình cảm trong python (Sử dụng phân loại naive-bayes) với mục đích phân loại các cụm từ tin tức là dương hoặc âm. Và tôi đang gặp một chút rắc rối khi tìm một kho dữ liệu thích hợp cho điều đó. Tôi đã thử sử dụng "General Inquirer" (http://www.wjh.harvard.edu/~inquirer/homecat.htm) hoạt động tốt nhưng tôi có một vấn đề lớn ở đó. Vì đây là danh sách từ, không phải danh sách cụm từ, tôi quan sát vấn đề sau khi cố gắn nhãn câu sau:Cụm từ cụm từ để phân tích tình cảm
Anh ta không được mong đợi thắng.
Câu này được phân loại là dương, sai. Lý do cho điều đó là "thắng" là tích cực, nhưng "không" không mang bất kỳ nghĩa nào vì "không thắng" là một cụm từ. Có ai có thể đề xuất một kho dữ liệu hoặc một công việc xung quanh cho vấn đề đó không? Trợ giúp và thông tin chi tiết của bạn được đánh giá cao.
Như một mặt lưu ý: Bạn có mong đợi ngây thơ Bayes để làm việc ở đây? Giả sử tất cả các tính năng của chúng tôi là "giành chiến thắng", "mất" và "không" và "thắng" và "thua" xuất hiện theo tỷ lệ bằng nhau. Sau đó, "thắng" hoặc "không thắng" sẽ bị phân loại sai. –
Tôi tin rằng đó là lý do tại sao anh ấy hỏi về việc sử dụng các cụm từ làm tính năng. – phs
Tôi nghĩ anh ấy đang sử dụng các từ như các tính năng để phân loại các cụm từ ... –