Tôi chưa thử phân tích tình cảm chưa được đào tạo như bạn đang mô tả, nhưng trên đỉnh đầu tôi muốn nói bạn đang quá đơn giản hóa vấn đề. Đơn giản phân tích tính từ là không đủ để nắm bắt tốt tình cảm của một văn bản; ví dụ, hãy xem từ 'ngu ngốc'. Một mình, bạn sẽ phân loại đó là tiêu cực, nhưng nếu đánh giá sản phẩm là có '... [x] sản phẩm khiến đối thủ cạnh tranh của họ trông ngu ngốc vì không nghĩ đến tính năng này trước ...' thì tình cảm trong đó chắc chắn sẽ dương . Bối cảnh lớn hơn trong đó các từ xuất hiện chắc chắn là vấn đề trong một cái gì đó như thế này. Đây là lý do tại sao một cách tiếp cận túi-of-từ chưa được đào tạo một mình (hãy để một mình một túi tính hạn chế thậm chí còn hạn chế hơn) là không đủ để giải quyết vấn đề này đầy đủ.
Dữ liệu được phân loại trước ('dữ liệu đào tạo') giúp vấn đề chuyển từ cố gắng xác định xem văn bản có tình cảm tích cực hay tiêu cực từ đầu, để xác định xem văn bản có giống với văn bản tích cực hơn không hoặc văn bản tiêu cực và phân loại theo cách đó. Điểm lớn khác là phân tích văn bản như phân tích tình cảm thường bị ảnh hưởng rất nhiều bởi sự khác biệt về đặc điểm của văn bản tùy thuộc vào miền. Đây là lý do tại sao có một bộ dữ liệu tốt để đào tạo (có nghĩa là, dữ liệu chính xác từ bên trong miền bạn đang làm việc và hy vọng đại diện cho các văn bản bạn sẽ phải phân loại) cũng quan trọng như xây dựng tốt để phân loại.
Không chính xác một bài viết, nhưng hy vọng điều đó sẽ hữu ích.
Nguồn
2010-10-13 06:35:03
Thẻ này nhận thẻ trả lời. Đó là một bài báo rất thú vị. – Trindaz