2012-06-11 19 views
5

Tôi đã thử phân loại vịnh ruồi ngây thơ và nó hoạt động rất tệ. SVM hoạt động tốt hơn một chút nhưng vẫn khủng khiếp. Hầu hết các bài báo tôi đọc về SVM và vịnh ngây thơ với một số biến thể (n-gram, POS vv) nhưng tất cả đều cho kết quả gần 50% (tác giả của bài viết nói về 80% và cao nhưng tôi không thể có được chính xác trên dữ liệu thực).Thuật toán tốt cho phân tích tình cảm

Có phương pháp mạnh mẽ hơn ngoại trừ analyser lexixal không? SVM và Bayes giả sử rằng các từ được độc lập. Cách tiếp cận này được gọi là "túi từ". Điều gì sẽ xảy ra nếu chúng ta cho rằng các từ đó được liên kết?

Ví dụ: Sử dụng thuật toán apriory để phát hiện rằng nếu câu có chứa "xấu và khủng khiếp" thì 70% xác suất câu đó là âm. Ngoài ra chúng ta có thể sử dụng khoảng cách giữa các từ và vân vân.

Ý tưởng hay là tôi đang sáng tạo ra xe đạp?

Trả lời

2

Bạn đang nhầm lẫn một vài khái niệm ở đây. Cả Naive Bayes cũng như SVM đều không liên quan đến túi tiếp cận từ ngữ. Cả SVM lẫn phương pháp BOW đều không có giả định độc lập giữa các thuật ngữ.

Dưới đây là một số điều bạn có thể thử:

  • bao gồm dấu chấm câu trong túi từ của mình; đặc biệt ! và? có thể hữu ích cho phân tích tình cảm, trong khi nhiều trình gỡ bỏ tính năng hướng tới phân loại tài liệu, hãy ném chúng đi
  • tương tự cho các từ dừng: các từ như "I" và "my" có thể là chỉ dẫn của văn bản chủ quan
  • tạo trình phân loại hai giai đoạn ; đầu tiên xác định xem có bất kỳ ý kiến ​​nào được biểu thị hay không, sau đó cho dù đó là số dương hay âm
  • hãy thử một SVM hạt nhân bậc hai thay vì một SVM hạt nhân để nắm bắt tương tác giữa các tính năng.
+0

Bạn nghĩ gì về thuật toán apriory và sự đồng hóa giữa các từ? – Neir0

+0

@ Neir0: Tôi không thấy ngay bạn muốn áp dụng nó như thế nào. Tôi cũng chưa bao giờ thấy nỗ lực làm phân tích tình cảm với nó. Tôi biết rằng một số người sử dụng nó để xây dựng xấp xỉ với hạt nhân bậc hai (gần như những gì bạn gọi là "hiệp hội từ"), nhưng sau đó tôi muốn thử một hạt nhân vani SVM đầu tiên. –

+0

Cách đơn giản là nhập mã thông báo có dấu hiệu hoặc vị trí huy hiệu. Ví dụ: "pos i love my mom". Về sản lượng tôi nhận được một cái gì đó như "nếu chúng ta có tình yêu và mẹ trong phân sau đó 70% mà chúng tôi có huy hiệu pos". Tất nhiên chúng ta có thể sửa đổi cách tiếp cận này để có kết quả tốt hơn. – Neir0

4

Thuật toán như SVM, Naive Bayes và entropy tối đa là thuật toán học máy được giám sát và đầu ra của chương trình phụ thuộc vào tập huấn luyện bạn đã cung cấp. Đối với phân tích tình cảm quy mô lớn, tôi thích sử dụng phương pháp học không giám sát, trong đó người ta có thể xác định tình cảm của các tính từ bằng cách phân cụm tài liệu thành các phần giống nhau và gắn nhãn các cụm dương hoặc âm. Có thể tìm thêm thông tin từ bài báo này. http://icwsm.org/papers/3--Godbole-Srinivasaiah-Skiena.pdf

Hy vọng điều này sẽ giúp bạn trong công việc của bạn :)

0

Bạn có thể tìm thấy một số tài liệu hữu ích về Sentimnetal analysis using python. trình bày này tóm tắt Phân tích Niềm tin là 3 đơn giản bước

  • dữ liệu nhãn
  • tiền xử lý &
  • Mẫu Học
0

Niềm tin phân tích là một lĩnh vực nghiên cứu liên tục. Và có rất nhiều nghiên cứu đang diễn ra ngay bây giờ. Để biết tổng quan về các phương pháp tiếp cận gần đây nhất, thành công nhất, tôi thường khuyên bạn nên xem xét các nhiệm vụ được chia sẻ của SemEval. Thông thường, mỗi năm họ chạy một cuộc thi về Phân tích tình cảm trên Twitter.Bạn có thể tìm thấy bài báo mô tả tác vụ và kết quả cho năm 2016 tại đây (có thể là một chút kỹ thuật): http://alt.qcri.org/semeval2016/task4/data/uploads/semeval2016_task4_report.pdf

Bắt đầu từ đó, bạn có thể xem các giấy tờ mô tả từng hệ thống (như được tham chiếu ở đó) .