Bạn có thể chỉ cho tôi một ví dụ đơn giản bằng cách sử dụng http://www.nltk.org/code để xác định xem một chuỗi về tâm trạng vui hay buồn?Tôi có thể sử dụng NLTK để xác định xem nhận xét là một nhận xét tích cực hay nhận xét tiêu cực?
Trả lời
Nopey.
Đây là một nhiệm vụ vượt xa khả năng của NLTK hoặc bất kỳ trình phân tích cú pháp ngữ pháp nào được biết hoặc có thể được thực tế tưởng tượng. Nhìn vào số NLTK Book để xem các loại nhiệm vụ nào có thể thực hiện được cách xa, xa mục đích đã nêu của bạn.
Như một ví dụ giá rẻ:
Tôi thực sự rất thích sử dụng giấy của bạn để đào tạo con chó của tôi.
Phân tích rằng với NLTK và bạn có thể nhận
[('I', 'PRP'), ('really', 'RB'), ('enjoyed', 'VBD'),
('using', 'VBG'), ('your', 'PRP$'), ('paper', 'NN'),
('to', 'TO'), ('train', 'VB'), ('my', 'PRP$'), ('dog', 'NN')]
Trường hợp cây phân tích cú pháp sẽ nói với tôi rằng 'thích' là trung tâm (quá khứ-căng thẳng) động từ của câu đơn giản. Để thưởng thức một cái gì đó là tốt. Để đào tạo một cái gì đó thường là một điều tốt. Gerunds, danh từ, so sánh, và như vậy là tương đối trung lập. Vì vậy, hãy cho điểm này là 0,90.
Ngoại trừ tôi thực sự có nghĩa là tôi đã đánh con chó của tôi với giấy của bạn hoặc để nó bài tiết trên giấy mà bạn có thể coi là một điều không tốt.
Thuê một người cho nhiệm vụ nhận dạng này.
gia tăng đối với những người tưởng tượng rằng phân loại thậm chí đào tạo là sử dụng nhiều:
Phân loại entry thật này từ một bài đánh giá corpus khách hàng thực sự sử dụng bất kỳ phân loại bạn thích tập huấn về bất kỳ dữ liệu nào bạn thích:
Máy ảnh này tiếp tục tự động phát ở chế độ tự động với âm thanh ù ù mà không thể dừng được . Nó sẽ thực sự là tốt nếu họ đã đưa ra một tùy chọn để ngừng tự động này. Nếu bạn muốn để có ngày và giờ trên hình ảnh , chỉ thông qua phần mềm đọc ngày của hình ảnh và thời gian từ siêu dữ liệu của hình ảnh. Vì vậy, nếu bạn sử dụng đầu đọc thẻ và hình ảnh sao chép - bạn phải lại một lần nữa mở chúng thông qua phần mềm của chúng để đặt ngày và giờ. Trong đó, không có cách trực tiếp để thêm ngày và thời gian - bạn phải nói 'in hình ảnh' sang một thư mục khác trong đó có tùy chọn chỉ định ngày và giờ . Ngay cả những cái lắc nhẹ nhất hoàn toàn bóp méo hình ảnh của bạn. Hình ảnh trong nhà không rõ ràng. Bạn đã đến số có flash 'bật' để tải xuống ngay cả khi phòng của bạn được chiếu sáng tốt. Nắp ống kính là thực sự gây phiền nhiễu. các clip phim được chụp sẽ luôn có một số 'tiếng' trong số - bạn không thể tránh điều đó.
Phân loại tâm trạng tồi tệ nhất mà tôi thu được là "hoàn toàn bình thường" nhưng con người có thể dễ dàng xác định rằng đây là bất kỳ điều gì ngoài miễn phí.Đây không phải là một dữ liệu được chọn ngẫu nhiên, thay vì một dữ liệu được chọn cho thiên vị tiêu cực mà không có "ghét" hoặc "suxz" hoặc tương tự.
xem thêm http://en.wikipedia.org/wiki/Sentiment_analysis – msw
Tôi sẽ không nói điều này vượt quá NLTK. Suy nghĩ đầu tiên của tôi là phân tích tình cảm, mà bạn đã liên kết. Với một kho dữ liệu huấn luyện khá lớn, bạn có thể đào tạo một trình phân loại để cung cấp cho bạn một xấp xỉ gần đúng về "tâm trạng". – Cerin
@ Chris S: Nhưng đó không phải là câu hỏi được đặt ra; nó yêu cầu một ví dụ đơn giản mà không có. Ngay cả các trình phân loại cũng rơi vào đầu vào văn bản thực sự khi các tập đoàn khác nhau được liên kết với Wikipedia. Đối với một miền mà các tuyên bố đơn giản vẫn còn phiền hà, đối phó với sắc thái, mỉa mai, ngụ ý, và làm tổn thương với lời khen ngợi mờ nhạt là ** thực sự ** khó khăn. – msw
NLTK không thể ra khỏi hộp, nhưng nếu bạn đang tìm kiếm một số nghiên cứu liên quan về khu vực đó, hãy xem bài báo này trên Offensive Language Detection. Các phương pháp tương tự có thể được điều chỉnh để phát hiện các nhận xét không xúc phạm/không gây khó chịu mà thay vào đó là hạnh phúc/không hài lòng. Gói phần mềm chính được sử dụng trong dự án phân loại văn bản này được gọi là WEKA và sử dụng nhiều trình phân loại, được đào tạo trên các ví dụ trước để xác định xem ngôn ngữ có gây khó chịu hay không (và trong phương pháp này sử dụng ngưỡng có thể điều chỉnh).
Bạn đang tìm kiếm một kỹ thuật sử dụng trình phân loại học máy để xác định xem một đoạn văn bản là dương hay âm. Đã có nhiều nỗ lực khác nhau ở đây bởi một số nhóm nghiên cứu (ví dụ: http://research.yahoo.com/pub/2387 và http://lingcog.iit.edu/doc/appraisal_sentiment_cikm.pdf), chúng tôi có thể đạt được độ chính xác từ 80% đến 90% khi xác định xem đánh giá sản phẩm là dương hay âm.
Do ngắn gọn câu hỏi của bạn, không rõ ràng liệu xác định xem đánh giá sản phẩm là tích cực hay tiêu cực là nhiệm vụ bạn đang cố hoàn thành hoặc chỉ là một nhiệm vụ liên quan, nhưng tôi khuyên bạn nên bắt đầu đơn giản với phân loại từng từ với một trình phân loại Bayesian (mà NLTK có thể xử lý), và sau đó cải thiện các kỹ thuật của bạn từ đó tùy thuộc vào độ chính xác của nó.
Thật không may, tôi chưa bao giờ sử dụng NLTK (cũng không phải Python cho vấn đề đó) vì vậy tôi không thể cung cấp cho bạn một ví dụ về cách sử dụng NLTK cho việc này.
Sách NLTK "Xử lý ngôn ngữ tự nhiên" bao gồm một ví dụ về phân loại văn bản là liệu nó có phải là dương hay không. Câu hỏi và ứng dụng của OP có thể quá tinh tế đối với các thuật toán được thảo luận và trình diễn, nhưng nó sẽ là một sự khởi đầu. – winwaed
Pattern là một thứ đáng giá thử nghiệm: bạn có thể xem hai thí nghiệm khai thác ý kiến ngay trên trang chủ dự án.
Có thể. Bạn nên điều tra các hàm phân loại; được tập huấn, bạn có thể phân loại tâm trạng là tích cực hoặc tiêu cực. –
Xem thêm http://stackoverflow.com/questions/2162718/python-nltk-code-snippet-to-train-a-classifier-naive-bayes-using-feature-freque http://stackoverflow.com/questions/ 1082789/phân tích tình cảm đơn giản http://stackoverflow.com/questions/573768/sentiment-analysis-for-twitter-in-python http://stackoverflow.com/questions/2832394/sentiment-analysis-with-nltk- python-cho-câu-sử dụng-mẫu-dữ liệu-hoặc-webservice –