Nó không phải là một trong đó là hoàn chỉnh hơn so với khác nó là một câu hỏi của một trong những có một số công cụ khác không và ngược lại. Nó cũng là một câu hỏi của khán giả và mục đích dự định.
Mallet là bộ công cụ học tập máy dựa trên Java nhằm mục đích cung cấp triển khai mạnh mẽ và nhanh chóng cho các tác vụ xử lý ngôn ngữ tự nhiên khác nhau.
NLTK được xây dựng bằng Python và đi kèm với rất nhiều nội dung bổ sung như công ty như WordNet. NLTK nhắm đến nhiều người học NLP, và như vậy được sử dụng nhiều hơn như một nền tảng học tập và có lẽ ít hơn là một giải pháp kỹ thuật. Theo quan điểm của tôi, sự khác biệt chính giữa hai là NLTK được định vị tốt hơn như một nguồn tài nguyên học tập cho những người quan tâm đến học máy và NLP vì nó đi kèm với toàn bộ tài liệu, ví dụ, tập đoàn, v.v.
Mallet là nhằm vào các nhà nghiên cứu và các học viên làm việc trong lĩnh vực này và đã biết những gì họ muốn làm. Nó đi kèm với tài liệu ít hơn (mặc dù nó có các ví dụ tốt và API cũng là tài liệu) so với bộ sưu tập rộng lớn NLTK của NLP chung công cụ.
UPDATE: điều tốt mô tả những sẽ là tài liệu Mallet và các ví dụ tại http://mallet.cs.umass.edu/ - thanh bên có liên kết đến trình tự gắn thẻ, mô hình chủ đề, vv
và cho NLTK cuốn sách NLTK Natural Language Processing with Python là một giới thiệu tốt cả NLTK và NLP.
CẬP NHẬT
Tôi vừa mới tìm thấy sklearn thư viện Python. Điều này nhằm mục đích học máy nói chung hơn, không trực tiếp cho NLP nhưng cũng có thể được sử dụng cho điều đó. Nó đi kèm với một lựa chọn rất lớn của các công cụ mô hình hóa và hầu hết nó dường như dựa vào NumPy vì vậy nó nên được khá nhanh. Tôi đã sử dụng nó khá nhiều và có thể nói rằng nó được viết rất tốt và có tài liệu và có một cộng đồng phát triển tích cực đẩy nó về phía trước (ít nhất là vào tháng 5 năm 2013).
UPDATE 2
Tôi bây giờ cũng được sử dụng vồ trong một thời gian (đặc biệt là các API vồ) và có thể nói rằng nếu bạn đang có kế hoạch tích hợp vồ vào dự án khác, bạn nên rất quen thuộc với Java và sẵn sàng dành rất nhiều thời gian để gỡ lỗi một cơ sở mã hoàn toàn không có giấy tờ.
Nếu tất cả những gì bạn muốn làm là sử dụng các công cụ dòng lệnh mallet, điều đó tốt, sử dụng API đòi hỏi rất nhiều đào thông qua chính mã mallet và thường sửa một số lỗi. Được cảnh báo mallet đi kèm với tài liệu tối thiểu liên quan đến API.
Nguồn
2012-08-24 10:51:05
Không thể trả lời điều đó, nhưng NLTK bao gồm giao diện mallet để bạn có thể thử chúng song song. – alexis
Nếu bạn đã quen thuộc với Python, chỉ cần sử dụng "gensim, mô hình hóa chủ đề cho con người". – Radim
@Radim; P yes 'gensim' là một trong những mô hình mô hình chủ đề thân thiện với người dùng nhất mà tôi đã sử dụng/nhìn thấy cho python. Nó phải là "gensim, mô hình hóa chủ đề cho những con người chỉ" =) – alvas