Tôi muốn tìm ra cách tốt để thực hiện trích xuất cụm từ trên dữ liệu văn bản người tiêu dùng tự do. Trong một kịch bản lý tưởng, tôi có thể trích xuất các cụm từ danh từ của ít nhất hai từ bao gồm một số loại ngữ cảnh sử dụng của chúng. Đây là những yêu cầu lý tưởng của tôi.Trích xuất các cụm từ có liên quan theo ngữ cảnh (cụm từ danh từ) từ văn bản trong dự án .NET
- cụm từ Danh từ khai thác
- Dễ dàng tích hợp trong một dự án NET
- Không có dịch vụ bên thứ 3 tích hợp
tôi đã thực hiện một số nghiên cứu đã và tôi đã bao gồm một số lưu ý dưới đây.
Có nhiều thư viện NLP khác nhau. Các đối thủ lớn dường như là NLTK và OpenNLP. Cả hai hỗ trợ mã hóa dữ liệu văn bản và giải nén trong số những thứ khác, cụm từ danh từ. Tuy nhiên, không được thực hiện trong .NET và một số loại lớp IPC sẽ được yêu cầu. Cả hai đều có đường cong học tập khá cao.
SharperNLP là cổng C# của OpenNLP. Nó có một loạt hoạt động ngắn trong năm 2006, nhưng không nhiều kể từ đó.
Dưới đây là một số ghi chú từ người cố gắng tích hợp với NLTK trong triển khai .NET bằng IronPython.
Open Source NLP in C# 3.5 using NLTK.
Giải pháp dễ nhất mà tôi đã tìm thấy cho đến nay là Dịch vụ tích hợp máy chủ SQL Term Extraction Transformation. Nó rất đơn giản để cấu hình và bắt đầu và chạy. Nó có thể trích xuất các cụm từ danh từ có ý nghĩa với độ chính xác cao. Tuy nhiên, nó có một số hạn chế.
- Đây là gói SSIS, tuyệt vời để phân tích văn bản sau khi thực tế, nhưng không phải trong thời gian thực.
- Nó yêu cầu giấy phép doanh nghiệp SQL Server.
- Nó chỉ hỗ trợ tiếng Anh mà không có kế hoạch hỗ trợ các ngôn ngữ khác.
Để đóng, tôi nhận thấy yêu cầu của tôi có thể hơi quá nghiêm ngặt, vì vậy, vui lòng trả lời với bất kỳ loại giải pháp nào ít nhất là trích xuất các đoạn câu trong danh từ.
Không có cùng một thuật toán nhưng là C# của thuật toán gốc. http://tartarus.org/~martin/PorterStemmer/csharp2.txt Một cụm từ danh từ rõ ràng phức tạp hơn – Paparazzi