5

Tôi đang tìm thư viện Java có thể thực hiện nhận dạng đối tượng được đặt tên (NER) với từ vựng được kiểm soát tùy chỉnh mà không cần dữ liệu huấn luyện có nhãn trước. Tôi đã tìm kiếm một số trên SE, nhưng hầu hết các câu hỏi là khá không rõ ràng.Nhận dạng thực thể được đặt tên không được giám sát (NER) với từ vựng được điều khiển theo yêu cầu cho các đề xuất liên kết chéo trong Java

Cân nhắc việc sử dụng hợp cụ thể sau đây:

  • một biên tập viên được nhập bài viết trong một CMS (khoảng 500 từ).
  • văn bản có thể chứa tham chiếu (ở dạng văn bản thuần túy) cho các thực thể của một miền cụ thể. ví dụ:
    • tên của điểm đáng chú ý, như quán bar, nhà hàng, cũng như các khu phố vv
  • một vốn từ vựng có kiểm soát của những thực thể tồn tại (khoảng 5.000 đơn vị).
    • Tôi tưởng tượng một thực thể là một -tuple trong từ vựng
  • sau khi kết thúc văn bản, người dùng sẽ có thể lưu tài liệu.
  • Điều này kích hoạt quy trình làm việc để quét đoạn văn bản so với từ vựng, bằng cách so sánh với tên của pháp nhân. Nó không cần phải có một trận đấu 100%: 97% trên Jarao-winkler hay bất cứ điều gì (tôi không quen với những gì NER sử dụng) có thể là đủ, tôi cần điều này để có thể cấu hình được.
  • Số lần truy cập được trả về phía máy chủ điều khiển. Điều này ngược lại trả về JSON cho khách hàng chứa các thực thể, được biểu diễn như các liên kết chéo được đề xuất cho trình soạn thảo.

Lý tưởng nhất, tôi đang tìm dự án sử dụng NRE để đề xuất các liên kết chéo trong môi trường CMS để xem lại. (Tôi chắc chắn rằng các plugin cho wordpress tồn tại ví dụ) không chắc chắn nếu một cái gì đó tương tự tồn tại trong Java.

Tất cả các con trỏ tổng quát khác cho các thư viện NRE hoạt động với các từ vựng tùy chỉnh được kiểm soát cũng được chào đón.

Trả lời

1

Không chắc chắn nếu những có thể hữu ích: http://www-nlp.stanford.edu/software/CRF-NER.shtml http://cogcomp.cs.illinois.edu/page/software

+0

theo như tôi có thể nói, đó chỉ sẽ làm tên nổi tiếng/người nổi tiếng. "George Washington" xuất hiện như một người, nhưng tên tôi thì không. – robr