Tôi đang cố gắng trích xuất các thực thể được đặt tên từ văn bản tiếng Hà Lan. Tôi đã sử dụng nltk-trainer để đào tạo một người gắn thẻ và một chunker trên corpus conll2002 dutch. Tuy nhiên, phương thức phân tích cú pháp từ chunker không phát hiện bất kỳ thực thể có tên nào. Đây là mã của tôi:NLTK được gọi là nhận dạng đối tượng bằng tiếng Hà Lan
str = 'Christiane heeft een lam.'
tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')
str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags
str_chunks = chunker.parse(str_tags)
print str_chunks
Và đầu ra của chương trình này:
[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)
tôi đã mong Christiane được phát hiện như một thực thể được đặt tên. Bất kỳ trợ giúp nào?
gì sẽ xảy ra khi "Christiane" xuất hiện ở giữa câu? –
@larsmans Không có tổ chức nào. Tôi thậm chí đã thử với một câu từ kho tập luyện, nhưng không may mắn. Tôi đã sử dụng train_chunker.py trên tập conll2002 (ned.train) – user1491915
Bạn có thể cho biết chính xác cách bạn đã sử dụng train_chunker.py không? Bản demo của tôi tại http://text-processing.com/demo/tag/ nhận ra Christiane, tất nhiên tôi đã sử dụng train_chunker trên conll2002, vì vậy phải có sự khác biệt trong các đối số đào tạo. – Jacob