Làm thế nào để sử dụng các chức năng của NLTK cho tiếng Ba Tư?NLTK for Persian
Ví dụ: 'concordance'. Khi tôi sử dụng 'concordance', câu trả lời là 'không match', tuy nhiên có tham số của concordance trong văn bản của tôi.
đầu vào rất đơn giản .nó chứa "hello سلام". Khi tham số 'concordance' là 'hello' câu trả lời là đúng, nhưng, nếu nó 'سلام' câu trả lời là 'không phù hợp'. đầu ra cho tôi là 'Hiển thị 1 trong số 1 kết quả phù hợp'.
import nltk
from urllib import urlopen
url = "file:///home/.../1.html"
raw = urlopen(url).read()
raw = nltk.clean_html(raw)
tokens = nltk.word_tokenize(raw)
tokens = tokens[:12]
text = nltk.Text(tokens)
print text.concordance('سلام')
Bạn có thể đưa ra ví dụ mã tối thiểu và ví dụ đầu vào tối thiểu về những gì bạn đã thử và những gì bạn dự kiến sẽ xảy ra? – jogojapan