Bối cảnh:Hiểu NLTK điểm sắp xếp thứ tự cho bigrams và bát quái
Tôi cố gắng để so sánh các cặp từ để xem những cặp là "nhiều khả năng xảy ra" trong tiếng Anh Mỹ hơn cặp khác. Kế hoạch của tôi là/đã sử dụng các cơ sở sắp xếp thứ tự trong NLTK để chấm điểm các cặp từ, với cặp điểm cao hơn là nhiều khả năng nhất.
Cách tiếp cận:
tôi mã sau đây trong Python sử dụng NLTK (vài bước và nhập khẩu loại bỏ cho ngắn gọn):
bgm = nltk.collocations.BigramAssocMeasures()
finder = BigramCollocationFinder.from_words(tokens)
scored = finder.score_ngrams(bgm.likelihood_ratio )
print scored
Kết quả:
sau đó tôi đã kiểm tra kết quả sử dụng 2 cặp từ, một trong số đó nên có khả năng xuất hiện cao, và một cặp không nên ("hạt điều rang" và "hạt điều xăng"). Tôi đã rất ngạc nhiên khi thấy các điểm ghép nối từ này giống hệt nhau:
[(('roasted', 'cashews'), 5.545177444479562)]
[(('gasoline', 'cashews'), 5.545177444479562)]
Tôi đã mong đợi 'hạt điều rang' có điểm cao hơn 'điều hạt xăng' trong thử nghiệm của tôi.
Câu hỏi:
- Am Tôi hiểu lầm việc sử dụng những cụm từ?
- Mã của tôi có đúng không?
- Giả sử rằng điểm số sẽ khác sai và nếu có thì tại sao?
Cảm ơn bạn rất nhiều về mọi thông tin hoặc trợ giúp!
Một nhận xét bổ sung: Nhóm tất cả 4 từ lại với nhau, viz 'điều hạt điều rang rang', cho kết quả tương tự trong đó tất cả các điểm số lớn đều giống nhau. – ccgillett