Tôi đang tìm một lớp hoặc phương thức cần một chuỗi dài gồm 100 từ và mã thông báo, loại bỏ các từ dừng và xuất phát để sử dụng trong hệ thống IR.Tokenizer, Stop Word Removal, bắt nguồn từ Java
Ví dụ:
"Con mèo lớn chất béo, cho biết 'hài hước chàng trai của bạn tôi biết' với chuột túi ..."
các tokenizer sẽ loại bỏ các dấu chấm câu và trở lại an ArrayList
của các từ
trình xóa từ dừng sẽ xóa các từ như "the", "to", v.v.
phần gốc sẽ làm giảm mỗi từ 'gốc' của chúng, ví dụ 'hài hước nhất' sẽ trở thành vui nhộn
Rất cám ơn trước.
hey! @ jitter đi Lucene không giúp đỡ?cần liên kết cụ thể hơn. – jsroyal