Câu hỏi của tôi tóm lại: Có ai biết một số TwitterAnalyzer hoặc TwitterTokenizer cho Lucene?Mã hóa các bài đăng trên Twitter trong Lucene
phiên bản chi tiết hơn:
Tôi muốn đánh chỉ mục một số tweets trong Lucene và giữ các điều khoản như @user hoặc #hashtag nguyên vẹn. StandardTokenizer không hoạt động vì nó loại bỏ dấu chấm câu (nhưng nó thực hiện các công cụ hữu ích khác như giữ tên miền, địa chỉ email hoặc nhận dạng từ viết tắt). Làm thế nào tôi có thể có một máy phân tích mà tất cả mọi thứ StandardTokenizer làm nhưng không chạm vào các điều khoản như @user và #hashtag?
Giải pháp hiện tại của tôi là xử lý trước văn bản tweet trước khi cho nó vào máy phân tích và thay thế các ký tự bằng các chuỗi chữ số khác. Ví dụ:
String newText = newText.replaceAll("#", "hashtag");
newText = newText.replaceAll("@", "addresstag");
Thật không may phương pháp này vi phạm địa chỉ email hợp pháp nhưng tôi có thể sống với điều đó. Cách tiếp cận đó có hợp lý không?
Cảm ơn trước!
AMAC
giải pháp cuối cùng của bạn sẽ như thế nào? – Karussell
nếu bạn cần một giải pháp cho solr, điều này có thể giúp: https://issues.apache.org/jira/browse/SOLR-2059 và một cái gì đó như "# => ALPHA" "@ => ALPHA" – Karussell