Tôi đang làm việc với SOLR trên một dự án mà chúng tôi nhập một loạt các tài liệu phong phú (~ 40k), chủ yếu là MS Word, Powerpoint, Excel và PDF.Có schema.xml thực hành tốt nhất cho SOLR khi nhập tài liệu phong phú không?
Có thực hành tốt nhất schema.xml
và/hoặc solrconfig.xml
để sử dụng trong SOLR khi sử dụng ExtractingRequestHandler
?
Tôi đã thực hiện các chỉnh sửa đối với lược đồ mặc định để cố gắng nhận các khía cạnh làm việc vào ngày sửa đổi ngày, nhưng thậm chí không có điều đó, tôi thấy có thể tồn tại một ví dụ tốt về cách các tệp này từ Tika là đủ.
Nếu không có điều gì như là thực hành tốt nhất schema.xml
và/hoặc solrconfig.xml
Tôi cũng quan tâm đến các ví dụ hay, tốt nhất là từ các dự án nguồn mở hiện tại hoặc thậm chí là các bài đăng trên blog tốt.
Mọi con trỏ đều được chào đón!
Ok, nếu bạn tìm thấy điều gì đó liên quan đến các phương pháp hay nhất, hãy đảm bảo cập nhật câu trả lời của bạn. Cảm ơn –