Tôi đang viết một chỉ mục Lucene.NET tùy chỉnh để cho phép lập chỉ mục các tài liệu MS Word. Trình chỉ mục phải có khả năng xử lý ba bản phát hành cuối cùng của MS Word: 2010, 2007 và 2003.Cách lập chỉ mục các tài liệu Word 2003, 2007 và 2010 bằng Lucene.NET
Kế hoạch là sử dụng các hội đồng interop VSTO được cài đặt như một phần của VS2010 để trích xuất nội dung văn bản từ tài liệu.
Có cách nào tốt hơn để triển khai lập chỉ mục tài liệu Word không? Điều này có nghĩa là tôi sẽ phải cài đặt cả ba phiên bản Word trên máy chủ? Hay chỉ là Word 2010?
Tools/Môi trường:
- Lucene.NET 2.3.1.3
- VS2010/NET 3.5
- Windows 2008/IIS 7
Lưu ý: Để biết chi tiết về cách để thực hiện việc này, hãy xem Sitecore text search in PDF or Word documents