Có ai đã cố trích xuất văn bản từ PDF bằng thư viện OCR và Java không? Bạn đã tìm thấy thư viện nào đáng tin cậy nhất để trích xuất văn bản. Hầu hết các phương pháp tiếp cận mà tôi đã thấy (tesseract, GOCR) là các thư viện C sẽ yêu cầu một số mã JNI được viết.Phương pháp trích xuất văn bản PDF Sử dụng OCR
Tôi đã quen thuộc với pdfbox, hiện giờ là dự án lồng ấp Apache ở phiên bản 0.8.x, nhưng việc trích xuất văn bản không phải lúc nào cũng chính xác. Tôi đang tìm một phương pháp thay thế có phần đáng tin cậy hơn.
Tôi chưa thử Asprise JavaPDF, trong quá trình thử điều đó, nhưng muốn biết thêm về phương pháp OCR (nếu có thể).
Mọi trợ giúp sẽ được đánh giá cao.
Bạn đang sử dụng PDF có cấu trúc? Nếu bạn có khả năng trong JAVA lấy văn bản từ siêu dữ liệu PDF. – northpole
Không, không phải tất cả các tệp PDF đều được cấu trúc. – Jon