Tôi có tệp PDF là đầu ra từ bộ xử lý OCR, bộ xử lý OCR này nhận dạng hình ảnh, thêm văn bản vào pdf nhưng ở vị trí cuối cùng có hình ảnh chất lượng thấp thay vì bản gốc. làm điều đó, nhưng họ làm).Làm cách nào để xóa tất cả hình ảnh/bản vẽ khỏi tệp PDF và chỉ để văn bản trong Java?
Vì vậy, tôi muốn nhận tệp PDF này, xóa luồng hình ảnh và để nguyên văn bản, để tôi có thể lấy và nhập (sử dụng tính năng nhập trang iText) thành PDF tôi đang tạo hình ảnh.
Và trước khi ai đó hỏi, tôi đã cố gắng sử dụng công cụ khác để trích xuất tọa độ văn bản (JPedal) nhưng khi tôi vẽ văn bản trên tệp PDF, nó không ở vị trí giống với văn bản gốc.
Tôi muốn thực hiện điều này trong Java, nhưng nếu một công cụ khác có thể làm tốt hơn, hãy cho tôi biết. Và nó có thể được loại bỏ hình ảnh chỉ, tôi có thể sống với một PDF với các bản vẽ trong đó.
Trong định dạng gì là những hình ảnh? – Seitaridis
JPEG. TIFF, GIF và PNG. –