tôi phải trích xuất văn bản từ hóa đơn và hóa đơn file pdfRule khai thác dựa PDF văn bản cho các hóa đơn verious và hoá đơn
Các tập tin bố trí có thể trở nên phức tạp, mặc dù nó chủ yếu là đầy bảng.
Tôi đã đọc một vài bài báo về định dạng pdf, bộ não của chúng ta dễ dàng nắm bắt nó như thế nào và làm thế nào để máy hiểu được cấu trúc của nó. Cũng đã tải xuống một vài công cụ như pdfminer của python và một số công cụ java, một số thậm chí có trích xuất bố cục dựa trên quy tắc, như LA-PDBtext đây là tất cả các thư viện tuyệt vời, để lại cho bạn bước cuối cùng.
Adobe cũng có một dịch vụ trực tuyến được gọi exportPdf nhưng nó không thể được tùy chỉnh
Bottom line, tôi hiểu rằng để trích xuất văn bản từ các tập tin pdf có cấu trúc và chuyển nó sang XML ví dụ, cần có một số mức độ công việc thủ công.
Tôi cũng tìm thấy From Data Extractor, một công cụ miễn phí với khả năng đặt quy tắc trích xuất xác nhận quyền sở hữu, mặc dù khó tìm thấy sổ tay phù hợp và chỉ chạy trên cửa sổ.
Tôi nghĩ tôi thậm chí có thể thử chuyển đổi các tệp đó thành hình ảnh và thử tesseract-ocr nhưng đã quyết định yêu cầu tư vấn tại đây trước khi tôi dành nhiều thời gian hơn cho nó.
Tôi sẽ rất biết ơn nếu ai đó có trải nghiệm như vậy cho tôi gợi ý.
Trừ khi các tệp PDF này tuân thủ PDF/A-1a, bạn đang ở trong rất nhiều công việc - về cơ bản bạn sẽ phải làm OCR. PDF không phải là định dạng đúng cho điều này; cố gắng lấy các hóa đơn và hóa đơn dưới dạng XML có cấu trúc đúng hoặc thay vì EDIFACT. –
Xin chào, tôi biết đây là một bài đăng cũ, nhưng hãy thử Tabula https://github.com/jazzido/tabula-extractor – blaze