Tôi đang tìm thư viện PDF cho phép tôi trích xuất văn bản từ tài liệu PDF. Tôi đã xem xét PyPDF, và điều này có thể trích xuất văn bản từ một tài liệu PDF rất độc đáo. Vấn đề với điều này là nếu có các bảng trong tài liệu, văn bản trong các bảng được trích xuất nội dòng với phần còn lại của văn bản tài liệu. Điều này có thể có vấn đề bởi vì nó tạo ra các phần văn bản không hữu ích và trông bị cắt xén (ví dụ, nhiều số được trộn với nhau).Phân tích cú pháp PDF nâng cao Sử dụng Python (trích xuất văn bản không có bảng, vv): Thư viện tốt nhất là gì?
Tôi đang tìm kiếm thứ gì đó tiên tiến hơn một chút. Tôi muốn trích xuất văn bản từ tài liệu PDF, trừ bất kỳ bảng nào và định dạng đặc biệt. Có thư viện nào ngoài đó không? Hoặc tôi buộc phải làm một số hậu xử lý trên văn bản đầu ra để loại bỏ các phần này?
PDFMiner trông thú vị. Tôi có thể sử dụng đầu ra XML từ nó, và sau đó phân tích cú pháp đó để bỏ qua những gì tôi không muốn. Điều này vẫn yêu cầu xử lý hậu kỳ đáng kể, nhưng bây giờ nó có lẽ là giải pháp tốt nhất. Cảm ơn bạn. –
@Etienne, điều này có thể được sử dụng nếu PDF có các ký tự ngôn ngữ khác không? –
Nó sẽ hoạt động với các ký tự ngôn ngữ khác. Tài liệu đề cập đến: ngôn ngữ CJK và hỗ trợ viết kịch bản theo chiều dọc. Cách tốt nhất để chắc chắn, kiểm tra nó! – Etienne