Chúng tôi có một hệ thống phân tích các tệp PDF và kéo văn bản bên trong để lập chỉ mục và như vậy. Một vấn đề mà chúng tôi gặp phải là Illustrator đặt các từ có chứa "fi" để sử dụng dây chằng cho fi (đơn glyph).Cách quyết định Hệ số cho "FI" trong Java (và các loại khác)
Ví dụ: dòng này ...
"băng ghế dự bị và gạch men thủy tinh giàu."
Hiển thị như thế này trong trình gỡ lỗi Java của tôi
"ete bench and rich vitri \ u001Fed ceramic tile."
Dường như \ u001F là mã ký tự mà các tệp Adobe PDF sử dụng cho "fi" kết nối. Tôi rõ ràng có thể hoán đổi sự xuất hiện của \ u001F cho "fi" nhưng không ai biết một cách mạnh mẽ để xử lý này và các trường hợp như nó?
ick. họ đang sử dụng các ký tự điều khiển unicode? !!! –
không có nhiều chữ ghép: ff, fl, ffl, fi, ffi là những chữ cái chính (ít nhất là bằng tiếng Anh.) –
Adobe có nhiều bộ mã hóa ký tự. Vì vậy, nó phụ thuộc vào thư viện PDF; ví dụ trên văn bản một chọn một phông chữ và một mã hóa như CP1252 hay như vậy. Trong trường hợp của bạn, giải pháp hiện tại duy nhất có thể được tìm thấy tại đây http://superuser.com/questions/220363/cleaning-up-pdftotext-font-issues –