Hình ảnh đã được chuyển đổi thành PDF đã được OCR'ed trong hậu quả để làm cho văn bản có thể tìm kiếm được thường chứa các phần văn bản được hiển thị là "ẩn". Vì vậy, những gì bạn nhìn thấy trên màn hình (hoặc trên giấy khi in) vẫn là hình ảnh gốc. Nhưng khi bạn tìm kiếm thành công, bạn sẽ nhận được các lần truy cập được tô sáng trên văn bản ẩn.
Tôi khuyên bạn nên xem xét các công cụ dòng lệnh có nguồn gốc từ XPDF pdffonts(.exe)
, pdfinfo(.exe)
và pdftotext(.exe)
. Xem đây để tải: http://www.foolabs.com/xpdf/download.html
sử dụng Ví dụ về pdffonts
:
C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
PDF này sử dụng phông chữ (chỉ định bởi các 'tên' cột), có họ nhúng (được chỉ ra bởi 'có' trong cột 'emb') và sử dụng phông chữ tập hợp con (được biểu thị bằng 'có' trong cột 'phụ').
C:\downloads\> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
PDF này sử dụng 2 phông chữ (được biểu thị bằng cột 'tên'). Phông chữ 'Universe-BlackOblique' được nhúng hoàn toàn (được biểu thị bằng chữ 'yes' trong cột 'emb' và 'no' trong cột 'sub'). Phông chữ 'Arial' cũng được sử dụng, nhưng không được nhúng.
C:\downloads\> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
PDF này không sử dụng một phông chữ duy nhất, và do đó không có bất kỳ văn bản nhúng (vì vậy không OCR hoặc là).
Ví dụ sử dụng pdftotext
:
C:\downloads\> pdftotext^
-layout^
cisco-ip-phone-7911-guide6.1.pdf^
cisco-ip-phone-7911-guide6.1.txt
này sẽ trích xuất tất cả các chuỗi văn bản từ PDF (cố gắng để bảo tồn một số giống của cách bố trí ban đầu). Nếu không có văn bản trong PDF, bạn muốn biết không có OCR ...
Nguồn
2010-06-24 09:08:00
Tôi đã thử cách tiếp cận của bạn nhưng đối với một số lệnh pdffile đã được quét "pdffonts" vẫn trả về phông chữ Helvetica? Bạn có thể giải thích hoặc hướng dẫn tôi làm thế nào tôi có thể đạt được điều này một cách chính xác hơn.Cảm ơn –
@DanglingPiyush: Không có mẫu của tệp Scan-PDF mà tôi không thể cho bạn biết là Helvetica xuất phát từ đó. Bạn có thể cung cấp một trang mẫu cho thấy hành vi này không? –
http://www.fileconvoy.com/dfl.php?id=gcc3a2153e00e0a7699953105370fc438c2a90509b Đây là liên kết đến mẫu pdf nó chỉ chứa hình ảnh được quét nhưng pdffonts hiển thị Phông chữ Helvectica.Xin vui lòng xem qua. –