Đây là bài đăng đầu tiên của tôi trong StackOverflow.Tìm kiếm từ cụ thể bằng PDF bằng Itextsharp
Tôi có tệp PDF trong Ổ đĩa hệ thống của mình ... Tôi muốn viết chương trình bằng C# bằng cách sử dụng tham chiếu Itextsharp.dll để tìm kiếm từ cụ thể trong tệp PDF đó ... nói rằng tôi muốn tìm kiếm "StackOverFlow". .. Nếu tệp PDF chứa từ "StackOverFlow", nó sẽ trả về true.
Khác nó sẽ trả về false.
tôi đã nhìn vào nhiều bài viết nhưng đã không nhận được giải pháp cho đến bây giờ .. :-(
Những gì tôi đã cố gắng cho đến bây giờ là:
public string ReadPdfFile(string fileName)
{
StringBuilder text = new StringBuilder();
if (File.Exists(fileName))
{
PdfReader pdfReader = new PdfReader(fileName);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = "2154/MUM/2012 A";// PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
}
pdfReader.Close();
}
return text.ToString();
}
Cảm ơn trước, Sabya Dev
Bạn có 'PdfTextExtractor.GetTextFromPage (pdfReader, trang, chiến lược) .' Và bạn có chuỗi bạn tìm kiếm. Bạn đã kiểm tra xem chuỗi tìm kiếm của bạn có nằm trong kết quả của phương thức 'GetTextFromPage' chưa? Nếu nó không phải là, bạn đã kiểm tra những gì sự trở lại của phương pháp đó trông giống như (nó là một chuỗi sau khi tất cả)? – mkl