Tôi hiện đang làm việc trên một dự án cho android sử dụng tesseract OCR. Tôi đã hy vọng sẽ tinh chỉnh kết quả cho người dùng bằng cách thêm từ điển. Theo http://code.google.com/p/tesseract-ocr/wiki/FAQ, cách tốt nhất để đi về vấn đề này sẽ đượcTừ điển tùy chỉnh cho Tesseract
Thay tessdata/eng.user-từ với danh sách từ của riêng bạn, trong cùng định dạng - văn bản UTF8, một từ trên mỗi dòng.
Tuy nhiên có nộp không eng.user-từ trong thư mục tessdata, tôi giả sử rằng nếu tôi chỉ tạo ra một tập tin văn bản với từ điển của tôi trong nó, nó sẽ không bao giờ được sử dụng ..
Có ai có trải nghiệm tương tự và biết phải làm gì? Mọi lời khuyên sẽ là một trợ giúp lớn.
Tôi cố gắng để thực hiện bước này 3 nhưng có này lỗi 'Đang tải unicharset từ 'traineddat_backup/.unicharset' Không tải được unicharset từ 'traineddat_backup/.unicharset'' Vui lòng giúp đỡ tôi, tôi đang cố gắng để làm điều đó trên Ubuntu 12.04 và tesseract 3.02. –
@MuhammadMuaz: 'trainingdat_backup/.unicharset' là đường dẫn đến thư mục đầu ra của lệnh 1 cmd. Nếu cmd đầu tiên là './combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita.' thì thứ 3 là' ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita. unicharset'. Hy vọng nó sẽ giúp, tôi vứt đi 30 phút trên đó. – Tenaciousd93