2012-03-05 9 views
10

Tôi hiện đang làm việc trên một dự án cho android sử dụng tesseract OCR. Tôi đã hy vọng sẽ tinh chỉnh kết quả cho người dùng bằng cách thêm từ điển. Theo http://code.google.com/p/tesseract-ocr/wiki/FAQ, cách tốt nhất để đi về vấn đề này sẽ đượcTừ điển tùy chỉnh cho Tesseract

Thay tessdata/eng.user-từ với danh sách từ của riêng bạn, trong cùng định dạng - văn bản UTF8, một từ trên mỗi dòng.

Tuy nhiên có nộp không eng.user-từ trong thư mục tessdata, tôi giả sử rằng nếu tôi chỉ tạo ra một tập tin văn bản với từ điển của tôi trong nó, nó sẽ không bao giờ được sử dụng ..

Có ai có trải nghiệm tương tự và biết phải làm gì? Mọi lời khuyên sẽ là một trợ giúp lớn.

Trả lời

9

nếu bạn đang sử dụng tesseract 3 (mà tôi cho là bạn). Bạn sẽ phải xây dựng lại tệp eng.trainddata Tôi dự định thay thế tệp từ-dawg hoàn toàn để cố gắng có được kết quả tốt hơn (nghĩa là - những từ tôi phát hiện luôn giống nhau).

bạn sẽ cần tệp thực thi connect_tessdata và wordlist2dawg trong thư mục đào tạo khi bạn biên dịch tesseract.

  1. mọi giải nén (tôi đã làm điều này chỉ để sao lưu của tôi eng.word-Dawg, bạn cũng sẽ cần unicharset sau)

    ./combine_tessdata -u eng.traineddata

  2. tạo ra một textfile của wordlist của bạn (wordlistfile)

  3. tạo eng.word-Dawg

    ./wordlist2dawg wordlistfile eng.word-Dawg traineddat_backup/.unicharset

  4. thay thế các file word-Dawg

    ./combine_tessdata -o eng.traineddata eng.word-Dawg

nên là vậy.

+1

Tôi cố gắng để thực hiện bước này 3 nhưng có này lỗi 'Đang tải unicharset từ 'traineddat_backup/.unicharset' Không tải được unicharset từ 'traineddat_backup/.unicharset'' Vui lòng giúp đỡ tôi, tôi đang cố gắng để làm điều đó trên Ubuntu 12.04 và tesseract 3.02. –

+0

@MuhammadMuaz: 'trainingdat_backup/.unicharset' là đường dẫn đến thư mục đầu ra của lệnh 1 cmd. Nếu cmd đầu tiên là './combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita.' thì thứ 3 là' ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita. unicharset'. Hy vọng nó sẽ giúp, tôi vứt đi 30 phút trên đó. – Tenaciousd93