Tôi đã sử dụng SDK OCR Tesseract 3.0.2 để trích xuất văn bản hình ảnh. Nhưng nếu tôi sử dụng hình ảnh văn bản Trung Quốc và đi qua OCR thì Tesseract không cung cấp cho tôi các ký tự Trung Quốc thay vì tôi nhận được các ký tự số và tiếng Anh. Nhưng tôi cần các ký tự Trung Quốc như được hiển thị trong hình ảnh tôi đang sử dụng.Nhận dạng ký tự tiếng Trung bằng Tesseract OCR
Tôi làm cách nào để đạt được điều này? Có cách nào tôi có thể có được nhân vật Trung Quốc hơn là bất kỳ nhân vật khác?
Cảm ơn nó hoạt động :-) –
Alok, tôi đã thử mẫu của bạn và nó hoạt động tốt trên một nửa số ký tự Trung Quốc đơn giản mà tôi đã thử. Đối với phần còn lại, nó có thể nhận ra một ký tự ghép là một số ký tự khác nhau, mỗi ký tự đại diện cho một thành phần trong ký tự ghép hoặc hoàn toàn sai. Bạn có biết phương pháp nào để cải thiện độ chính xác của sự công nhận không? – CodePlumber
Liên kết dữ liệu được đào tạo mới là https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –