Tesseract SetVariable tessedit_char_whitelist in einer anderen Sprache
Tesseract setVariable-whitelist funktioniert ok, für englische Sprache, zum Beispiel nutze ich dies, um zu erkennen, nur Ziffern und Buchstaben aus dem Bild ein (ohne Sonderzeichen &*^%! etc)
_ocr.SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");
Aber ich kann das nicht tun das gleiche für die Thailändische Sprache
_ocr.SetVariable("tessedit_char_whitelist","0123456789กขคงจฉ");
Ist es ein anderes Prinzip? Da dies nicht funktioniert. Statt bestimmt alle Zeichen, die ich erhalten nur die Ziffern in der Ausgabe, tesseract ignoriert alle Thai-Buchstaben, die ich in der whitelist.
Wie kann ich pass diese variable richtig?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Müssen Sie möglicherweise verwenden Sie das language-Paket für Thai ersten..., bitte laden Sie die Liste hier https://code.google.com/p/tesseract-ocr/downloads/list
Dann müssen Sie zu ersetzen "eng" mit "tha" im code, um die neue Sprache verwenden, Daten zu OCR