Benutzerwörterbuch für Tesseract
Ich arbeite derzeit an einem Projekt für android-mit tesseract-OCR. Ich hatte gehofft, um die Feinabstimmung der Ergebnisse an die Benutzer, indem ein Wörterbuch. Nach http://code.google.com/p/tesseract-ocr/wiki/FAQ , der beste Weg zu gehen über diese wäre
Ersetzen tessdata/eng.Benutzer-Worte mit Ihrem eigenen Wortliste, in die gleichen
format UTF - 8 text, ein Wort pro Zeile.
Allerdings gibt es keine eng.Benutzer-Wörter-Datei in der tessdata Ordner, ich gehe davon aus, dass, wenn ich nur eine text-Datei mit meinem Wörterbuch in es, es wird nie verwendet werden..
Hatte hat jemand eine ähnliche Erfahrung und weiß was zu tun ist? Jeder Rat wäre eine große Hilfe.
Du musst angemeldet sein, um einen Kommentar abzugeben.
wenn Sie mit tesseract 3 (die ich nehme an, Sie sind).
Sie müssen bauen Sie Ihren Dipl. - Ing.trainddata Datei
Ich beabsichtigte, auf das Wort zu ersetzen-dawg-Datei komplett, um zu versuchen, um bessere Ergebnisse zu erhalten (dh - die Worte, die ich erkennen, sind immer die gleichen).
müssen Sie combine_tessdata und wordlist2dawg ausführbare Dateien in der Ausbildung Verzeichnis beim kompilieren tesseract.
alles entpacken (ich Tat dies nur, um meine eng.Wort-dawg, Sie müssen auch die unicharset später)
./combine_tessdata -u Dipl. - Ing.traineddata
erstellen Sie eine Textdatei von Ihrer wordlist (wordlistfile)
erstellen. - Ing.word-Kumpel
./wordlist2dawg wordlistfile eng.word-Kumpel traineddat_backup/.unicharset
ersetzen Sie das Wort-dawg-Datei
./combine_tessdata -o. - Ing.traineddata. - Ing.word-Kumpel
dass sollte es sein.
Loading unicharset from 'traineddat_backup/.unicharset' Failed to load unicharset from 'traineddat_backup/.unicharset'
bitte helfen Sie mir, ich bin die es versuchen auf Ubuntu 12.04 und tesseract 3.02../combine_tessdata -u ita.traineddata /path/to/folder/tmp/ita.
die 3. ist./wordlist2dawg wordlist ita.word-dawg /path/to/folder/tmp/ita.unicharset
. Hoffe es hilft, ich schmeiß mich Weg 30 Minuten.