Benutzerwörterbuch für Tesseract

Ich arbeite derzeit an einem Projekt für android-mit tesseract-OCR. Ich hatte gehofft, um die Feinabstimmung der Ergebnisse an die Benutzer, indem ein Wörterbuch. Nach http://code.google.com/p/tesseract-ocr/wiki/FAQ , der beste Weg zu gehen über diese wäre

Ersetzen tessdata/eng.Benutzer-Worte mit Ihrem eigenen Wortliste, in die gleichen
format UTF - 8 text, ein Wort pro Zeile.

Allerdings gibt es keine eng.Benutzer-Wörter-Datei in der tessdata Ordner, ich gehe davon aus, dass, wenn ich nur eine text-Datei mit meinem Wörterbuch in es, es wird nie verwendet werden..

Hatte hat jemand eine ähnliche Erfahrung und weiß was zu tun ist? Jeder Rat wäre eine große Hilfe.

InformationsquelleAutor TomSelleck | 2012-03-05

10

wenn Sie mit tesseract 3 (die ich nehme an, Sie sind).
Sie müssen bauen Sie Ihren Dipl. - Ing.trainddata Datei
Ich beabsichtigte, auf das Wort zu ersetzen-dawg-Datei komplett, um zu versuchen, um bessere Ergebnisse zu erhalten (dh - die Worte, die ich erkennen, sind immer die gleichen).

müssen Sie combine_tessdata und wordlist2dawg ausführbare Dateien in der Ausbildung Verzeichnis beim kompilieren tesseract.
1. alles entpacken (ich Tat dies nur, um meine eng.Wort-dawg, Sie müssen auch die unicharset später)
  
  ./combine_tessdata -u Dipl. - Ing.traineddata
2. erstellen Sie eine Textdatei von Ihrer wordlist (wordlistfile)
3. erstellen. - Ing.word-Kumpel
  
  ./wordlist2dawg wordlistfile eng.word-Kumpel traineddat_backup/.unicharset
4. ersetzen Sie das Wort-dawg-Datei
  
  ./combine_tessdata -o. - Ing.traineddata. - Ing.word-Kumpel
dass sollte es sein.
- Ich bin versucht, um diesen Schritt auszuführen, die 3, aber mit diesem Fehler Loading unicharset from 'traineddat_backup/.unicharset' Failed to load unicharset from 'traineddat_backup/.unicharset' bitte helfen Sie mir, ich bin die es versuchen auf Ubuntu 12.04 und tesseract 3.02.
- ist der Pfad zum Ordner, der die Ausgabe des 1. cmd. Wenn die erste cmd war ./combine_tessdata -u ita.traineddata /path/to/folder/tmp/ita. die 3. ist ./wordlist2dawg wordlist ita.word-dawg /path/to/folder/tmp/ita.unicharset. Hoffe es hilft, ich schmeiß mich Weg 30 Minuten.
InformationsquelleAutor roocell

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.