Tesseract-training für eine neue schriftart

Ich bin noch neu auf Tesseract-OCR und nachdem er es in mein script es bemerkt hatte, eine relativ große Fehlerquote für die Bilder, die ich versuchte, zu extrahieren text aus. Ich kam über Tesseract Ausbildung, die angeblich in der Lage sein würde, zu verringern, error rate für eine bestimmte schriftart, die Sie verwenden würden. Ich stieß auf eine website ( http://ocr7.com/ ), das ein Werkzeug ist angetrieben von Anyline, alles zu tun, die Ausbildung für eine schriftart, die Sie angeben. So erhielt ich eine .traineddata-Datei und ich bin mir nicht ganz sicher, was damit zu tun. Könnte jemand erklären, was ich zu tun habe mit dieser Datei, damit es funktioniert? Oder sollte ich einfach lernen, wie man Tesseract Ausbildung die manuelle Methode, die nach dem Anyline website können die Arbeit eines Tages. Vielen Dank im Voraus.

InformationsquelleAutor user19235 | 2016-12-23

ocr tesseract

6

Für jedermann, das ist immer noch zu Lesen, Sie können dieses tool verwenden, um eine traineddata-Datei, welche schriftart, die Sie wollen. Danach bewegen Sie den traineddata-Datei in Ihrem tessdata Ordner. Verwenden tesseract mit der neuen schriftart in Python oder einer anderen Sprache (ich glaube?) setzen lang = "Font"als zweiten parameter image_to_string Funktion. Es verbessert die Genauigkeit erheblich, kann aber immer noch Fehler machen, natürlich. Oder können Sie nur lernen, wie man zu trainieren tesseract für eine neue schriftart manuell mit dieser Anleitung: http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/.
- Hallo, weißt du, wie ich erstellen können font-Dateien für die Ausbildung? Zum Beispiel, wenn ich ein paar Geräte, die ich will OCR deren Seriennummer, wie erstelle ich die schriftart-Dateien für Sie, um zu trainieren Tesseract?
- href="https://stackoverflow.com/questions/37875301">diese Frage kann helfen. Oder suchen Sie einfach.
InformationsquelleAutor user19235
0

Wenn Sie trainieren möchten, tesseract mit der neuen Schrift, dann generieren .traineddata-Datei mit Ihrer gewünschten schriftart. Für die Generierung .traineddata, zuerst müssen Sie .tiff-Datei und .box-Datei. Sie erstellen kann diese Dateien mit jTessBoxEditor. Tutorial für jBossTextEditor ist hier. Während der Herstellung .tiff-Datei Sie können die schriftart festlegen, in dem Sie trainieren tesseract. Sie können entweder jTessBoxEditor für die Generierung .traineddata oder serak-tesserakt-trainer ist auch da. Ich habe beide und ich würde sagen, dass für die Erzeugung von tiff-und box-Dateien jTessBoxEditor ist groß und die Ausbildung von tesseract verwenden serak.

InformationsquelleAutor Yash Modi
0

Ich habe ein video-tutorial zu erklären, den Prozess für die neueste version von Tesseract (Die LSTM-Modell), hoffe es hilft. https://www.youtube.com/watch?v=TpD76k2HYms

InformationsquelleAutor Gabriel Garcia

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.