Tesseract-training für eine neue schriftart
Ich bin noch neu auf Tesseract-OCR und nachdem er es in mein script es bemerkt hatte, eine relativ große Fehlerquote für die Bilder, die ich versuchte, zu extrahieren text aus. Ich kam über Tesseract Ausbildung, die angeblich in der Lage sein würde, zu verringern, error rate für eine bestimmte schriftart, die Sie verwenden würden. Ich stieß auf eine website ( http://ocr7.com/ ), das ein Werkzeug ist angetrieben von Anyline, alles zu tun, die Ausbildung für eine schriftart, die Sie angeben. So erhielt ich eine .traineddata-Datei und ich bin mir nicht ganz sicher, was damit zu tun. Könnte jemand erklären, was ich zu tun habe mit dieser Datei, damit es funktioniert? Oder sollte ich einfach lernen, wie man Tesseract Ausbildung die manuelle Methode, die nach dem Anyline website können die Arbeit eines Tages. Vielen Dank im Voraus.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Für jedermann, das ist immer noch zu Lesen, Sie können dieses tool verwenden, um eine traineddata-Datei, welche schriftart, die Sie wollen. Danach bewegen Sie den traineddata-Datei in Ihrem tessdata Ordner. Verwenden tesseract mit der neuen schriftart in Python oder einer anderen Sprache (ich glaube?) setzen
lang = "Font"
als zweiten parameter image_to_string Funktion. Es verbessert die Genauigkeit erheblich, kann aber immer noch Fehler machen, natürlich. Oder können Sie nur lernen, wie man zu trainieren tesseract für eine neue schriftart manuell mit dieser Anleitung: http://pretius.com/how-to-prepare-training-files-for-tesseract-ocr-and-improve-characters-recognition/.Wenn Sie trainieren möchten, tesseract mit der neuen Schrift, dann generieren .traineddata-Datei mit Ihrer gewünschten schriftart. Für die Generierung .traineddata, zuerst müssen Sie .tiff-Datei und .box-Datei. Sie erstellen kann diese Dateien mit jTessBoxEditor. Tutorial für jBossTextEditor ist hier. Während der Herstellung .tiff-Datei Sie können die schriftart festlegen, in dem Sie trainieren tesseract. Sie können entweder jTessBoxEditor für die Generierung .traineddata oder serak-tesserakt-trainer ist auch da. Ich habe beide und ich würde sagen, dass für die Erzeugung von tiff-und box-Dateien jTessBoxEditor ist groß und die Ausbildung von tesseract verwenden serak.
Ich habe ein video-tutorial zu erklären, den Prozess für die neueste version von Tesseract (Die LSTM-Modell), hoffe es hilft. https://www.youtube.com/watch?v=TpD76k2HYms