Tesseract-OCR - Handschriftliche schriftart
Ich versuche, Tesseract-OCR zu erkennen, den text der Bilder mit reinem text, aber dieser text hat einen handgeschriebenen schriftart mit dem Namen Journal.
Beispiel:
Das Ergebnis ist nicht das beste:
Maxima! Größe` W (35)
Gibt es irgendeine Möglichkeit um das Ergebnis zu verbessern, oder eher um das genaue Ergebnis?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wie Andrew Cash erwähnt, es werde sehr schwierig sein, führen Sie OCR für T-Brief wegen seiner Kreuzung mit einer Anzahl der nächsten Zeichen.
Für die Ergebnisse, die Verbesserung, die Sie können versuchen wollen, eine genauere SDK. Haben Sie einen Blick auf ABBYY Cloud OCR SDK, es ist eine cloud-basierte OCR-SDK vor kurzem von ABBYY. Es ist in der beta, also für jetzt, es ist völlig kostenlos zu benutzen. Ich arbeite @ ABBYY und kann Ihnen weitere Informationen über unsere Produkte, wenn nötig. Ich habe geschickt das Bild, das Sie haben an unserem SDK und bekam diese Antwort:
Ich bin überrascht, Tesseract tut so gut. Mit ein wenig training sollten Sie in der Lage zu trainieren den Kleinbuchstaben 'l' werden korrekt erkannt wird.
Dem wichtigsten problem, das Sie haben, ist die Spitze des großen T-Zeichen. Die horizontale Linie erstreckt sich über 2 (vielleicht 3) andere Zeichen -, Zellen-und dies würde dazu führen, ein problem für jede OCR-engine, wenn er versucht, segment die Zeichen für Anerkennung. Die Ausbildung kann in der Lage sein, um Hilfe in diesem Fall.
Das nächste problem ist die . und : die sind sehr leicht/Dünn und sind möglicherweise entfernt mit Bild pre-processing bevor die OCR selbst beginnt.
Insgesamt die einzige chance zur Verbesserung der Ergebnisse mit Tesseract wäre zu untersuchen, Ausbildung. Hier sind einige links, die helfen können.
Alternative zu Tesseract-OCR-Training?
Tesseract-OCR-Bibliothek Lern-schriftart
Tesseract zwei zahlen verwechselt