Tesseract: Angabe der Regionen text
Ich bin mit tesseract-ocr-3.01 Scannen viele Formen. Die Formen Folgen alle einem template, also ich weiß schon, wo die Regionen/Rechtecke mit text sind.
Gibt es eine Möglichkeit zu geben diese Regionen zu tesseract bei der Verwendung des command-line-tool?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Fand ich die Antwort, Dank dieser thread.
Scheint es, dass tesseract suports die uzn-format (verwendet in der unvl tests).
Aus dem thread:
Beispiel: Wenn wir
C:\input.tif
undC:\input.uzn
wir dies tun:Dies ist vielleicht nicht die optimale Antwort, aber hier geht:
Ich bin mir nicht sicher, ob die command-line-tool Optionen für die Angabe von text-Regionen.
Was man tun kann, ist ein Tesseract-wrapper auf einer anderen Plattform (EmguCV hat Tesseract integriert). So erhalten Sie das das gescannte Bild zuschneiden, die text-Regionen, und geben Sie an die Tesseract one-at-a-time. Auf diese Weise werden Sie auch vermeiden, irgendwelche Ungenauigkeiten in der Tesserakt ist Seite-layout-Analyse.
zB.