Tesseract: Angabe der Regionen text

Ich bin mit tesseract-ocr-3.01 Scannen viele Formen. Die Formen Folgen alle einem template, also ich weiß schon, wo die Regionen/Rechtecke mit text sind.

Gibt es eine Möglichkeit zu geben diese Regionen zu tesseract bei der Verwendung des command-line-tool?

InformationsquelleAutor sashoalm | 2012-10-19

ocr tesseract

14

Fand ich die Antwort, Dank dieser thread.

Scheint es, dass tesseract suports die uzn-format (verwendet in der unvl tests).

Aus dem thread:

Aufruf von tesseract mit dem parameter "-psm-4" und umbenennen der Datei uzn
mit dem gleichen Namen, von der Bild scheinen funktioniert.

Beispiel: Wenn wir C:\input.tif und C:\input.uzn wir dies tun:
```
tesseract -psm 4 C:\input.tif C:\output
```
InformationsquelleAutor sashoalm
3

Dies ist vielleicht nicht die optimale Antwort, aber hier geht:

Ich bin mir nicht sicher, ob die command-line-tool Optionen für die Angabe von text-Regionen.

Was man tun kann, ist ein Tesseract-wrapper auf einer anderen Plattform (EmguCV hat Tesseract integriert). So erhalten Sie das das gescannte Bild zuschneiden, die text-Regionen, und geben Sie an die Tesseract one-at-a-time. Auf diese Weise werden Sie auch vermeiden, irgendwelche Ungenauigkeiten in der Tesserakt ist Seite-layout-Analyse.

zB.
```
Image<Gray,Byte> scannedImage = new Image<Gray,Byte>(path_to_scanned_image);
//assuming you know a text region
Image<Gray,Byte> textRegion = new Image(100,20);
scannedImage.ROI = new Rectangle(0,0,100,20);
scannedImage.copyTo(textRegion);
ocr.recognize(textRegion); 
```
- Hehe, das war meine fallback-plan, wenn die tesseract nicht akzeptieren Regionen 🙂
InformationsquelleAutor Osiris

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.