Tesseract-OCR-text, um Dokumente mit Tabellen oder Zeilen

Ich bin mit Tesseract-OCR zu konvertieren Sie gescannte PDF-Dateien in text. Insgesamt ist es sehr effektiv, aber ich habe Probleme mit der Bestellung, dass der text gescannt wird. Unterlagen mit tabellarischen Daten scheinen zu Scannen unten, Spalte für Spalte, wenn es scheint, wie die Natürliche Art und Weise wäre, um scan-Zeile für Zeile. Einem sehr kleinen Maßstab Beispiel wäre:

This is column A, row 1   This is column B, row 1    This is column C, row 1
This is column A, row 2   This is column B, row 2    This is column C, row 2

Trägt den folgenden text:

This is column A, row 1
This is column A, row 2
This is column B, row 1
This is column B, row 2
This is column C, row 1
This is column C, row 2

Ich fange an, Lesen Sie die Dokumentation und machen eine Vermutung und testen, brute-force-Ansatz mit Parameter, die hier dokumentiert aber wenn jemand schon in Angriff genommen einem ähnlichen Problem, ich würde schätzen, das Einblick auf das Update. Könnte es auch einige Trainingsdaten, aber ich weiß nicht genau, wie das funktioniert.

InformationsquelleAutor derdc | 2015-03-16
Schreibe einen Kommentar