Tesseract-OCR-text, um Dokumente mit Tabellen oder Zeilen
Ich bin mit Tesseract-OCR zu konvertieren Sie gescannte PDF-Dateien in text. Insgesamt ist es sehr effektiv, aber ich habe Probleme mit der Bestellung, dass der text gescannt wird. Unterlagen mit tabellarischen Daten scheinen zu Scannen unten, Spalte für Spalte, wenn es scheint, wie die Natürliche Art und Weise wäre, um scan-Zeile für Zeile. Einem sehr kleinen Maßstab Beispiel wäre:
This is column A, row 1 This is column B, row 1 This is column C, row 1
This is column A, row 2 This is column B, row 2 This is column C, row 2
Trägt den folgenden text:
This is column A, row 1
This is column A, row 2
This is column B, row 1
This is column B, row 2
This is column C, row 1
This is column C, row 2
Ich fange an, Lesen Sie die Dokumentation und machen eine Vermutung und testen, brute-force-Ansatz mit Parameter, die hier dokumentiert aber wenn jemand schon in Angriff genommen einem ähnlichen Problem, ich würde schätzen, das Einblick auf das Update. Könnte es auch einige Trainingsdaten, aber ich weiß nicht genau, wie das funktioniert.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Versuchen Sie es mit tesseract in eine der einzigen Spalte Seite Segmentierung Modi:
tesseract input.tif output-filename --psm 6
Siehe Beispiele hier: #mit-anderen-Seite-Segmentierung-Modi
Ich weiß, das ist eine alte Frage, aber ich habe gekämpft, mit einem ähnlichen Problem und fand hOCR Ausgabe die Lösung zu sein. Läuft
erstellen
output-file.hocr
(hauptsächlich HTML), gibt die Koordinaten für die bounding boxes der einzelnen phrase. Es ist bis zu Ihnen, um zu bestimmen, wie die Rekonstruktion der Tabelle aus diesen Daten (wahrscheinlich anhand der Dimensionen des eingabebildes).Als in den anderen Antworten, der Angabe von bestimmten Seite Segmentierung Modus kann hilfreich sein, immer die Sätze der Tabelle gruppiert entsprechend, aber die Koordinaten geben das genaue Ergebnis notwendig.