Tesseract-OCR-text, um Dokumente mit Tabellen oder Zeilen

Ich bin mit Tesseract-OCR zu konvertieren Sie gescannte PDF-Dateien in text. Insgesamt ist es sehr effektiv, aber ich habe Probleme mit der Bestellung, dass der text gescannt wird. Unterlagen mit tabellarischen Daten scheinen zu Scannen unten, Spalte für Spalte, wenn es scheint, wie die Natürliche Art und Weise wäre, um scan-Zeile für Zeile. Einem sehr kleinen Maßstab Beispiel wäre:

This is column A, row 1   This is column B, row 1    This is column C, row 1
This is column A, row 2   This is column B, row 2    This is column C, row 2

Trägt den folgenden text:

This is column A, row 1
This is column A, row 2
This is column B, row 1
This is column B, row 2
This is column C, row 1
This is column C, row 2

Ich fange an, Lesen Sie die Dokumentation und machen eine Vermutung und testen, brute-force-Ansatz mit Parameter, die hier dokumentiert aber wenn jemand schon in Angriff genommen einem ähnlichen Problem, ich würde schätzen, das Einblick auf das Update. Könnte es auch einige Trainingsdaten, aber ich weiß nicht genau, wie das funktioniert.

InformationsquelleAutor derdc | 2015-03-16

ocr tesseract

4

Versuchen Sie es mit tesseract in eine der einzigen Spalte Seite Segmentierung Modi:

tesseract input.tif output-filename --psm 6
Standardmäßig Tesseract erwartet, dass eine Seite text, wenn er zerlegt ein Bild. Wenn Sie einfach auf der Suche nach OCR-einer kleinen region versuchen, eine andere Segmentierung-Modus, mit dem -psm argument. Beachten Sie, dass das hinzufügen einen weißen Rand um text-das ist zu eng beschnitten kann auch helfen, siehe Ausgabe 398.

Finden Sie eine vollständige Liste der unterstützten Seite Segmentierung Modi, verwenden Sie tesseract -h. Hier ist die [ed: Auszug nur] Liste von 3.21:
1. Vollautomatischen Seite Segmentierung, aber kein OSD. (Standard)
2. Davon ausgehen, eine einzelne Spalte von text unterschiedlicher Größe.
3. Übernehmen, um einen einheitlichen block, der sich vertikal ausgerichteten text.
4. Übernehmen, um einen einheitlichen Textblock.
Siehe Beispiele hier: #mit-anderen-Seite-Segmentierung-Modi
- Sollte nicht der Befehl sein: "tesserakt-Eingang.tif output-filename-psm 6" ? Beachten Sie die einzigen hifen vor der psm-parameter
InformationsquelleAutor ptim
1

Ich weiß, das ist eine alte Frage, aber ich habe gekämpft, mit einem ähnlichen Problem und fand hOCR Ausgabe die Lösung zu sein. Läuft
```
tesseract input.tif output-filename hocr
```
erstellen output-file.hocr (hauptsächlich HTML), gibt die Koordinaten für die bounding boxes der einzelnen phrase. Es ist bis zu Ihnen, um zu bestimmen, wie die Rekonstruktion der Tabelle aus diesen Daten (wahrscheinlich anhand der Dimensionen des eingabebildes).

Als in den anderen Antworten, der Angabe von bestimmten Seite Segmentierung Modus kann hilfreich sein, immer die Sätze der Tabelle gruppiert entsprechend, aber die Koordinaten geben das genaue Ergebnis notwendig.

InformationsquelleAutor R. Shafer

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.