Wie bewahren Sie die Struktur Ihrer Dokumente in tesseract

Ich bin mit tesseract-ocr zu extrahieren von text aus einem Bild. Erhalten Sie die Struktur des Dokuments ist sehr wichtig für mich. Derzeit tesseract nicht die Erhaltung der Struktur, es ändert sich die Reihenfolge von text. Mein input ist das Bild unten.

Wie bewahren Sie die Struktur Ihrer Dokumente in tesseract

und die Ausgabe die ich erhalte ist wie folgt:

Someto the left
Someto the left

Some in the middle
Some in the middle

Some with some tab
Some with some tab

Some with some space between them
Some with some space between them

Sometext here
Sometext here

this much
this much

Wie bekomme ich die gewünschte Ausgabe in Form von der gleichen Struktur im Bild?

also wie folgt:

                                                 Some text here
                                                 Some text here

Some to the left
Some to the left

                    Some in the middle
                    Some in the middle

        Some with some tab
        Some with some tab

Some with some space between them                       this much
Some with some space between them                       this much
InformationsquelleAutor Sar009 | 2014-03-24
Schreibe einen Kommentar