Wo finde ich samples von HOCR-Dateien?
Wo finde ich Beispiele oder Beispiele von Dateien im hocr-format? (Das format, in dem OCR extrahiert text gespeichert ist, mit Seiten-Koordinaten.)
Habe ich gesucht auf Google, aber nicht die Art von Proben.
Dank!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie Tesseract's Befehlszeilen-option "hocr", um output-Ergebnisse im hocr-format:
Hier ist ein fragment, eine hOCR-Datei mit ein paar Zeilenumbrüche Hinzugefügt, um die Lesbarkeit zu verbessern. Leider weiß ich nicht mehr welches tool wurde verwendet, um es (möglicherweise ocropus), aber ich denke, dass tesseract 3.01 und vielleicht auch anderen definiert Sie die Begrenzungsbox für jedes Wort und nicht jeder Brief in Ihrer hOCR-Ausgabe.