Gibt es eine Möglichkeit zur Verbesserung der tesseract OCR mit kleinen Schriften?
Ich versuche, tesseract-OCR via python-tesseract zu Lesen, eine niedrige Auflösung, schriftart, die so aussieht:
Leider das Bild kehrt zurück,
ZIJZHZI
Ich denke, die Auflösung ist zu gering und verursacht Probleme. Ich habe versucht, vergrößern Sie das Bild und beschneiden es bis hinunter zu einzelnen Zeichen, aber weder von diesen bieten viel verbessert. Gibt es etwas, was ich sollte in Erwägung ziehen, am besten etwas, dass getan werden könnte, mit Hilfe der Python Imaging Library? Oder sollte ich einfach aufgeben, Zug - /tesseract.
Für was es Wert ist, die PIL verfügt über die folgenden eingebauten Filter:
BEWEGUNGSUNSCHÄRFE, KONTUR, DETAIL, EDGE_ENHANCE,
EDGE_ENHANCE_MORE, RELIEF, FIND_EDGES,
GLATTE, SMOOTH_MORE und SCHÄRFEN
- versuchen x6 ändern der Größe mit anti-aliasing. Ich habe versucht, dass auf screenshots und bekam gute Ergebnisse.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Habe ich versucht, um das Bild zu vergrößern mit:
Und dann Lesen Sie es:
Das Ergebnis ist richtig:
convert
tun den job, abertesseract out.bmp stdout -psm 12
diepsm 12
war Voraussetzung