Gibt es eine Möglichkeit zur Verbesserung der tesseract OCR mit kleinen Schriften?

Ich versuche, tesseract-OCR via python-tesseract zu Lesen, eine niedrige Auflösung, schriftart, die so aussieht:

Leider das Bild kehrt zurück,

ZIJZHZI

Ich denke, die Auflösung ist zu gering und verursacht Probleme. Ich habe versucht, vergrößern Sie das Bild und beschneiden es bis hinunter zu einzelnen Zeichen, aber weder von diesen bieten viel verbessert. Gibt es etwas, was ich sollte in Erwägung ziehen, am besten etwas, dass getan werden könnte, mit Hilfe der Python Imaging Library? Oder sollte ich einfach aufgeben, Zug - /tesseract.

Für was es Wert ist, die PIL verfügt über die folgenden eingebauten Filter:

BEWEGUNGSUNSCHÄRFE, KONTUR, DETAIL, EDGE_ENHANCE,

EDGE_ENHANCE_MORE, RELIEF, FIND_EDGES,

GLATTE, SMOOTH_MORE und SCHÄRFEN

versuchen x6 ändern der Größe mit anti-aliasing. Ich habe versucht, dass auf screenshots und bekam gute Ergebnisse.

InformationsquelleAutor Riazm | 2011-02-05

17

Habe ich versucht, um das Bild zu vergrößern mit:
```
  convert -resize 400% in.bmp out.bmp
```
Und dann Lesen Sie es:
```
  tesseract out.bmp res
```
Das Ergebnis ist richtig:
```
  100
```
- Was ist das "convert" - Befehl von der Sie sprechen?
- convert ist ein Teil von ImageMagick, und es ist nur die Größe des Bildes
- es hat mir geholfen, bei normaler Auflösung das Ergebnis war "mm readmxs'", nach der die Größe der Ausgabedatei lautet: "Können Sie das Lesen?"
- können Sie uns das Bild?
- Genial Lösung!
- convert tun den job, aber tesseract out.bmp stdout -psm 12 die psm 12 war Voraussetzung
InformationsquelleAutor Hristo Hristov

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.