Bildvorverarbeitung vor der OCR-Prozess
Mein Aktuelles Projekt umfasst Transkriptionen von Texten in pdf-Dateien in text-Dateien, und ich zuerst versucht, indem Sie die Bild-Datei direkt in das OCR-Programm (tesseract) und es nicht' gut tun.
Die original-Bilddateien sind alte Zeitungen, im Grunde, und haben einige hintergrund-Geräusche, die ich bin sicher, dass tesseract hat problem mit. Also ich bin versucht, einige Bild-Vorverarbeitung vor der Einspeisung in tesseract. Ist es eine Anregung für die open-source-bildvorverarbeitung-Motor passt gut zu dieser situation??? Und Anweisungen, wie es zu verwenden wäre, noch mehr zu schätzen !
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hörte ich nie von einem "bildvorverarbeitung Motor" für diesen Zweck, aber Sie können einen Blick auf OpenCV (Open Source Computer Vision Library) und setzen Sie Ihre eigene "pre-processing-engine". OpenCV ist ein computer-vision-Bibliothek bietet viele Funktionen zum durchführen der Bildverarbeitung.
Eine interessante Sache, möchten Sie vielleicht testen Sie als preprocessing-Schritt ist, gelten ein Schwelle, um das Bild zu entfernen, Geräuschen und dem Material. Trotzdem, ich gesprochen habe über diese Art von Sachen in dieser thread.
Wie @karlphillip erwähnt, dass ich sehr Zweifel, es ist ein leicht verfügbar preprocessing engine für Ihre Zwecke, wie die Vorverarbeitung der Technik stark variieren mit dem gewünschten Ergebnis.
Einige gemeinsame Ansätze für die Aufklärung der text in verrauschten Bildern gehören:
1. Adaptive schwellenwertbestimmung (Sauvola oder Niblack (Binarisierung)
2. Die Anwendung eines median-filter der Größe etwas größer als der text um ein Bild im hintergrund, dann subtrahieren Sie den hintergrund vom original Bild (zum entfernen der größeren Lärm wie Falten, Flecken, handschriftliche Notizen, etc.).
OpenCV hat Implementierungen der Filter - /Binarisierung Methoden. Wenn Sie Zugriff auf veröffentlichte Literatur gibt ' s schon ein bisschen Arbeit, auf die Binarisierung von lauten Dokumente.
Check-out ScanTailor. Es hat ziemlich beeindruckende pre-processing-Funktionen, und es ist open source.