TensorFlow - Texterkennung in Bild

Ich bin neu TensorFlow und Tiefen Lernen.
Ich versuche zu erkennen, text in naturel-Szene Bilder. Ich verwendet, um arbeiten mit einer OCR-aber ich würde gern von Deep Learning. Der text hat immer das gleiche format :
ABC-DEF 88:88.

Was ich gemacht habe, ist erkennen, jedes Zeichen/Ziffer. Es bedeutet, dass ich beschnitten das Bild um jeden Charakter (also jedes Bild gibt mir 10 Zeichen) zu bauen meine Trainings-und Testsatz und bauen Sie sich ein zwei conv neuronale Netze. Also meine Ausbildung war eine Reihe von Zeichen, die Bilder und die Beschriftungen waren nur Zeichen/Ziffern.

Aber ich möchte noch weiter gehen. Was ich tun möchte, ist nur zu geben, die voller Bilder und die Ausgabe der gesamte text (nicht zu einem Charakter wie in meinem vorherigen Modell).

Vielen Dank im Voraus für jede Hilfe.

InformationsquelleAutor A. Attia | 2017-02-15

5

Die Schwierigkeit ist, dass Sie nicht wissen, wo der text ist. Die Lösung ist, ein Bild, das Sie benötigen, um ein gleitendes Fenster zuschneiden anderen Teil des Bildes, dann mit einem Klassifizierer, um zu entscheiden, ob es Texte gibt, in den zugeschnittenen Bereich. Wenn so, verwenden Sie Ihre Zeichen/Ziffer-Erkennung zu erkennen, welche Buchstaben/Ziffern Sie wirklich sind.

Also müssen Sie trainieren eine andere classifer: gegeben ein zugeschnittenes Bild (Größe der Bilder sollte etwas größer als die Ihrer text-Bereich), zu entscheiden, ob es Texte gibt, innen.

Nur Konstrukt Trainings-set (positive Proben sind auch Texte, die negativen Beispiele sind in anderen Bereichen nach dem Zufallsprinzip abgeschnitten von der großen Bilder) und Zug~
- Danke, aber sollte dies classifier (gleitendes Fenster) muss ein convnet ? Die Ausbildung muss enthalten multi-Zeichen-text-Bereichen oder auch nur einem Charakter ?
- Ein convnet ist gut und einfach zu implementieren, wenn Sie mit TensorFlow, Caffe oder einige andere deep learning framework, aber möglicherweise langsam in der Erkennungsphase (weil Sie müssen, schieben Sie das Fenster über das ganze Bild, für jedes Bild gibt es viele windows). Andere Modelle, die auch funktioniert, wie eine boosting-Methode mit Haar-like features (By Google "haar like feature adaboost Kaskaden" finden Sie eine Menge von material, die auf der Gesichtserkennung).
- Die Ausbildung ist besser, sich zu enthalten mehrere Zeichen. Dadurch können Sie ein größeres Fenster und reduziert false positives. Wenn der Bereich zu klein ist, kann einige andere Dinge berichtet wird, als Buchstaben/Ziffern. Sagen, der Algorithmus kann einige senkrechte Kante als die Ziffer "1", was furchtbar ist.
- Ok ich werde es versuchen ! Was halten Sie von dieser matthewearl.github.io/2016/05/06/cnn-anpr ? Sie enthalten nur eine convnet anstelle von zwei algorithmen, wie Sie sagte (Erkennung + Klassifizierung)
- Das Projekt, das Sie oben erwähnt ist toll und sehr relevant! Versuchen Sie wieder zu verwenden statt ein neues bauen von der Pike auf!
InformationsquelleAutor soloice

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.