iOS Tesseract: schlechte Ergebnisse

Habe ich nur angefangen, um meine Hände schmutzig mit der Tesseract-Bibliothek, aber die Ergebnisse sind wirklich, wirklich schlecht.

Folgte ich den Anweisungen in dem Git-repository ( https://github.com/gali8/Tesseract-OCR-iOS ). Meine ViewController verwendet die folgende Methode, um beginnen zu erkennen:

Tesseract *t = [[Tesseract alloc] initWithLanguage:@"deu"];
t.delegate = self;

[t setVariableValue:@"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" forKey:@"tessedit_char_whitelist"];
[t setImage:img];

[t recognize];

NSLog( @"Recognized text: %@", [t recognizedText] );

labelRecognizedText.text = [t recognizedText];

t = nil;

Dem Beispiel-Bild aus dem Projekt tempalte iOS Tesseract: schlechte Ergebnisse

gut funktioniert (was mir sagt, dass das Projekt selbst ist richtig eingestellt), aber immer wenn ich versuche andere Bilder, die den erkannten text ist ein komplettes Chaos. Zum Beispiel, ich versuchte, ein Bild von meinem finder anzeigen die Beispiel-Bild:

https://dl.dropboxusercontent.com/u/607872/tesseract.jpg (1,5 MB)

Aber Tesseract erkennt:

Recognized text: s f l TO  if v   Ysssifss f

 ssqxizg ss sfzzlj z

s N T IYIOGY Z I l EY s s

k Es ETL ZHE s UEY

z xhks Fsjs Es z VIII c 

s I   XFTZT c s  h V Ijzs

L s sk  sisijk J

s f s ssj Jss sssHss H VI

s s  H 

i s H st xzs
s s k 4  is x2 IV
Illlsiqss sssnsiisfjlisszxiij s
K

Sogar, wenn der Charakter whitelist enthält nur zahlen, die ich nicht ein Ergebnis erhalten, sogar in der Nähe, wie das Bild aussieht:

Recognized text:       3          74 211  

    1             

         1 1    1    

  3  53 379     1  

3  1   33  5    3 2 
      3          9 73
    1  61 2 2  
    3   1  6   5 212   7 
       1 
4     9 4  
           1  17
 111  11    1 1  11  1 1 1 1

Ich nehme an, es ist etwas falsch mit der Art und Weise fotos stammen aus der iPad mini Kamera, die ich derzeit benutze, aber ich kann nicht herausfinden, was und warum.

Irgendwelche Tipps?

Update #1

In Reaktion auf Tomas:

Ich folgte der Anleitung in deinem post stieß dabei aber auf einige Fehler entlang der Weise...

die UIImage+OpenCV Kategorie nicht verwendet werden, in meiner ARC-Projekt
Kann ich nicht importieren <opencv2/...> in meinem Controller, auto-Vervollständigung nicht bieten (und daher [UIImage CVMat] ist nicht definiert)

Ich glaube, es gibt etwas falsch mit meinem integration von OpenCV, obwohl ich folgte der Hallo-tutorial Hinzugefügt und den Rahmen. Bin ich verpflichtet zu bauen OpenCV auf meinem Mac so gut oder ist es ausreichend, nur sind die Rahmen in meinem Xcode Projekt?

Da ich nicht wirklich weiß, was Sie überlegen könnten, wie "wichtig" an diesem Punkt (ich habe schon gelesen einige Beiträge und tutorials und versucht, verschiedene Schritte), fühlen Sie sich frei zu Fragen 🙂

Update #2

@Tomas: danke, den ARC-Teil wesentlich war. Meine ViewController bereits umbenannt wurde, um .mm. Vergessen Sie den Teil über "nicht importieren können, opencv2/" da ich bereits eingeschlossen in meinem TestApp-Prefix.pch (wie es in der Hallo-tutorial).

Sich auf die nächste Herausforderung 😉

Bemerkte ich, dass wenn ich Bilder mit der Kamera aufgenommen, die Grenzen für die roi Objekt nicht erfolgreich berechnet. Ich habe gespielt, um mit dem Gerät die Orientierung und setzen einen UIImage aus meiner Sicht zu sehen, das Bild, die Verarbeitung der Schritte, aber manchmal (auch wenn das Bild richtig ausgerichtet ist), die Werte sind negativ, weil die if-Bedingung in der bounds.size()-for-Schleife nicht erfüllt. Der Schlimmste Fall, den ich hatte: minX/Y und maxX/Y wurden nie berührt. Lange Geschichte kurz: die Zeile beginnend mit Mat roi = inranged(cv::Rect( wirft eine Ausnahme (assertion ist fehlgeschlagen, weil die Werte waren < 0 ). Ich weiß nicht, ob die Anzahl der Konturen Sache, aber ich nehme Sie so, weil die größer die Bilder, desto wahrscheinlicher ist die Geltendmachung Ausnahme ist.

Um ehrlich zu sein: ich hatte noch nicht die Zeit zum Lesen OpenCV-Dokumentation und zu verstehen, was dein code tut, aber nun, ich glaube nicht, dass es einen Weg gibt, um. Scheint so, leider für mich, meine erste Aufgabe (scan-Eingang, OCR ausführen, zeigen Sie Elemente in einer Tabelle) erfordert mehr Ressourcen (=Zeit), als ich dachte.

InformationsquelleAutor Dennis | 2014-05-13

Es ist nichts falsch in der Weise, die Sie um die Bilder vom iPad per se. Aber Sie können einfach nicht werfen in ein Komplexes Bild-und erwarten, dass Tesseract auf Magische Weise ermitteln, welcher text zu extrahieren. Nehmen Sie einen genaueren Blick auf das Bild und Sie werden feststellen, es hat keine einheitliche Blitz, es ist extrem laut, so dass es möglicherweise nicht das beste Beispiel zum starten der Wiedergabe mit.

In solchen Szenarien ist es zwingend notwendig, vorab das Bild, um den tesserakt Bibliothek mit etwas einfacher zu erkennen.

Unten finden Sie eine sehr naive Vorverarbeitung Beispiel, verwendet die OpenCV (http://www.opencv.org), ein beliebtes image processing framework. Es sollte Ihnen und Idee, um Sie zu erhalten begann.

#import <TesseractOCR/TesseractOCR.h>
#import <opencv2/opencv.hpp>
#import "UIImage+OpenCV.h"

using namespace cv;

...

//load source image
UIImage *img = [UIImage imageNamed:@"tesseract.jpg"];

Mat mat = [img CVMat];
Mat hsv;

//convert to HSV (better than RGB for this task)
cvtColor(mat, hsv, CV_RGB2HSV_FULL);

//blur is slightly to reduce noise impact
const int blurRadius = img.size.width / 250;
blur(hsv, hsv, cv::Size(blurRadius, blurRadius)); 

//in range = extract pixels within a specified range
//here we work only on the V channel extracting pixels with 0 < V < 120
Mat inranged;
inRange(hsv, cv::Scalar(0, 0, 0), cv::Scalar(255, 255, 120), inranged);

iOS Tesseract: schlechte Ergebnisse

Mat inrangedforcontours;
inranged.copyTo(inrangedforcontours); //findContours alters src mat

//now find contours to find where characters are approximately located
vector<vector<cv::Point> > contours;
vector<Vec4i> hierarchy;

findContours(inrangedforcontours, contours, hierarchy, CV_RETR_LIST, CV_CHAIN_APPROX_SIMPLE, cv::Point(0, 0));

int minX = INT_MAX;
int minY = INT_MAX;
int maxX = 0;
int maxY = 0;

//find all contours that match expected character size
for (size_t i = 0; i < contours.size(); i++)
{
    cv::Rect brect = cv::boundingRect(contours[i]);
    float ratio = (float)brect.height / brect.width;

    if (brect.height > 250 && ratio > 1.2 && ratio < 2.0)
    {
        minX = MIN(minX, brect.x);
        minY = MIN(minY, brect.y);
        maxX = MAX(maxX, brect.x + brect.width);
        maxY = MAX(maxY, brect.y + brect.height);
    }
}

iOS Tesseract: schlechte Ergebnisse

//Now we know where our characters are located
//extract relevant part of the image adding a margin that enlarges area
const int margin = img.size.width / 50;
Mat roi = inranged(cv::Rect(minX - margin, minY - margin, maxX - minX + 2 * margin, maxY - minY + 2 * margin));
cvtColor(roi, roi, CV_GRAY2BGRA);
img = [UIImage imageWithCVMat:roi];

iOS Tesseract: schlechte Ergebnisse

Tesseract *t = [[Tesseract alloc] initWithLanguage:@"eng"];

[t setVariableValue:@"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" forKey:@"tessedit_char_whitelist"];
[t setImage:img];

[t recognize];

NSString *recognizedText = [[t recognizedText] stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]];

if ([recognizedText isEqualToString:@"1234567890"])
    NSLog(@"Yeah!");
else
    NSLog(@"Epic fail...");

Hinweise

Die UIImage+OpenCV Kategorie finden hier. Wenn Sie unter ARC-check diese.
Werfen Sie einen Blick auf diese um Ihnen den Einstieg mit OpenCV in Xcode. Beachten Sie, dass OpenCV ist ein C++ framework, welches nicht importiert werden in plain C (oder Objective-C) source-Dateien. Der einfachste workaround ist, benennen Sie Ihre view-controller aus .m zu .mm (Objective-C++) und importieren Sie es in Ihr Projekt.

Vielen Dank für Ihre Beratung, ich aktualisierte meine Frage.
Ich habe aktualisiert die Hinweise im Abschnitt mit ein paar Kommentare
Danke!!! Ich von Ihnen positiv bewertet werden deinen post editiert und meine Frage noch einmal.
Wie bereits das obige Beispiel ist nur eine naive Implementierung und deckt nur den speziellen Fall der test-Bild. Die Implementierung eines preprocessing-Algorithmus, der die Werke in den verschiedenen Bedingungen ist im Allgemeinen eine komplexe Aufgabe, die, wie Sie erkannte sich selbst, erfordert Zeit

InformationsquelleAutor Tomas Camin

Es ist das unterschiedliche Verhalten von tesseract Ergebnis.

Es erfordert eine gute Qualität von Bild bedeutet eine gute textur-Sichtbarkeit.
Größe Bild nehmen viel Zeit zu verarbeiten, die auch gut zum anpassen der Größe in kleine, vor der Verarbeitung.
Es wird sich gut um einige Farbe-Effekt auf das Bild, bevor es auf tesseract. Verwenden Sie Effekte, die könnten, verbessern Sie die Sichtbarkeit des Bildes.
Gibt es irgendwann ein anderes Verhalten der Verarbeitung von Fotos mit der Kamera oder dem Fotoalbum.

Bei der Einnahme von Foto direkt von der Kamera versuchen unter Funktion.

- (UIImage *) getImageForTexture:(UIImage *)src_img{
CGColorSpaceRef d_colorSpace = CGColorSpaceCreateDeviceRGB();
/*
 * Note we specify 4 bytes per pixel here even though we ignore the
 * alpha value; you can't specify 3 bytes per-pixel.
 */
size_t d_bytesPerRow = src_img.size.width * 4;
unsigned char * imgData = (unsigned char*)malloc(src_img.size.height*d_bytesPerRow);
CGContextRef context =  CGBitmapContextCreate(imgData, src_img.size.width,
                                              src_img.size.height,
                                              8, d_bytesPerRow,
                                              d_colorSpace,
                                              kCGImageAlphaNoneSkipFirst);

UIGraphicsPushContext(context);
//These next two lines 'flip' the drawing so it doesn't appear upside-down.
CGContextTranslateCTM(context, 0.0, src_img.size.height);
CGContextScaleCTM(context, 1.0, -1.0);
//Use UIImage's drawInRect: instead of the CGContextDrawImage function, otherwise you'll have issues when the source image is in portrait orientation.
[src_img drawInRect:CGRectMake(0.0, 0.0, src_img.size.width, src_img.size.height)];
UIGraphicsPopContext();

/*
 * At this point, we have the raw ARGB pixel data in the imgData buffer, so
 * we can perform whatever image processing here.
 */

//After we've processed the raw data, turn it back into a UIImage instance.
CGImageRef new_img = CGBitmapContextCreateImage(context);
UIImage * convertedImage = [[UIImage alloc] initWithCGImage:
                            new_img];

CGImageRelease(new_img);
CGContextRelease(context);
CGColorSpaceRelease(d_colorSpace);
free(imgData);
return convertedImage;
}

InformationsquelleAutor FARAZ

2

Habe ich Schwierigkeiten mit Tesseract Zeichen der Anerkennung für Wochen. Hier sind zwei Dinge, die ich gelernt, es zu bekommen, besser zu arbeiten...
1. Wenn Sie wissen, welche schriftart, die Sie Lesen werden, klar, die Ausbildung und Umschulung von it-nur für die schriftart. Mehrere Schriftarten verlangsamt die OCR-Verarbeitung nach unten und erhöht auch die Mehrdeutigkeit in der Tesserakt Entscheidungsprozess. Dies führt zu einer größeren Genauigkeit und Geschwindigkeit.
2. Nach der OCR-Bearbeitung wirklich erforderlich ist. Sie werden am Ende mit einer matrix von Zeichen, die Tesseract erkennt. Sie müssen weiterhin die Zeichen zu verengen auf das, was Sie versuchen, zu Lesen. So zum Beispiel, wenn Ihre Anwendung ist, Lesen Etiketten von Lebensmitteln, die Kenntnis der Regeln für die Wörter und Sätze, aus denen sich die Lebensmittel-label hilft erkennen eine Reihe von Zeichen, aus denen das label.
- Wie kann ich trainieren, eine neue Sprache mit den Sonderzeichen?Können Sie irgendwelche Muster?
InformationsquelleAutor Art Solano

Konvertieren Sie Ihre UIImage von srgb zu rgb-format .

wenn Sie mit IOS 5.0 und höher verwenden Sie

verwenden #import <Accelerate/Accelerate.h>

sonst entfernen Sie die Kommentarzeichen //IOS 3.0-5.0

-(UIImage *) createARGBImageFromRGBAImage: (UIImage*)image 
{   //CGSize size = CGSizeMake(320, 480);
    CGSize dimensions = CGSizeMake(320, 480);
    NSUInteger bytesPerPixel = 4;
    NSUInteger bytesPerRow = bytesPerPixel * dimensions.width;
    NSUInteger bitsPerComponent = 8;

    unsigned char *rgba = malloc(bytesPerPixel * dimensions.width * dimensions.height);
    unsigned char *argb = malloc(bytesPerPixel * dimensions.width * dimensions.height);

    CGColorSpaceRef colorSpace = NULL;
    CGContextRef context = NULL;

    colorSpace = CGColorSpaceCreateDeviceRGB();
    context = CGBitmapContextCreate(rgba, dimensions.width, dimensions.height, bitsPerComponent, bytesPerRow, colorSpace, kCGImageAlphaPremultipliedLast | kCGBitmapByteOrderDefault); //kCGBitmapByteOrder32Big
    CGContextDrawImage(context, CGRectMake(0, 0, dimensions.width, dimensions.height), [image CGImage]);
    CGContextRelease(context);
    CGColorSpaceRelease(colorSpace);

    const vImage_Buffer src = { rgba, dimensions.height, dimensions.width, bytesPerRow };
    const vImage_Buffer dis = { rgba, dimensions.height, dimensions.width, bytesPerRow };
    const uint8_t map[4] = {3,0,1,2};
    vImagePermuteChannels_ARGB8888(&src, &dis, map, kvImageNoFlags);

    //IOS 3.0-5.0
    /*for (int x = 0; x < dimensions.width; x++) {
        for (int y = 0; y < dimensions.height; y++) {
            NSUInteger offset = ((dimensions.width * y) + x) * bytesPerPixel;
            argb[offset + 0] = rgba[offset + 3];
            argb[offset + 1] = rgba[offset + 0];
            argb[offset + 2] = rgba[offset + 1];
            argb[offset + 3] = rgba[offset + 2];
        }
    }*/




    colorSpace = CGColorSpaceCreateDeviceRGB();
    context = CGBitmapContextCreate(dis.data, dimensions.width, dimensions.height, bitsPerComponent, bytesPerRow, colorSpace, kCGImageAlphaPremultipliedFirst | kCGBitmapByteOrderDefault); //kCGBitmapByteOrder32Big
    CGImageRef imageRef = CGBitmapContextCreateImage(context);
    image = [UIImage imageWithCGImage: imageRef];
    CGImageRelease(imageRef);
    CGContextRelease(context);
    CGColorSpaceRelease(colorSpace);

    free(rgba);
    free(argb);

    return image;
}

Tesseract *t = [[Tesseract alloc] initWithLanguage:@"eng"];

[t setVariableValue:@"0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" forKey:@"tessedit_char_whitelist"];
[t setImage:[self createARGBImageFromRGBAImage:img]];

[t recognize];

InformationsquelleAutor rahul_send89

Den swift-äquivalent von @FARAZ Antwort

func getImageForTexture(srcImage: UIImage) -> UIImage{
    let d_colorSpace = CGColorSpaceCreateDeviceRGB()
    let d_bytesPerRow: size_t = Int(srcImage.size.width) * 4
    /*
    * Note we specify 4 bytes per pixel here even though we ignore the
    * alpha value; you can't specify 3 bytes per-pixel.
    */
    let imgData = malloc(Int(srcImage.size.height) * Int(d_bytesPerRow))

    let context = CGBitmapContextCreate(imgData, Int(srcImage.size.width), Int(srcImage.size.height), 8, Int(d_bytesPerRow), d_colorSpace,CGImageAlphaInfo.NoneSkipFirst.rawValue)
    UIGraphicsPushContext(context!)
    //These next two lines 'flip' the drawing so it doesn't appear upside-down.
    CGContextTranslateCTM(context, 0.0, srcImage.size.height)
    CGContextScaleCTM(context, 1.0, -1.0)
    //Use UIImage's drawInRect: instead of the CGContextDrawImage function, otherwise you'll
    srcImage.drawInRect(CGRectMake(0.0, 0.0, srcImage.size.width, srcImage.size.height))
    UIGraphicsPopContext()
    /*
    * At this point, we have the raw ARGB pixel data in the imgData buffer, so
    * we can perform whatever image processing here.
    */

    //After we've processed the raw data, turn it back into a UIImage instance.

    let new_img = CGBitmapContextCreateImage(context)
    let convertedImage = UIImage(CGImage: new_img!)
    return convertedImage

}

InformationsquelleAutor Egghead

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.