C # Extrahieren Sie Text aus PDF mit PdfSharp

Gibt es eine Möglichkeit zum extrahieren von plain-text aus einer PDF-Datei mit PdfSharp?
Ich will nicht von iTextSharp, weil seine Lizenz.

Dank für Eure Antworten.

EDIT: ich weiß, dass es möglich ist. Aber wie mache ich das?

InformationsquelleAutor der Frage der_chirurg | 2012-04-13

c#pdfsharp text text-extraction

Nahm Sergios Antwort und machte einige extension-Methoden. Ich habe auch die Ansammlung von strings in einen iterator.

public static class PdfSharpExtensions
{
    public static IEnumerable<string> ExtractText(this PdfPage page)
    {       
        var content = ContentReader.ReadContent(page);      
        var text = content.ExtractText();
        return text;
    }   

    public static IEnumerable<string> ExtractText(this CObject cObject)
    {   
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                    foreach (var txt in ExtractText(cOperand))
                        yield return txt;   
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
                foreach (var txt in ExtractText(element))
                    yield return txt;
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            yield return cString.Value;
        }
    }
}

InformationsquelleAutor der Antwort Ronnie Overby

Habe ich umgesetzt es irgendwie ähnlich, wie David es Tat.
Hier ist mein code:

    {
        //....
        var page = document.Pages[1];
        CObject content = ContentReader.ReadContent(page);
        var extractedText = ExtractText(content);
        //...
    }

    private IEnumerable<string> ExtractText(CObject cObject )
    {
        var textList = new List<string>();
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                {
                    textList.AddRange(ExtractText(cOperand));
                }
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
            {
                textList.AddRange(ExtractText(element));
            }
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            textList.Add(cString.Value);
        }
        return textList;
    }

InformationsquelleAutor der Antwort Sergio

9

PDFSharp bietet alle Werkzeuge zum extrahieren von text aus einer PDF-Datei. Verwenden Sie die ContentReader Klasse für den Zugriff auf die Befehle in jede Seite und extrahieren des strings aus dem TJ/Tj Betreiber.

Ich habe hochgeladen eine einfache Implementierung zu github.

InformationsquelleAutor der Antwort David Schmitt

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.