wie markieren Sie einen text oder ein Wort in einer pdf-Datei mit iTextsharp?

Ich Suche ein Wort in einem bestehenden pdf-Datei und ich möchten, markieren Sie den text oder das Wort

und speichern Sie die pdf-Datei

Ich habe eine Idee mit PdfAnnotation.CreateMarkup die wir finden konnten, die position des Textes, und wir können hinzufügen, bgcolor,...aber ich weiß nicht wie es zu realisieren 🙁

Bitte helfen Sie mir

InformationsquelleAutor Sankar M | 2011-06-29

4

Dies ist einer von denen "klingt einfach, aber ist eigentlich wirklich komplizierte" Dinge. Siehe Mark ' s Beiträge hier und hier. Letztlich werden Sie wahrscheinlich darauf hingewiesen,LocationTextExtractionStrategy. Viel Glück! Wenn Sie tatsächlich finden Sie heraus, wie Sie es tun es hier posten, gibt es mehrere Menschen, die sich Fragen, was Sie genau Fragen!

Jede Gefundene Lösung im Jahr 2016 ? Sie arbeiten auf das gleiche Problem. Verwendet LocationTextExtractionStrategy und erfasst die Koordinaten der Glyphen. Aber nicht in der Lage, um text zu markieren, die sich über mehrere Zeilen. Hier die Lösung (tallcomponents.com/pdfcontrols/highlight-text) erstellt eine neue annotation, wenn die Y-Koordinaten sind anders, das ist nicht die gewünschte Lösung.

InformationsquelleAutor Chris Haas
4

Habe ich gefunden, wie dies zu tun, nur für den Fall jemand braucht, um Wörter oder Sätze mit Ortsangaben (Koordinaten) aus einem PDF-Dokument, finden Sie das Beispiel-Projekt
HIER
Ich verwendet VB.NET 2010. Vergessen Sie nicht, einen Verweis auf die iTextSharp-DLL in das Projekt.

Habe ich meine eigenen TextExtraction Strategie-Klasse basiert auf der Klasse LocationTextExtractionStrategy. Ich konzentrierte mich auf TextChunks, weil Sie bereits diese Koordinaten.

Es gibt einige bekannte Einschränkungen wie:
- Keine mehrzeilige Suche (Phrasen), nur char/s oder word ' s oder einen ein-Zeilen-Satz sind erlaubt.
- Funktioniert es nicht mit gedrehtem text.
- Ich nicht testen, auf PDF-Dateien mit Querformat, aber ich nehme einige änderungen erforderlich werden.
- In Fall müssen Sie ziehen dieses HighLight/Rechtecke über ein Wasserzeichen müssen Sie hinzufügen/ändern von code, sondern nur code in der Form ist das nicht in Bezug auf den text/Standorte Extraktion Prozess.
InformationsquelleAutor Jcis

@Jcis, habe ich es tatsächlich geschafft einen workaround für das handling von mehrere Suchvorgänge mit Ihrem Beispiel als Ausgangspunkt. Ich nutze das Projekt als eine Referenz in c# - Projekt, und verändert das, was es tut. Statt nur die Hervorhebung, die ich eigentlich haben Sie die Zeichnung ein weißes Rechteck um den Suchbegriff, und anschließend mit dem Rechteck-Koordinaten, platzieren Sie ein Formularfeld. Ich hatte auch ein vertauschen der contentbyte schreiben-Modus zu getovercontent, so dass ich blockieren, die für gesuchte text völlig. Was ich tatsächlich Tat, war zu erstellen, die ein string-array der Suchbegriffe, und dann mit einer for-Schleife erstelle ich so viele verschiedene text-Feldern wie ich brauche.

        Test.Form1 formBuilder = new Test.Form1();

        string[] fields = new string[] { "%AccountNumber%", "%MeterNumber%", "%EmailFieldHolder%", "%AddressFieldHolder%", "%EmptyFieldHolder%", "%CityStateZipFieldHolder%", "%emptyFieldHolder1%", "%emptyFieldHolder2%", "%emptyFieldHolder3%", "%emptyFieldHolder4%", "%emptyFieldHolder5%", "%emptyFieldHolder6%", "%emptyFieldHolder7%", "%emptyFieldHolder8%", "%SiteNameFieldHolder%", "%SiteNameFieldHolderWithExtraSpace%" };
        //int a = 0;
        for (int a = 0; a < fields.Length; )
        {
            string[] fieldNames = fields[a].Split('%');
            string[] fieldName = Regex.Split(fieldNames[1], "Field");
            formBuilder.PDFTextGetter(fields[a], StringComparison.CurrentCultureIgnoreCase, htmlToPdf, finalhtmlToPdf, fieldName[0]);
            File.Delete(htmlToPdf);
            System.Array.Clear(fieldNames, 0, 2);
            System.Array.Clear(fieldName, 0, 1);
            a++;
            if (a == fields.Length)
            {
                break;
            }
            string[] fieldNames1 = fields[a].Split('%');
            string[] fieldName1 = Regex.Split(fieldNames1[1], "Field");
            formBuilder.PDFTextGetter(fields[a], StringComparison.CurrentCultureIgnoreCase, finalhtmlToPdf, htmlToPdf, fieldName1[0]);
            File.Delete(finalhtmlToPdf);
            System.Array.Clear(fieldNames1, 0, 2);
            System.Array.Clear(fieldName1, 0, 1);
            a++;
        }

Prallt es die PDFTextGetter Funktion in deinem Beispiel hin und her zwischen zwei Dateien, bis ich erreichen das fertige Produkt. Es funktioniert wirklich gut, und es wäre nicht möglich gewesen ohne Ihre ersten Projekt, also danke dafür. Ich veränderte auch Ihre VB zu tun, die text-Feld-mapping-wie so;

           For Each rect As iTextSharp.text.Rectangle In MatchesFound
                cb.Rectangle(rect.Left, rect.Bottom + 1, rect.Width, rect.Height + 4)
                Dim field As New TextField(stamper.Writer, rect, FieldName & Fields)
                Dim form = stamper.AcroFields
                Dim fieldKeys = form.Fields.Keys
                stamper.AddAnnotation(field.GetTextField(), page)
                Fields += 1
            Next

Gerade dachte ich würde teilen, was ich geschafft mit Ihrem Projekt als Rückgrat. Er selbst erhöht den Feldnamen als ich von Ihnen. Ich hatte auch fügen Sie einen neuen parameter an Ihre Funktion, aber das ist es nicht Wert Eintrag hier. Danke wieder für diesen großen Vorsprung.

Ausgezeichnet! froh, dass es nützlich für Sie. Mein code wurde gemacht für jemanden, der wollte Rechtecke über die Worte, Sie zu verstecken, in diesem besonderen Fall nur den Aufruf der Fill () - ohne irgendwelche Farben hat den trick, aber ich geändert, um eine hightlighting Beispiel werden in der Lage, meinen code in diesen thread.

InformationsquelleAutor Mike Varosky

Dank Der Jcis!

Nach ein paar Stunden der Forschung und denken, ich fand Ihre Lösung, die mir geholfen, meine Probleme zu lösen.

es wurden 2 kleine bugs.

ersten: der stamper geschlossen werden muss, bevor der Leser, ansonsten wirft er eine exception.

Public Sub PDFTextGetter(ByVal pSearch As String, ByVal SC As StringComparison, ByVal SourceFile As String, ByVal DestinationFile As String)
    Dim stamper As iTextSharp.text.pdf.PdfStamper = Nothing
    Dim cb As iTextSharp.text.pdf.PdfContentByte = Nothing

    Me.Cursor = Cursors.WaitCursor
    If File.Exists(SourceFile) Then
        Dim pReader As New PdfReader(SourceFile)

        stamper = New iTextSharp.text.pdf.PdfStamper(pReader, New System.IO.FileStream(DestinationFile, FileMode.Create))
        PB.Value = 0 : PB.Maximum = pReader.NumberOfPages
        For page As Integer = 1 To pReader.NumberOfPages
            Dim strategy As myLocationTextExtractionStrategy = New myLocationTextExtractionStrategy

            'cb = stamper.GetUnderContent(page)
            cb = stamper.GetOverContent(page)
            Dim state As New PdfGState()
            state.FillOpacity = 0.3F
            cb.SetGState(state)

            'Send some data contained in PdfContentByte, looks like the first is always cero for me and the second 100, but i'm not sure if this could change in some cases
            strategy.UndercontentCharacterSpacing = cb.CharacterSpacing
            strategy.UndercontentHorizontalScaling = cb.HorizontalScaling

            'It's not really needed to get the text back, but we have to call this line ALWAYS, 
            'because it triggers the process that will get all chunks from PDF into our strategy Object
            Dim currentText As String = PdfTextExtractor.GetTextFromPage(pReader, page, strategy)

            'The real getter process starts in the following line
            Dim MatchesFound As List(Of iTextSharp.text.Rectangle) = strategy.GetTextLocations(pSearch, SC)

            'Set the fill color of the shapes, I don't use a border because it would make the rect bigger
            'but maybe using a thin border could be a solution if you see the currect rect is not big enough to cover all the text it should cover
            cb.SetColorFill(BaseColor.PINK)

            'MatchesFound contains all text with locations, so do whatever you want with it, this highlights them using PINK color:

            For Each rect As iTextSharp.text.Rectangle In MatchesFound
                ' cb.Rectangle(rect.Left, rect.Bottom, rect.Width, rect.Height)
                cb.SaveState()
                cb.SetColorFill(BaseColor.YELLOW)
                cb.Rectangle(rect.Left, rect.Bottom, rect.Width, rect.Height)
                cb.Fill()
                cb.RestoreState()
            Next
            'cb.Fill()

            PB.Value = PB.Value + 1
        Next
        stamper.Close()
        pReader.Close()
    End If
    Me.Cursor = Cursors.Default

End Sub

zweitens: deine Lösung nicht funktionieren, wenn der gesuchte text ist in der letzten Zeile der extraced text.

    Public Function GetTextLocations(ByVal pSearchString As String, ByVal pStrComp As System.StringComparison) As List(Of iTextSharp.text.Rectangle)
        Dim FoundMatches As New List(Of iTextSharp.text.Rectangle)
        Dim sb As New StringBuilder()
        Dim ThisLineChunks As List(Of TextChunk) = New List(Of TextChunk)
        Dim bStart As Boolean, bEnd As Boolean
        Dim FirstChunk As TextChunk = Nothing, LastChunk As TextChunk = Nothing
        Dim sTextInUsedChunks As String = vbNullString

        ' For Each chunk As TextChunk In locationalResult
        For j As Integer = 0 To locationalResult.Count - 1
            Dim chunk As TextChunk = locationalResult(j)

            If chunk.text.Contains(pSearchString) Then
                Thread.Sleep(1)
            End If

            If ThisLineChunks.Count > 0 AndAlso (Not chunk.SameLine(ThisLineChunks.Last) Or j = locationalResult.Count - 1) Then
                If sb.ToString.IndexOf(pSearchString, pStrComp) > -1 Then
                    Dim sLine As String = sb.ToString

                    'Check how many times the Search String is present in this line:
                    Dim iCount As Integer = 0
                    Dim lPos As Integer
                    lPos = sLine.IndexOf(pSearchString, 0, pStrComp)
                    Do While lPos > -1
                        iCount += 1
                        If lPos + pSearchString.Length > sLine.Length Then Exit Do Else lPos = lPos + pSearchString.Length
                        lPos = sLine.IndexOf(pSearchString, lPos, pStrComp)
                    Loop

                    'Process each match found in this Text line:
                    Dim curPos As Integer = 0
                    For i As Integer = 1 To iCount
                        Dim sCurrentText As String, iFromChar As Integer, iToChar As Integer

                        iFromChar = sLine.IndexOf(pSearchString, curPos, pStrComp)
                        curPos = iFromChar
                        iToChar = iFromChar + pSearchString.Length - 1
                        sCurrentText = vbNullString
                        sTextInUsedChunks = vbNullString
                        FirstChunk = Nothing
                        LastChunk = Nothing

                        'Get first and last Chunks corresponding to this match found, from all Chunks in this line
                        For Each chk As TextChunk In ThisLineChunks
                            sCurrentText = sCurrentText & chk.text

                            'Check if we entered the part where we had found a matching String then get this Chunk (First Chunk)
                            If Not bStart AndAlso sCurrentText.Length - 1 >= iFromChar Then
                                FirstChunk = chk
                                bStart = True
                            End If

                            'Keep getting Text from Chunks while we are in the part where the matching String had been found
                            If bStart And Not bEnd Then
                                sTextInUsedChunks = sTextInUsedChunks & chk.text
                            End If

                            'If we get out the matching String part then get this Chunk (last Chunk)
                            If Not bEnd AndAlso sCurrentText.Length - 1 >= iToChar Then
                                LastChunk = chk
                                bEnd = True
                            End If

                            'If we already have first and last Chunks enclosing the Text where our String pSearchString has been found 
                            'then it's time to get the rectangle, GetRectangleFromText Function below this Function, there we extract the pSearchString locations
                            If bStart And bEnd Then
                                FoundMatches.Add(GetRectangleFromText(FirstChunk, LastChunk, pSearchString, sTextInUsedChunks, iFromChar, iToChar, pStrComp))
                                curPos = curPos + pSearchString.Length
                                bStart = False : bEnd = False
                                Exit For
                            End If
                        Next
                    Next
                End If
                sb.Clear()
                ThisLineChunks.Clear()
            End If
            ThisLineChunks.Add(chunk)
            sb.Append(chunk.text)
        Next

        Return FoundMatches
    End Function

InformationsquelleAutor Boris

0

Ich konvertieren Jcis's VB-Projekt zu WpfApplication C#(Datei in google drive) , und auch Boris's bugfixes , aber das Projekt nicht ausgeführt werden.
Es wird sehr geschätzt, wenn jemand, der versteht, der Algorithmus, das Programm, Update es.

Wenn Sie möchten, helfen, um ein Problem zu beheben, erstellen Sie eine Frage, nicht eine Antwort.
Gut hinbekommen, aber du hast zwei Fehler: Zeile 165 sollte "sTextInUsedChunks = sTextInUsedChunks + chk.text;" und nach Zeile 179 einfügen "bStart = beugen = false;" Mit dieser Korrektur der alghorithm scheint gut zu funktionieren.
vielen Dank für deine Mühe um mein problem zu lösen. die Lösung läuft nun ohne Fehler. ideal wäre es, wenn der gesuchte text würde auch hervorgehoben.
Ich habe schnell versucht, den Algorithmus selbst, es gibt gemischte Ergebnisse. Es hebt richtig einige der Worte, aber es findet einige andere. Ich habe auch unterschiedliche Ergebnisse, wenn ich Spiele mit der groß - / Kleinschreibung, d.h. das Ergebnis ist nicht das gleiche, wenn ich nach "word" oder "Word". Außerdem, ich weiß nicht, wie es zu extrahieren den text. Es vermischt zwei benachbarte Spalten, während die standard-LocationTextExtractionStrategy Klasse nicht.

InformationsquelleAutor Ehsan Abidi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.