Extrahieren von Tabellen aus pdf-Datei (excel), pref. w/ vba

Ich versuche zum extrahieren von Tabellen aus pdf-Dateien mit vba und exportieren Sie Sie in excel. Wenn alles klappt wie es sollte, es sollte alles automatisch. Das problem ist, dass die Tabelle nicht standardisiert sind.

Dies ist, was ich habe, so weit.

VBA (Excel) läuft XPDF, und konvertiert alle .pdf-Dateien im aktuellen Ordner eine text-Datei.
VBA (Excel) liest jeden text-Datei Zeile für Zeile.

Und den code:

With New Scripting.FileSystemObject
With .OpenTextFile(strFileName, 1, False, 0)

    If Not .AtEndOfStream Then .SkipLine
    Do Until .AtEndOfStream
        //do something
    Loop
End With
End With

Diesem funktioniert alles Super. Aber jetzt bin ich immer auf das Problem der Extraktion von Tabellen aus Textdateien.
Was ich versuche zu tun, ist VBA finden Sie einen string z.B. "Year' s Income", und dann die Ausgabe der Daten, nachdem Sie in Spalten. (Bis die Tabelle endet.)

Der erste Teil ist nicht sehr schwierig (finden Sie eine bestimmte Zeichenfolge), aber wie würde ich mich über den zweiten Teil. Die text-Datei sieht wie dieses Pastebin. Das problem ist, dass der text nicht standardisiert. So zum Beispiel einige Tabellen haben 3-Jahres-Spalten (2010 2011 2012) und manche nur zwei (oder 1), einige Tabellen haben mehrere Leerzeichen zwischen die verändert sich, und einige nicht bestimmte Zeilen (z.B. Anlagevermögen, Netto).

Dachte ich an sowas aber nicht sicher, wie man es in VBA.

Finden Benutzer-definierten string. zB. "Tabelle 1: Jahre' Zurück."
ein. Nächsten Zeile finden Jahren; wenn es zwei, wir brauchen drei Spalten in der Ausgabe (Titel +, 2x Jahr), wenn es drei, die wir benötigen vier (Titel +, 3x im Jahr).. usw.

b. Erstellen Sie Titel-Spalte + Spalte für jedes Jahr.
Bei erreichen das Ende der Zeile, gehen Sie zur nächsten Zeile
ein. Text Lesen -> output-Spalte 1.

b. Erkennen Leerzeichen (Leerzeichen > 3?) als Anfang der Spalte 2. Zahlen Lesen -> Ausgabe in Spalte 2.

c. (wenn Spalte = 3) Erkennen von Leerzeichen als Beginn der Spalte 3. Zahlen Lesen -> Ausgabe in Spalte 3.

d.... (wenn Spalte = 4) zu Erkennen, Leerzeichen als Beginn der Spalte 4. Zahlen Lesen -> Ausgabe-Spalte 4.
Jeder Zeile an, loop 4.
Nächste Zeile enthält keine zahlen - End-Tabelle. (wahrscheinlich die easiet nur ein Benutzer definiert Anzahl, nach 15 Zeichen keine Zahl? Ende der Tabelle)

Ich basierte meine erste version auf Pdf zu excel, aber online Lesen die Leute nicht empfehlen OpenFile sondern FileSystemObject (obwohl es scheint eine Menge langsamer).

Irgendwelche Hinweise zu bekommen, begann mich, vor allem bei Schritt 2?

Wenn Sie möchten, das hinzufügen von Ressourcen oder einige details in der Frage kann man später Bearbeiten Sie die Frage und hängen Sie an die Frage.
Danke, aber ich durfte nicht mehr als 2 links. Vielen Dank für die änderungen!
Beispieltext erhalten aus der PDF-Datei sehr hilfreich!!!
Ich bezweifle, dass können Sie in der Regel parse-Tabellen basierend auf lediglich den text extrahieren. Sie mehr wahrscheinlich müssen einige Bibliotheken, die extrahiert text mit der Positionierung Informationen. Ihr Algorithmus sehr wahrscheinlich scheitern wird, im Falle von Tabellen mit einigen leeren Einträge und PDF-Dateien erstellt, die von einigen PDF-Erstellung Software.

InformationsquelleAutor MeRuud | 2013-02-23

Haben Sie eine Reihe von Möglichkeiten, um zu sezieren, eine text-Datei und je nachdem, wie Komplex es ist, werden Sie möglicherweise lehnen eine oder andere Weise. Ich habe diese und es kam ein wenig aus der hand... genießen.

Basierend auf der Probe, die Sie haben und die zusätzlichen Kommentare, bemerkte ich Folgendes. Einige von Ihnen funktionieren gut für einfache Dateien, aber kann man unhandlich mit größeren komplexeren Dateien. Darüber hinaus kann es etwas effizienter Methoden oder tricks zu dem, was ich hier verwendet habe, aber diese werden auf jeden Fall erhalten Sie eine erzielen das gewünschte Ergebnis. Hoffentlich macht das Sinn in Verbindung mit dem code:

Sie können Boolesche Werte, um Ihnen zu helfen herauszufinden, was 'Abschnitt' der text-Datei, die Sie sind in. Dh InStr auf der aktuellen Zeile zu
bestimmen Sie in einer Tabelle nach der Suche nach dem text 'Tabelle' und dann
sobald Sie wissen, dass Sie in das 'Table' - Abschnitt der Datei starten
Suche für das "Vermögen" § usw
Können Sie ein paar Methoden, um zu bestimmen, die Anzahl der Jahre (oder Spalten), die Sie haben. Die Split Funktion zusammen mit einer Schleife tun
die job.
Wenn deine Dateien immer in gleichbleibender Formatierung, auch nur in bestimmten teilen, können Sie diese Vorteile nutzen. Zum Beispiel, wenn Sie wissen, dass Ihr
Datei Zeile haben immer ein dollar-Zeichen vor der zu Ihnen, dann
Sie weiß, dass dies definieren Sie die Spaltenbreite und Sie können diese auf
die folgenden Zeilen text.

Den folgenden code extrahieren wird das Vermögen der Informationen aus der text-Datei, Sie können die mod es zu extrahieren, die anderen Abschnitte. Es sollte in der Lage mehrere Zeilen. Hoffentlich habe ich kommentiert es ausreichend. Werfen Sie einen Blick und ich werde Sie Bearbeiten, wenn nötig zu helfen, weiter.

 Sub ReadInTextFile()
    Dim fs As Scripting.FileSystemObject, fsFile As Scripting.TextStream
    Dim sFileName As String, sLine As String, vYears As Variant
    Dim iNoColumns As Integer, ii As Integer, iCount As Integer
    Dim bIsTable As Boolean, bIsAssets As Boolean, bIsLiabilities As Boolean, bIsNetAssets As Boolean

    Set fs = CreateObject("Scripting.FileSystemObject")
    sFileName = "G:\Sample.txt"
    Set fsFile = fs.OpenTextFile(sFileName, 1, False)

    'Loop through the file as you've already done
    Do While fsFile.AtEndOfStream <> True
        'Determine flag positions in text file
        sLine = fsFile.Readline

        Debug.Print VBA.Len(sLine)

        'Always skip empty lines (including single spaceS)
        If VBA.Len(sLine) > 1 Then

            'We've found a new table so we can reset the booleans
            If VBA.InStr(1, sLine, "Table") > 0 Then
                bIsTable = True
                bIsAssets = False
                bIsNetAssets = False
                bIsLiabilities = False
                iNoColumns = 0
            End If

            'Perhaps you want to also have some sort of way to designate that a table has finished.  Like so
            If VBA.Instr(1, sLine, "Some text that designates the end of the table") Then
                bIsTable = False
            End If 

            'If we're in the table section then we want to read in the data
            If bIsTable Then
                'Check for your different sections.  You could make this constant if your text file allowed it.
                If VBA.InStr(1, sLine, "Assets") > 0 And VBA.InStr(1, sLine, "Net") = 0 Then bIsAssets = True: bIsLiabilities = False: bIsNetAssets = False
                If VBA.InStr(1, sLine, "Liabilities") > 0 Then bIsAssets = False: bIsLiabilities = True: bIsNetAssets = False
                If VBA.InStr(1, sLine, "Net Assests") > 0 Then bIsAssets = True: bIsLiabilities = False: bIsNetAssets = True

                'If we haven't triggered any of these booleans then we're at the column headings
                If Not bIsAssets And Not bIsLiabilities And Not bIsNetAssets And VBA.InStr(1, sLine, "Table") = 0 Then
                    'Trim the current line to remove leading and trailing spaces then use the split function to determine the number of years
                    vYears = VBA.Split(VBA.Trim$(sLine), " ")
                    For ii = LBound(vYears) To UBound(vYears)
                        If VBA.Len(vYears(ii)) > 0 Then iNoColumns = iNoColumns + 1
                    Next ii

                    'Now we can redefine some variables to hold the information (you'll want to redim after you've collected the info)
                    ReDim sAssets(1 To iNoColumns + 1, 1 To 100) As String
                    ReDim iColumns(1 To iNoColumns) As Integer
                Else
                    If bIsAssets Then
                        'Skip the heading line
                        If Not VBA.Trim$(sLine) = "Assets" Then
                            'Increment the counter
                            iCount = iCount + 1

                            'If iCount reaches it's limit you'll have to redim preseve you sAssets array (I'll leave this to you)
                            If iCount > 99 Then
                                'You'll find other posts on stackoverflow to do this
                            End If

                            'This will happen on the first row, it'll happen everytime you
                            'hit a $ sign but you could code to only do so the first time
                            If VBA.InStr(1, sLine, "$") > 0 Then
                                iColumns(1) = VBA.InStr(1, sLine, "$")
                                For ii = 2 To iNoColumns
                                    'We need to start at the next character across
                                    iColumns(ii) = VBA.InStr(iColumns(ii - 1) + 1, sLine, "$")
                                Next ii
                            End If

                            'The first part (the name) is simply up to the $ sign (trimmed of spaces)
                            sAssets(1, iCount) = VBA.Trim$(VBA.Mid$(sLine, 1, iColumns(1) - 1))
                            For ii = 2 To iNoColumns
                                'Then we can loop around for the rest
                                sAssets(ii, iCount) = VBA.Trim$(VBA.Mid$(sLine, iColumns(ii) + 1, iColumns(ii) - iColumns(ii - 1)))
                            Next ii

                            'Now do the last column
                            If VBA.Len(sLine) > iColumns(iNoColumns) Then
                                sAssets(iNoColumns + 1, iCount) = VBA.Trim$(VBA.Right$(sLine, VBA.Len(sLine) - iColumns(iNoColumns)))
                            End If
                        Else
                            'Reset the counter
                            iCount = 0
                        End If
                    End If
                End If

            End If
        End If
    Loop

    'Clean up
    fsFile.Close
    Set fsFile = Nothing
    Set fs = Nothing
End Sub

Wow!!! Vielen Dank, das ist weit mehr, als ich fragte. Danke! Ich bin immer ein Kompilierungsfehler du; pastebin ist der vollständige code. Subscript out of range 'iColumns(1) = VBA.InStr(1, sLine, "$")'
Ich denke, meine Zusammenstellung Fehler ist, da die .pdf-Datei sind zu groß. Aber Nein Abschnitt enthält mehr als 10 Zeilen, so dass nicht sicher, wie Sie es erreichen konnte, die 99 Grenze. iNoColumns scheint nicht zu behalten Ihre Nummer auch.. Aber wieder ich denke, das ist mehr wegen meiner Implementierung als alles andere.
Froh, dass es hilft 🙂 die Probleme, Die Sie immer wie der iColumns(1) sind die kleinen Probleme wirst du verfeinern, wie Sie Lesen in mehreren Dateien. Es scheint, dass, wenn iColumns ist Redim würde für die neue Tabelle hat noch keine Spalten, so iColumns(1) ausfällt. Sie würde wollen, um eine check-in für diese. Ich glaube nicht, dass es an der Größe Ihrer pdf-Datei, es sollte in der Lage sein zu handhaben 32767 Zeilen (Größe von Int). Ich würde auch empfehlen, dass Sie Ihre sub ein wenig. Ich würde split aus der sub, der liest in der text-Datei. Sie können dann konvertieren Sie ein paar PDF-Dateien und testen Sie die Ergebnisse separat.
Danke für die zusätzlichen Kommentare und Anregungen. Ich benutzte die falsche template Datei oben (die text-Datei-Beispiel), aber die logischen macht viel mehr Sinn, jetzt, und ich sollte in der Lage sein zu leiten. Nochmals vielen Dank!

InformationsquelleAutor CuberChase

0

Kann ich nicht überprüfen Sie die sample-Daten als PasteBin wurde entfernt. Basierend auf dem, was ich auflesen kann aus der Beschreibung von dem problem, es scheint mir, dass mit Regulären Ausdrücken machen würde, der Analyse der Daten viel einfacher.

Fügen Sie einen Verweis auf die Scripting Runtime scrrun.dll für das FileSystemObject.

Fügen Sie einen Verweis auf die Microsoft VBScript Regular Expressions 5.5. Bibliothek für das RegExp-Objekt.

Instanziieren eines RegEx-Objekts mit
Dim objRE As New RegExp

Legen Sie die Pattern-Eigenschaft auf "" (\bd{4}\b){1,3}"
Die angegebenen Muster übereinstimmen sollten in Zeilen mit strings wie:
2010
2010 2011
2010 2011 2012

Die Anzahl der Leerzeichen zwischen dem Jahr strings ist irrelevant, solange es mindestens ein (da wir Sie nicht erwartet zu begegnen, sind Zeichenfolgen wie 201020112012 zum Beispiel)

Setzen Sie die Global-Eigenschaft auf True

Die aufgenommenen Gruppen wird in den einzelnen Match-Objekte aus der MatchCollection zurück durch die Execute-Methode der RegEx-Objekt objRE. So deklarieren Sie die entsprechenden Objekte:
```
Dim objMatches as MatchCollection
Dim objMatch as Match
Dim intMatchCount 'tells you how many year strings were found, if any
```
Vorausgesetzt, Sie haben eine FileSystemObject-Objekt und Scannen den text-Datei, Lesen Sie jede Zeile in eine variable "strLine"

Erste test, um zu sehen, ob die aktuelle Zeile enthält das Muster gesucht:
```
If objRE.Test(strLine) Then
  'do something
Else
  'skip over this line
End If

Set objMatches = objRe.Execute(strLine)
intMatchCount = objMatches.Count

For i = 0 To intMatchCount - 1
   'processing code such as writing the years as column headings in Excel
    Set objMatch = objMatches(i)
    e.g. ActiveCell.Value = objMatch.Value
   'subsequent lines beneath the line containing the year strings should
   'have the amounts, which may be captured in a similar fashion using an
   'additional RegExp object and a Pattern such as "(\b\d+\b){1,3}" for
   'whole numbers or "(\b\d+\.\d+\b){1,3}" for floats. For currency, you
   'can use "(\b\$\d+\.\d{2}\b){1,3}"
Next i
```
Dies ist nur ein grober Umriss, wie ich den Ansatz dieser Herausforderung. Ich hoffe, es ist etwas in diesem code-Gliederung, dass wird Ihnen helfen.

InformationsquelleAutor Cyraneau de Beargerac

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.