Wie konvertieren von Daten aus pdf-Dateien in Daten-frames.
Ich versuche, die Daten zu konvertieren aus einer großen Anzahl von PDF-Dateien auf Daten-frames in R. ich habe das konvertieren der PDF-Dateien um .txt-Dateien mit Lesen.fwf(), aber das Problem ist, dass die breiten aller .txt-Dateien sind nicht das gleiche. Gibt es eine Möglichkeit, um festzustellen, die Breite der Spalten an, oder gibt es eine Möglichkeit, verwenden Sie eine andere Funktion als zu Lesen.fwf()?
Ich habe eine große Anzahl von Dateien zu konvertieren und Sie alle haben unterschiedliche Formate, um mit zu beginnen, so finden die bestimmte Spaltenbreiten für jede Datei ist immer sehr mühsam. Gibt es eine effizientere Möglichkeit, Daten zu konvertieren von PDF-Dateien auf Daten-frames in R?
- Können Sie ein Beispiel einer PDF-Datei?
- markit.com/assets/en/docs/products/data/indices/...
- Ich bin mir nicht sicher, was Sie bedeuten hier: PDF-Datei ist eine verschlüsselte Datei, und Sie können nicht Lesen, den Inhalt ohne Umwandlung zu einer Art von Klartext-Datei. Wenn du das getan hast, dass die von Ihnen geposteten Beispiel ist nicht), dann
read.table
trennen bei Leerzeichen. - Es hängt alles davon ab, wie regelmäßig Sie Ihre input-Dateien sind. Wenn Sie mit oben kommen kann in der Regel finden Sie Ihre Tabelle, können Sie wahrscheinlich haben ein R zu Lesen. Auch wenn es keine Feste Breite, wenn es mindestens zwei oder drei Leerzeichen zwischen den Spalten, Sie könnte wahrscheinlich konvertieren diese tabs und Lesen Sie es in als Trennzeichen.
- Hallo, Nehmen Sie sich etwas Zeit und Lesen Sie die tag-Auszug, bevor tagging. dataframes ist für die pandas, in der Erwägung, dass Sie brauchen, Daten.frame hier. Vorsichtig sein die nächste Zeit. Sehen diese meta-post. Warn [r] Benutzer hinzufügen [dataframes] - Tags statt [data.frame] - tag
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hier ist eine mögliche Lösung, die mithilfe von Regulären Ausdrücken. Verwenden Sie die
readPDF
Funktion aus dertm
Paket zum konvertieren der PDF-Dateien in text, so dass Sie jede Zeile als text-string. Dann verwenden Sie Reguläre Ausdrücke, um die Partitionierung der Daten in die entsprechende Spalte Felder für die Umwandlung in ein data frame.Habe ich verpackt diese in eine Funktion, so dass Sie können Lesen Sie und analysieren Sie alle PDF-Dateien und kombinieren Sie in einem einzigen Daten-Rahmen in einem Arbeitsgang. Wenn deine anderen Dateien habe formatieren Eigenheiten nicht in der Datei, die Sie geschrieben haben, dann müssen Sie einige Anpassungen, damit es richtig funktioniert.
Der code überprüft auch für einige einfache Daten-format-Probleme und spart "schlecht" Zeilen in einer separaten text-Datei für eine spätere überprüfung und Verarbeitung. Wieder, müssen Sie möglicherweise zu zwicken, wenn Sie Ihre anderen Dateien haben eine andere Formatierung Variationen.