Wie konvertieren von Daten aus pdf-Dateien in Daten-frames.

Ich versuche, die Daten zu konvertieren aus einer großen Anzahl von PDF-Dateien auf Daten-frames in R. ich habe das konvertieren der PDF-Dateien um .txt-Dateien mit Lesen.fwf(), aber das Problem ist, dass die breiten aller .txt-Dateien sind nicht das gleiche. Gibt es eine Möglichkeit, um festzustellen, die Breite der Spalten an, oder gibt es eine Möglichkeit, verwenden Sie eine andere Funktion als zu Lesen.fwf()?

Ich habe eine große Anzahl von Dateien zu konvertieren und Sie alle haben unterschiedliche Formate, um mit zu beginnen, so finden die bestimmte Spaltenbreiten für jede Datei ist immer sehr mühsam. Gibt es eine effizientere Möglichkeit, Daten zu konvertieren von PDF-Dateien auf Daten-frames in R?

  • Können Sie ein Beispiel einer PDF-Datei?
  • markit.com/assets/en/docs/products/data/indices/...
  • Ich bin mir nicht sicher, was Sie bedeuten hier: PDF-Datei ist eine verschlüsselte Datei, und Sie können nicht Lesen, den Inhalt ohne Umwandlung zu einer Art von Klartext-Datei. Wenn du das getan hast, dass die von Ihnen geposteten Beispiel ist nicht), dann read.table trennen bei Leerzeichen.
  • Es hängt alles davon ab, wie regelmäßig Sie Ihre input-Dateien sind. Wenn Sie mit oben kommen kann in der Regel finden Sie Ihre Tabelle, können Sie wahrscheinlich haben ein R zu Lesen. Auch wenn es keine Feste Breite, wenn es mindestens zwei oder drei Leerzeichen zwischen den Spalten, Sie könnte wahrscheinlich konvertieren diese tabs und Lesen Sie es in als Trennzeichen.
  • Hallo, Nehmen Sie sich etwas Zeit und Lesen Sie die tag-Auszug, bevor tagging. dataframes ist für die pandas, in der Erwägung, dass Sie brauchen, Daten.frame hier. Vorsichtig sein die nächste Zeit. Sehen diese meta-post. Warn [r] Benutzer hinzufügen [dataframes] - Tags statt [data.frame] - tag
InformationsquelleAutor user3745002 | 2014-06-16
Schreibe einen Kommentar