Verwenden Sie R, um konvertieren von PDF-Dateien in text-Dateien für text mining

Habe ich nahezu tausend pdf journal-Artikeln in einem Ordner. Ich muss den text mir auf alle Artikel - abstracts aus der gesamten Ordner. Jetzt bin ich dabei die folgenden:

dest <- "~/A1.pdf"

# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)

Durch diese, ich bin durch konvertieren einer pdf-Datei zu .txt-Datei und kopieren die Abstrakt in einem anderen .txt-Datei und kompilieren Sie es manuell. Diese Arbeit ist lästig.

Wie kann ich Lesen Sie alle einzelnen Artikel aus dem Ordner, und konvertieren Sie Sie in .txt-Datei enthält nur die Zusammenfassung von jedem Artikel. Es kann getan werden durch die Begrenzung der Inhalte zwischen ABSTRACT und EINLEITUNG in jedem Artikel, aber ich bin nicht in der Lage, dies zu tun. Jede Hilfe ist willkommen.

InformationsquelleAutor der Frage S Das | 2014-01-30

Schreibe einen Kommentar