Verwenden Sie R, um konvertieren von PDF-Dateien in text-Dateien für text mining
Habe ich nahezu tausend pdf journal-Artikeln in einem Ordner. Ich muss den text mir auf alle Artikel - abstracts aus der gesamten Ordner. Jetzt bin ich dabei die folgenden:
dest <- "~/A1.pdf"
# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)
# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)
Durch diese, ich bin durch konvertieren einer pdf-Datei zu .txt-Datei und kopieren die Abstrakt in einem anderen .txt-Datei und kompilieren Sie es manuell. Diese Arbeit ist lästig.
Wie kann ich Lesen Sie alle einzelnen Artikel aus dem Ordner, und konvertieren Sie Sie in .txt-Datei enthält nur die Zusammenfassung von jedem Artikel. Es kann getan werden durch die Begrenzung der Inhalte zwischen ABSTRACT und EINLEITUNG in jedem Artikel, aber ich bin nicht in der Lage, dies zu tun. Jede Hilfe ist willkommen.
InformationsquelleAutor der Frage S Das | 2014-01-30
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ja, nicht wirklich eine
R
Frage IShouldBuyABoat Noten, sondern etwas, dasR
tun können, mit nur geringfügigen Verrenkungen...Verwenden
R
konvertieren von PDF-Dateien in txt-Dateien...Extrahiert nur Zusammenfassungen von txt-Dateien...
Schreiben abstracts in separaten txt-Dateien...
Und jetzt sind Sie bereit zu tun, einige text-mining-Verfahren auf die abstracts.
InformationsquelleAutor der Antwort Ben
Können wir verwenden, Bibliothek
pdftools
Extrahieren abstracts von Artikeln, OP wählt extrahieren von Inhalten zwischen
Abstract
undIntroduction
.Nehmen wir eine Liste von
CRAN
PDF-Dateien und extrahieren der Autor(s), wie der text zwischenAuthor
undMaintainer
(ich handverlesen ein paar, die hatten ein kompatibles format).Dafür müssen wir die Schleife auf unsere url-Liste extrahieren Sie den Inhalt, den Zusammenbruch aller Texte in eine für jede pdf-Datei, und extrahieren Sie die relevanten Infos mit
regex
.InformationsquelleAutor der Antwort Moody_Mudskipper