Verwenden Sie R, um konvertieren von PDF-Dateien in text-Dateien für text mining

Habe ich nahezu tausend pdf journal-Artikeln in einem Ordner. Ich muss den text mir auf alle Artikel - abstracts aus der gesamten Ordner. Jetzt bin ich dabei die folgenden:

dest <- "~/A1.pdf"

# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)

Durch diese, ich bin durch konvertieren einer pdf-Datei zu .txt-Datei und kopieren die Abstrakt in einem anderen .txt-Datei und kompilieren Sie es manuell. Diese Arbeit ist lästig.

Wie kann ich Lesen Sie alle einzelnen Artikel aus dem Ordner, und konvertieren Sie Sie in .txt-Datei enthält nur die Zusammenfassung von jedem Artikel. Es kann getan werden durch die Begrenzung der Inhalte zwischen ABSTRACT und EINLEITUNG in jedem Artikel, aber ich bin nicht in der Lage, dies zu tun. Jede Hilfe ist willkommen.

InformationsquelleAutor der Frage S Das | 2014-01-30

Ja, nicht wirklich eine R Frage IShouldBuyABoat Noten, sondern etwas, das R tun können, mit nur geringfügigen Verrenkungen...

Verwenden R konvertieren von PDF-Dateien in txt-Dateien...

# folder with 1000s of PDFs
dest <- "C:\\Users\\Desktop"

# make a vector of PDF file names
myfiles <- list.files(path = dest, pattern = "pdf",  full.names = TRUE)

# convert each PDF file that is named in the vector into a text file 
# text file is created in the same directory as the PDFs
# note that my pdftotext.exe is in a different location to yours
lapply(myfiles, function(i) system(paste('"C:/Program Files/xpdf/bin64/pdftotext.exe"', 
             paste0('"', i, '"')), wait = FALSE) )

Extrahiert nur Zusammenfassungen von txt-Dateien...

# if you just want the abstracts, we can use regex to extract that part of
# each txt file, Assumes that the abstract is always between the words 'Abstract'
# and 'Introduction'
mytxtfiles <- list.files(path = dest, pattern = "txt",  full.names = TRUE)
abstracts <- lapply(mytxtfiles, function(i) {
  j <- paste0(scan(i, what = character()), collapse = " ")
  regmatches(j, gregexpr("(?<=Abstract).*?(?=Introduction)", j, perl=TRUE))
})

Schreiben abstracts in separaten txt-Dateien...

# write abstracts as txt files 
# (or use them in the list for whatever you want to do next)
lapply(1:length(abstracts),  function(i) write.table(abstracts[i], file=paste(mytxtfiles[i], "abstract", "txt", sep="."), quote = FALSE, row.names = FALSE, col.names = FALSE, eol = " " ))

Und jetzt sind Sie bereit zu tun, einige text-mining-Verfahren auf die abstracts.

InformationsquelleAutor der Antwort Ben

Können wir verwenden, Bibliothek pdftools

library(pdftools)
# you can use an url or a path
pdf_url <- "https://cran.r-project.org/web/packages/pdftools/pdftools.pdf"

# `pdf_text` converts it to a list
list_output <- pdftools::pdf_text('https://cran.r-project.org/web/packages/pdftools/pdftools.pdf')

# you get an element by page
length(list_output) # 5 elements for a 5 page pdf

# let's print the 5th
cat(list_output[[5]])
# Index
# pdf_attachments (pdf_info), 2
# pdf_convert (pdf_render_page), 3
# pdf_fonts (pdf_info), 2
# pdf_info, 2, 3
# pdf_render_page, 2, 3
# pdf_text, 2
# pdf_text (pdf_info), 2
# pdf_toc (pdf_info), 2
# pdftools (pdf_info), 2
# poppler_config (pdf_render_page), 3
# render (pdf_render_page), 3
# suppressMessages, 2
# 5

Extrahieren abstracts von Artikeln, OP wählt extrahieren von Inhalten zwischen Abstract und Introduction.

Nehmen wir eine Liste von CRAN PDF-Dateien und extrahieren der Autor(s), wie der text zwischen Author und Maintainer (ich handverlesen ein paar, die hatten ein kompatibles format).

Dafür müssen wir die Schleife auf unsere url-Liste extrahieren Sie den Inhalt, den Zusammenbruch aller Texte in eine für jede pdf-Datei, und extrahieren Sie die relevanten Infos mit regex.

urls <- c(pdftools = "https://cran.r-project.org/web/packages/pdftools/pdftools.pdf",
          Rcpp     = "https://cran.r-project.org/web/packages/Rcpp/Rcpp.pdf",
          jpeg     = "https://cran.r-project.org/web/packages/jpeg/jpeg.pdf")

lapply(urls,function(url){
  list_output <- pdftools::pdf_text(url)
  text_output <- gsub('(\\s|\r|\n)+',' ',paste(unlist(list_output),collapse=" "))
  trimws(regmatches(text_output, gregexpr("(?<=Author).*?(?=Maintainer)", text_output, perl=TRUE))[[1]][1])
})

# $pdftools
# [1] "Jeroen Ooms"
# 
# $Rcpp
# [1] "Dirk Eddelbuettel, Romain Francois, JJ Allaire, Kevin Ushey, Qiang Kou, Nathan Russell, Douglas Bates and John Chambers"
# 
# $jpeg
# [1] "Simon Urbanek <[email protected]>"

InformationsquelleAutor der Antwort Moody_Mudskipper

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.