Wie zum extrahieren von Notizen und Markierten Teile aus PDF-Dateien

Gibt es eine Möglichkeit, zu extrahieren markierten text und Anmerkungen aus einer PDF-Datei programmgesteuert? Jede Sprache ist willkommen. Ich fand mehrere Bibliotheken mit Python, Java und auch PHP, aber keiner von Ihnen den job.

Ich weiß nicht, ob es möglich ist oder nicht. Ich bin mir auch bewusst, dass manche Programme zusätzliche Dateien zu halten, diese Art von Informationen(wenn ich mich nicht Irre Kindle erzeugt eine andere Datei.) aber derzeit sind diese out of scope.

Danke für die Antwort. Ich habe auch einen anderen Weg gefunden, um dieses Problem zu lösen, indem Sie ein wenig zu lange Weg 🙂 Sticky notes, erstellt von Adobe Reader ist einfach zu analysieren, weil sticky notes angehängt, um pdf-Dateien mit Inhalt und position Informationen, aber für die highlights gibt es nur Rechteck infromation sollte ich extrahieren von text durch die Position. So, ich habe das schreiben einige code für Sie. Als Basis-Bibliothek, die ich nutzen kann PDFMiner, die Informationen über die Positionen der Texte.

InformationsquelleAutor user1183057 | 2012-02-01

Schreibe einen Kommentar