PDF-Analyse mit Text und Koordinaten
Ich bin derzeit mit PDF-Box zum analysieren einer pdf-Datei und ich versuche herauszufinden, wie Sie Daten abrufen, die über den text, wie schriftart (Fett, Größe, etc) und den Speicherort der schriftart.
Irgendwelche Vorschläge?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Nach stochern die (schwer zu finden) PDFBox docs, fand ich dieses kleine Juwel.
Offenbar eines der Beispiele, die genau zeigt wie man tun alles, was Sie fragte. Im Grunde, Sie eine Unterklasse
PdfTextStripper
ab und setzen dieprocessTextPosition
Methode. Dort Fragen Sie dieTextPosition
für was auch immer Informationen, die Sie benötigen.Für die Zukunft, finden Sie in der javaDoc hier: http://pdfbox.apache.org/apidocs/index.html
Bearbeiten 2018-04-02: original-link ist tot, aber Beispiel finden Sie in der SVN repo hier.
Einer der besten Dinge, die für die text-Extraktion aus PDF-Dateien ist TET, der text extraction toolkit. TET ist Teil der PDFlib.com Familie von Produkten.
PDFlib.com Thomas Merz (Autor des "PostScript und PDF-Bibel") Unternehmen.
TET das erste Inkarnation ist ein Bibliothek. Kann man wohl alles, was Sie tun wollen, einschließlich positions-Informationen über jedes text-element auf der Seite. Oh, und es kann auch extrahieren Bilder. Es rekombiniert+verschmilzt Bilder, die sind zersplittert in Stücke.
pdflib.com auch bietet sich eine weitere Inkarnation von dieser Technologie, die TET plugin für Acrobat. Offensichtlich brauchen Sie Acrobat als auch diese zu nutzen.
Und die Dritte Inkarnation ist die PDFlib TET iFilter. Dies ist ein standalone-tool, das für Benutzer-Arbeitsplätze. Beides ist frei (wie in Bier), die Nutzung für private, nicht-kommerzielle Zwecke.
Schließlich TET, kommt auch mit einer Kommandozeilen-Schnittstelle.
TET ist wirklich mächtig. Viel besser als Adobes eigene text-Extraktion. Es extrahiert text für mich, wo andere tools (einschließlich Adobe) tun spucken nur Müll.
Vor ein paar Monaten getestet habe ich Ihre desktop-standalone-tool, und was Sie sagen auf Ihrer Homepage, ist wahr. Es hat eine sehr gute commandline. Einige meiner "problematischen" PDF-test-Dateien, die das tool verarbeitet zu meiner vollen Zufriedenheit.
Dieser Sache ist meine Empfehlung für alle anspruchsvollen und herausfordernden PDF text Extraktion Anforderungen.
TET ist einfach genial. Er erkennt Tabellen. Innerhalb von Tabellen werden die Zellen über mehrere Spalten. Es dient der Identifikation von Tabellenzeilen und der Inhalt jeder Zelle in der Tabelle getrennt. Sie geht sehr gut mit hyphenations: es entfernt die Bindestriche und stellt das ganze Wort. Es unterstützt nicht-ASCII-Sprachen (einschließlich CJK, Arabisch und Hebräisch). Bei der Begegnung mit Ligaturen, es stellt die ursprünglichen Zeichen...
Geben, es zu versuchen.
Den GetPageText Funktion mit extrahieren die option 3 oder 4 in Quick PDF Library gibt eine CSV-Zeichenfolge für die gewählte Seite enthält den text (einzelne Wörter oder einen text) und die dazugehörige schriftart, text, Farbe, text, Größe und Koordinaten auf der Seite.
Hinweis: es ist eine kommerzielle Bibliothek und ich arbeite für die Firma, die es verkauft.
PDF-Dateien können analysiert werden, mit tabula-py, - oder tabula-java.
Machte ich eine vollständige Anleitung, wie man verwenden tabula-py auf dieser Artikel. Sie können, tabula in einem web-browser zu, solange Sie haben Java installiert.