Gibt es einen PDF-Parser für PHP?
Hi ich weiß über mehrere PDF - Generatoren für php (mit fpdf, dompdf, etc.)
Was ich wissen möchte ist über einen parser.
Aus Gründen, die außerhalb meiner Kontrolle ist, bestimmte Informationen, die ich brauchen, ist nur in eine Tabelle in einem pdf
und ich muss zu extrahieren, die Tabelle und wandeln es in ein array.
Irgendwelche Vorschläge?
Kommentar zu dem Problem
Gebe ich ein Kopfgeld auf wer kann uns ein Beispiel wie Sie Extrakt der text von pdf-Dokumenten. Die Lösung ist die Verwendung von frei Bibliotheken (keine xPDF oder PDF2Text) und Plattform-unabhängige (Arbeit auf win und unix, so dass keine PDF2Text). Es kann die exec() oder shell () - Funktion von PHP.
Dank Der Kau-Boy. Vielleicht ein Kopfgeld wird helfen, motivieren, ausführliche Antworten.
InformationsquelleAutor der Frage elviejo79 | 2009-08-09
Du musst angemeldet sein, um einen Kommentar abzugeben.
Habe ich geschrieben, bevor (für ähnliche Bedürfnisse), und ich kann sagen: Spaß Haben. Es ist eine sehr komplexe Aufgabe. Die PDF-Spezifikation ist groß und unhandlich. Es gibt mehrere Methoden zum speichern von text in es. Und der Clou ist, dass jede PDF-generator ist anders, wie es funktioniert. Während also so etwas wie TFPDF oder DOMPDF schafft WIRKLICH einfach zum Lesen von PDFs (aus einer Maschine-Sicht), Acrobat macht wirklich höllischen Dokumente.
Der Grund dafür ist, wie Sie schreibt den text. Die meisten DOM-basierten Renderer --, die ich verwendet habe-- schreiben die gesamte Zeile als ein string, und positionieren Sie es einmal (das ist wirklich leicht zu Lesen). Acrobat versucht, effizienter zu sein (und es ist) durch das schreiben von nur einer oder vielleicht ein paar Zeichen in einer Zeit, und positionieren Sie Sie unabhängig voneinander. Während dieser WIRKLICH vereinfacht rendering, es macht das Lesen sehr VIEL schwieriger.
Die Seite bis hier, ist dass das PDF-format selbst ist wirklich einfach. Sie haben die "Objekte", die Folgen einer regulären syntax. Dann können Sie miteinander verknüpfen zu generieren die Inhalte. Die Spezifikation macht einen guten job bei der Beschreibung der Datei format. Aber die wirkliche Welt Lesen, wird ein bisschen von brain power...
Einige hilfreiche Ratschläge, die ich hatte auf die harte Tour lernen, wenn Sie gehen, um es selbst schreiben:
65
wird wahrscheinlich nichtA
... Sie müssen zu einem map-Objekt ableiten, was es tut, je nachdem, welche Zeichen drin sind. Und es ist effizient, denn wenn ein Charakter erscheint nicht im Dokument, die schriftart, die es nicht (das macht das Leben schwer, wenn Sie versuchen, programmgesteuert Bearbeiten von PDF -)...strlen
. Verwendenmb_strlen($string, '8bit')
da es kompensiert für unterschiedliche Zeichensätze (und möglicherweise ungültige Zeichen in anderen charsets).Ansonsten, viel Glück...
InformationsquelleAutor der Antwort ircmaxell
Benutze ich PDFBox (http://pdfbox.apache.org/). Diese software ist javabased und Plattform-unabhängiges. Es arbeitet schnell und zuverlässig. Sie können es verwenden, via exec oder shell oder via PHP/Java-Bridge (http://php-java-bridge.sourceforge.net/)
InformationsquelleAutor der Antwort Timo
Haben Sie schon angeschaut xPDF ? Es gibt ein Programm namens pdftotext, wird die Konvertierung zu tun. Sie können es aufrufen, PHP und Lesen Sie dann in der text-version der PDF-Datei. Sie müssen die Fähigkeit zum ausführen von exec() oder system() aus php, so kann dies nicht auf alle gehosteten Lösungen obwohl.
Außerdem gibt es einige Beispiele auf der PHP-site konvertieren von PDF in text, obwohl seine ziemlich rau. Vielleicht möchten Sie versuchen, einige dieser Beispiele, wie gut. Auf, dass PHP-Seite, Suche für luc bei phpt dot org.
InformationsquelleAutor der Antwort ryanday
Haben Sie einen Blick auf GhostScript oder ITextSharp, es gibt verschiedene cross-Plattform-version von beiden.
InformationsquelleAutor der Antwort Mark Redman
Zend_Pdf ist Teil der Zend Framework. Ihr Handbuch sagt:
InformationsquelleAutor der Antwort Bill Karwin
Kann es eigentlich nicht sein, eine Tabelle im PDF als PDF-verliert diese Art von Informationen...
InformationsquelleAutor der Antwort mark stephens
Diese ist die PHP-PDF-parser, die es in zwei Geschmacksrichtungen:
InformationsquelleAutor der Antwort lubosdz