Konvertierung von PDF zu string
Wie das Lesen von PDF-Datei und Inhalt in string? Mit der PHP-Sprache.
file_get_contents
, wenn Sie das unformatierte Binärdaten oder aktualisieren Sie Ihre Frage und sagen Sie uns, was Sie wirklich wollen.- Möglicherweise finden Sie dieses tutorial hilfreich: webcheatsheet.com/php/reading_clean_text_from_pdf.php
- Ich brauche eine saubere text aus pdf-Dateien. Wenn ich text aus pdf-Dateien, die ich benötigen, fügen Sie diesen text in der DB.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Könnten Sie so etwas wie pdftotext, das kommt mit dem Xpdf-Paket auf linux. Die popen Befehl kann dann verwendet werden, leiten Sie die Ausgabe von pdftotext in eine Zeichenkette:
Fand diese sehr schön, Klasse! Weiter, können Sie Funktionen hinzufügen, um Ihre Bedürfnisse anzupassen.
Wahrscheinlich diese helfen Ihnen, bestimmte Funktionen hinzuzufügen:
http://www.adobe.com/devnet/pdf/pdf_reference.html
http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/PDF32000_2008.pdf
Wenn es nicht funktioniert, überprüfen Sie, ob Sie markieren/markieren Sie Ihren text beim öffnen in Adobe Reader (wenn Sie nicht können, der text in der Datei ist wahrscheinlich gespeichert, als geometrische Kurven), überprüfen Sie auch für die Codierung.
Installieren, APACHE TIKA auf Ihrem server.
APACHE TIKA support mehr dann pdf-Dateien.
Install guide:
http://www.acquia.com/blog/use-apache-solr-search-files
- und final-code ist einfach:
Können Sie die PHP-Klasse, die ist hier verfügbar :
http://www.pdftotext.eu
Dies ist ein public-domain-PDF text extractor komplett geschrieben in reines PHP, das heißt, Sie müssen nicht verlassen sich auf externe Befehle. Es bietet eine einfache Schnittstelle zum abrufen von text :