PHP - Extrahieren von Text aus Verschiedenen Datei-Formaten Word/Excel/Powerpoint/PDF/RTF
Arbeite ich an einer web-Anwendung, wo Benutzer hochladen können unterschiedliche Dateien MS Word - (.doc und .docx), Excel - (.xls-und .xlsx), PowerPoint -, PDF -, text-und Rich Text Dateien (.rtf).
Als Teil der Anwendung-flow-würde ich mag, um eine Vorschau anzuzeigen, die den Inhalt der Dateien in einem IFrame, HTML beste, aber ich kann gehen, mit text, mit einer PHP-Klasse
Den Ansatz, den ich verwende, ist:
-
Identifizieren, die Endung jeder Datei
-
Prozess jede Datei anders
-
Anzuzeigen, die text-oder HTML
Gibt es eine Bibliothek, die das tut?
UPDATE:
Habe meine endgültige Lösung als Antwort statt der Aktualisierung die Frage,
- Ich glaube nicht, dass deine Frage viel noch hilfreich. Siehe auch Stapel-Überlauf nicht Produkt-oder service-Empfehlungen.
- Ich bin nicht Fragen, für eine service-Empfehlung, ich Frage für eine Lösung für ein problem, das ich habe
- Sicher, aber diese website ist über die Programmierung Fragen. Und ich Frage mich auch ein bisschen, weil diese Frage (oder besser die Fragen, die er besteht) gebeten worden, eine zahlreiche mal. Also ich denke, es lohnt sich, wenn Sie es verbessern.
- Ich glaube nicht, dass es eine einzige Lösung für dieses, müssen Sie separate Bibliotheken für diese. Ich benutze PHPExcel zum Lesen von Excel -, ot gut funktioniert.
- Vielen Dank, ich werde in PHPExcel excel, alles für MS Word, PDF oder Powerpoint?
- PHPWord und PHPPowerPoint sind Schwester-Projekte zu PHPExcel, unter dem neuen Dach der PHPOffice auf github. Das langfristige Ziel ist, dass alle 3 PHPOffice Projekte werden sowohl Lesen und schreiben; aber zur Zeit weder diese liest word-oder powerpoint-Dateien, die Sie nur schreiben.
- Auf welcher Plattform sind Sie auf? Potenziell, wenn Sie Windows benutzen, könnten Sie in der Lage zu laufen ein Office-Reader macht, dass eine bitmap über eine Druckertreiber - aber bewusst sein, mögliche Lizenz-Probleme, wenn es läuft auf eine multi-user-server.
- Windows würde Ihnen erlauben, die Verwendung von COM, Wenn Sie auf Linux, dann gibt ' s Open/Libre Office und PUNO
- Ich bin versucht zu bleiben PHP-spezifische Lösungen, da ich keine Kontrolle über die endgültige Bereitstellung der Plattform (kann ein Linux-shared-host)
- bitte posten Sie Ihre Antwort als Antwort, nicht als update für die Frage.
- Aktualisiert
Du musst angemeldet sein, um einen Kommentar abzugeben.
Es gibt keine einzige Bibliothek, die löst das problem, so habe ich es gelöst mit den folgenden Bibliotheken für jede Datei-Typ:
a) MS Word - Dokumente, Live-Docx - (http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/)
b) MS - Excel- PHP-Excel - (http://phpexcel.codeplex.com/)
c) Text aus PDF - Klasse von dieser Pastebin http://pastebin.com/hRviHKp1
d) Powerpoint - noch in Arbeit
Kann ich Ihnen mehr details auf meinem blog http://ssmusoke.wordpress.com/2012/06/16/display-contents-of-different-file-formats-wordexcelpowerpointpdfrtf-as-html/
Hatte ich eine ähnliche Aufgabe vor ein paar Jahren und wir landeten mit Open Office im server-Modus mit ImageMagick abrufen Miniaturbilder der PowerPoint-Dokumenten. Für irgendeine Art von Präsentationen-Bibliothek.
Prinzipiell ist die Idee zu laufen und OpenOffice konvertieren Sie Ihre Dokumente in PDF und dann verwenden Sie ImageMagick erstellen Sie eine Miniaturansicht der ersten Seite des PDF.
Dieser Kerl hier verwendet OpenOffice ein tool zum konvertieren von Dokumenten: https://stackoverflow.com/a/1046159/626621 (könnte dir helfen)
Vorteil hierbei ist, dass ich denke, dass ein Bild als Vorschau des Dokuments wird mehr erzählen, um Ihre Nutzer als nur der text.