Kann PHP Lesen von text aus einer PowerPoint-Datei?
Ich will PHP Lesen ein (hochgeladen) powerpoint-Präsentation, und minimal extrahieren Sie den text aus jeder Folie (grabbing weitere Informationen wie Bilder und layouts würde sogar besser sein, aber ich würde sich nur auf den text an dieser Stelle).
Ich weiß, dass google apps gibt es in seiner Präsentations-app, so dass ich vermute, dass es eine Möglichkeit gibt, die übersetzung der powerpoint-binary, aber ich kann nicht scheinen, finden alle Informationen auf, wie es zu tun.
Irgendwelche Ideen auf, was zu versuchen?
Dank -
Du musst angemeldet sein, um einen Kommentar abzugeben.
Je nach version, können Sie einen Blick auf das Zend Framework als Zend_Search_Lucene ist in der Lage-index von PowerPoint 2007-Dateien. Schauen Sie sich einfach die entsprechenden class-Datei, ich denke, es ist so etwas wie
Zend_Search_Lucene_Document_Pptx
.Ja, natürlich ist es möglich.
[Hier ist ein Anfang.](http://download.microsoft.com/download/0/B/E/0BE8BDD7-E5E8-422A-ABFD-4342ED7AD886/PowerPoint97-2007BinaryFileFormat(ppt)Specification.pdf) Ich würde nicht sagen, es ist sehr gut dokumentiert/formatiert, aber es ist nicht so schwer, wenn Sie bekommen begann. Konzentrieren Sie sich zunächst nur auf die Elemente, die Sie benötigen (Folien, Texte, etc).
Weniger detailliert und einfacher Ansatz wäre, zu öffnen .ppt-Datei in hex-editor und suchen Sie nach Informationen, die Sie interesed in (Sie sollten in der Lage sein zu sehen, text in Binär-Daten) - und das, was es umgibt. Dann basierend auf dem, was Sie umgibt, dass die Informationen, die Sie schreiben könnte ein parser, extrahiert diese Informationen.
Hier ist ein Beispiel für eine Funktion, die ich erstellt bilden eine ähnliche, die extrahiert text aus Word-Dokumenten. Getestet habe ich es mit Microsoft PowerPoint-Dateien, aber es wird nicht decodieren OpenOfficeImpress-Dateien gespeichert .ppt
Für .pptx-Dateien, möchten Sie vielleicht werfen Sie einen Blick auf Zend Lucene.
Ich wollte nach meiner Auflösung dieser.
Leider war ich nicht in der Lage, um PHP sicher zu Lesen der binären Daten.
War meine Lösung schreiben Sie eine kleine vb6 app, die die Arbeit durch die Automatisierung von PowerPoint.
Nicht das, was ich suchte, aber löst das Problem für jetzt.
Dass gesagt wird, die Zend-option wie es aussieht kann lebensfähig sein und irgendwann, so werde ich sehen, dass.
Dank.