python konvertieren Sie microsoft office-Dokumente in einfachen text auf linux
Alle Empfehlungen auf einer Methode, um zu konvertieren .doc .ppt, und .xls-text unter linux mit python? Wirklich jede Methode der Umwandlung sinnvoll wäre. Ich habe schon geschaut bei der Nutzung von Open Office, aber ich möchte eine Lösung, die nicht erfordert, dass installieren Sie Open Office.
- Ich ging mit einem command-line-Lösung
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich würde mich für die Kommandozeilen-Lösung (und verwenden Sie dann die Python-subprocess-Modul, um die tools ausführen von Python).
Konverter für msword (catdoc), excel (xls2csv) und ppt (catppt) gefunden werden kann (in den Quellen) hier: http://vitus.wagner.pp.ru/software/catdoc/.
Können nicht wirklich kommentieren die EIGNUNG von catppt aber catdoc und xls2csv große Arbeit!
Aber sicher sein, suchen Sie zuerst die distributions-repositories... Auf ubuntu zum Beispiel catdoc ist nur ein schnelles apt-get entfernt.
Können Sie den Zugriff OpenOffice via Python API.
Verwenden Sie dieses als Basis: http://wiki.services.openoffice.org/wiki/Odt2txt.py
Dem üblichen Werkzeug für die Umwandlung von Microsoft Office-Dokumenten in HTML oder anderen Formaten war mswordview, die inzwischen umbenannt wurde, zu vwWare.
Wenn Sie auf der Suche für ein command-line-tool, können Sie tatsächlich empfehlen die Verwendung von AbiWord um die Konvertierung durchzuführen:
Wenn Sie auf der Suche nach einer Bibliothek, starten Sie auf der wvWare übersicht Seite. Sie behaupten auch,eine Liste von Bibliotheken und Werkzeugen, das Lesen von MS Office-Dokumenten.
In der Befehlszeile, antiword oder wv Arbeit sehr gut .doc-Dateien. (Nicht eine Python-Lösung, aber Sie sind einfach zu installieren und schnell.)
Gleiche problem hier. Unten ist mein einfaches Skript konvertiert alle doc-Dateien in Verzeichnis 'docs/' zu dir 'txts/" Verwendung von catdoc. Hoffe es hilft jemanden:
:D
Für den Umgang mit Excel-Tabellen xlwt ist gut. Aber es wird nicht helfen mit
.doc
und.ppt
- Dateien.(Haben Sie vielleicht auch gehört PyExcelerator. xlwt ist eine Abspaltung von diesem und besser gepflegt, so dass ich glaube, Sie wäre besser mit xlwt.)
Ich ve hatte einigen Erfolg bei der Verwendung von XSLT zur Verarbeitung der XML-basierten office-Dateien in etwas Verwertbares in der Vergangenheit. Es ist nicht unbedingt eine python-basierte Lösung, aber es tut den job zu erledigen.