Schnelles Konvertieren von (.rtf | .doc) Dateien in Markdown-Syntax mit PHP
Habe ich schon manuell umzustellen Artikel in Markdown-syntax für ein paar Tage jetzt, und es ist immer sehr mühsam. Einige von diesen sind 3 oder 4 Seiten, Kursiv und andere Unterstrichen gesamten text. Ist es ein schneller Weg, um zu konvertieren (.rtf/.doc -) Dateien zu reinigen Markdown-Syntax, die ich nutzen kann?
InformationsquelleAutor der Frage Sampson | 2009-06-25
Du musst angemeldet sein, um einen Kommentar abzugeben.
Wenn Sie zufällig auf einem mac
textutil
macht einen guten job der Umwandlung von doc -, docx-und rtf -, html -, und pandoc macht einen guten job der Umwandlung der resultierenden html-zu-markdown:Ich habe eine Skript , warf ich zusammen eine Weile zurück, dass versucht wird, textutil, pdf2html, und pandoc zu konvertieren, was auch immer ich um sich werfen, um markdown.
InformationsquelleAutor der Antwort David
ProgTips hat eine mögliche Lösung mit einem Word-makro (source-download):
Quelle: ProgTips
Makro Quelle
Installation
Quelle: ProgTips
Quelle
Makro-Quelle für sicher halten, wenn ProgTips löscht den post oder die Seite wird ausgelöscht:
Quelle: ProgTips
InformationsquelleAutor der Antwort Taj Moore
Wenn Sie offen mit der
.docx
format, man konnte mit diesem PHP-Skript, das ich zusammen gestellt habe, das extrahieren von XML-Daten ausführen von XSL-Transformationen und-Ausgang für einen ziemlich guten Markdown-äquivalent:https://github.com/matb33/docx2md
Beachten Sie, dass es gemeint ist, zu arbeiten von der Befehl-Linie, und ist Recht einfach in seiner Oberfläche. Aber es wird den job zu erledigen!
Wenn das Skript funktioniert nicht gut genug für Sie, ich ermutige Sie, senden Sie mir Ihre
.docx
- Dateien, so kann ich Ihr problem reproduzieren und beheben. Melden Sie ein Problem in GitHub oder Kontaktieren Sie mich direkt, wenn Sie bevorzugen.InformationsquelleAutor der Antwort matb33
Pandoc ist eine gute command-line-Umwandlung Werkzeug, aber wieder, müssen Sie zunächst um die Eingabe in ein format, dass Pandoc Lesen kann, das ist:
InformationsquelleAutor der Antwort Mike Eng
Hatten wir das gleiche problem zu haben, um konvertieren von Word-Dokumenten, markdown. Einige waren eher kompliziert und (sehr) große Dokumente mit mathematischen Formeln und Bilder und so. Also ich habe dieses Skript wandelt sich mit einer Reihe von verschiedenen tools: https://github.com/Versal/word2markdown
Weil es verwendet eine Kette von mehreren tools, die es ist ein bisschen fehleranfällig, aber es kann ein guter Ausgangspunkt, wenn Sie mehr komplizierte Dokumente. Hoffe, es kann hilfreich sein! 🙂
Update:
Es funktioniert bisher nur auf Mac OS X, und Sie müssen einige Anforderungen installiert (Word, Pandoc, HTML-Tidy, git, node/npm). Für Sie, um richtig zu arbeiten, müssen Sie auch öffnen Sie ein leeres Word-Dokument und Mach: Datei->Speichern Als Webseite->Kompatibilität->Encoding->UTF-8. Dann wird diese Kodierung als Standard gespeichert. Siehe die README für weitere details zum einrichten.
Dann führen Sie dies in der Konsole:
Dann finden Sie Markdown in
document.md
und Bilder in das Verzeichnisdocument_files
.Es ist vielleicht ein bisschen kompliziert jetzt, so würde ich begrüßen alle Beiträge, die dies erleichtern oder machen Sie diese Arbeit auf andere Betriebssysteme! 🙂
InformationsquelleAutor der Antwort janpaul123
Haben Sie versucht, diese? Nicht sicher über das, feature-Reichtum, aber es funktioniert für einfache Texte.
http://markitdown.medusis.com/
InformationsquelleAutor der Antwort user626528
Als Teil der Universität ruby natürlich entwickelte ich ein tool, das konvertieren von openoffice-word-Dateien (.odt) zu markdown.
Eine Menge von Annahmen werden gemacht, um zu drehen, um eine korrekte Formatierung. Zum Beispiel ist es schwierig zu bestimmen, die Größe von text, der als Überschrift.
Aber die denken nur, dass Sie kann Locker mit dieser Umwandlung ist die Formatierung von text, der erfüllt ist, ist immer an die markdown-Dokument.
Das tool habe ich entwickelt, unterstützt Listen, Fett und Kursiv text, und es hat syntax für Tabellen.
http://github.com/bostko/doc2text
Versuchen Sie es und geben Sie mir Ihr feedback.
InformationsquelleAutor der Antwort Valentin