Konvertieren von Word-Dokument in HTML
Ich wollen speichern Sie das Word-Dokument in HTML mit Word Viewer, ohne Word installiert ist, in meine Maschine. Gibt es eine Möglichkeit, dies in C#?
- stackoverflow.com/questions/161791/...
- Ist das eine übung, oder wollen Sie einfach nur zu übersetzen .doc zu .html und die Methode egal?
- Nein, ich möchte hinzufügen Beschreibung - Am client-Ende von MS-Word nicht installiert ist , so habe ich, um die Arbeit abzuschließen, die mit dem word-viewer-Komponente, die nur –
Du musst angemeldet sein, um einen Kommentar abzugeben.
Für die Konvertierung .docx-Datei in HTML-format, die Sie verwenden können,OpenXmlPowerTools. Stellen Sie sicher, fügen Sie einen Verweis auf OpenXmlPowerTools.dll.
Können Sie versuchen, mit Microsoft.Office.Interop.Wort;
Ich denke, dies hängt von der version des Word-Dokuments. Wenn Sie Sie im docx-format, ich glaube Sie sind gespeichert in der Datei als XML-Daten (aber es ist so lange seit ich schaute die Spezifikation bin ich vollkommen glücklich zu sein, korrigiert auf, der).
Schrieb ich Mammut für .NET, das ist eine Bibliothek, wandelt docx-Dateien zu HTML, und wird verfügbar auf NuGet.
Mammut versucht zu produzieren sauberen HTML-Code, indem Sie betrachten, semantische Informationen-zum Beispiel-mapping-Absatz-Formatvorlagen in Word (wie
Heading 1
) zu entsprechenden tags und Stil in der HTML/CSS (wie<h1>
). Wenn Sie möchten, etwas, das erzeugt eine exakte visuelle Kopie, dann Mammut ist wahrscheinlich nicht für Sie. Wenn Sie etwas, das bereits gut strukturierte und konvertieren möchten, dass HTML-tidy, Mammut könnte den trick tun.Laut dieser Stack Overflow Frage, es ist nicht möglich, mit word viewer. Sie müssen Wort für COM-Interop verwenden, um die mit Word interagieren.
Wenn Sie öffnen, um nicht mit C#, Sie konnte etwas tun, wie drucken, um die Datei mit PrimoPDF (was würde das ändern .doc-in ein .pdf) und dann mit einem PDF-zu-HTML-Konverter zu gehen den rest des Weges. Danach Bearbeiten Sie Ihre html -, jedoch, das Sie mögen.
Einem anderen, ähnlichen Thema, das ich habe ist Konvertieren von Word in HTML dann Rendern von HTML-Inhalten auf der Webseite. Ich denke, dass Sie möglicherweise finden Sie diese Informationen hilfreich, wenn Sie noch drauf. Es ist ein frei verteilt dll für diese. Ich habe den link dort.
Gembox funktioniert ziemlich gut. Es auch konvertiert Bilder in das Word-Dokument in base64-codierte strings in img-tags.
Benötigen Sie MS Word installiert haben, um dies zu tun, glaube ich.
Check-out dieser Artikel für details über die Umsetzung.
Verwendung der Dokument-Konvertierungs-tools zur Verfügung in OpenOffice.org ist wohl die einzig mögliche option - die .doc-format ist nur entworfen, um geöffnet werden über Microsoft-Produkte, so dass alle Bibliotheken, die den Umgang mit wird es brauchen, um reverse-Engineering das gesamte format.