Konvertieren .docx zu HTML mit JAVA

Ich habe versucht, Sie zu konvertieren .doc zu HTML durch die Verwendung von WordToHtmlConverter und es funktionierte perfekt.

Aber wenn ich versuchte, Sie zu konvertieren .docx zu HTML, bekam ich mit es stecken.

Was ich versucht habe:

Ich verwendete den folgenden code, um zu konvertieren .docx zu HTML:

Dem code, die ich habe versucht, aus : Wie zu verwenden Tika ist XWPFWordExtractorDecorator Klasse?

        InputStream input = TikaInputStream.get(new File("C:\\Users\\Downloads\\filename.docx"));


        Parser parser = new AutoDetectParser();


        StringWriter sw = new StringWriter();
        SAXTransformerFactory factory = (SAXTransformerFactory)
                 SAXTransformerFactory.newInstance();
        TransformerHandler handler = factory.newTransformerHandler();
        handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
        handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
        handler.setResult(new StreamResult(sw));


        try {
            Metadata metadata = new Metadata();
            parser.parse(input, handler, metadata, new ParseContext());
            String xml = sw.toString();
            System.out.print("tika : "+xml); 
        } finally {
            input.close();
        }

Den Ausgang, was, die ich habe ist,

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title/>
</head>
<body/>
</html>
  • Bitte erklären, wo ich falsch gegangen?
  • Gibt es einen besseren Weg, um zu konvertieren .docx zu html-string

Schätzen Ihre Hilfe, Danke

  • Gemäß der Dokumentation zu poi.apache.org/apidocs/org/apache/poi/hwpf/converter/..., der diese API verwendet werden soll, bis zu Word 2007, wenn es nur .doc . So ist es nicht für die Arbeit .docx mit dieser API. Versuchen Sie, so speichern Sie Ihr Dokument .doc
  • Sie dint erhalten mein Punkt. Ich habe Umgerechnet .doc zu html mit hwpf-Konverter. Aber ich versuche, es zu tun für .docx, gibt es eine Möglichkeit?
  • code.google.com/p/xdocreport/wiki/XWPFConverterXHTML
  • In Ihrer einfachsten .docx - Dateien sind in ein Archiv (Sie können öffnen Sie Sie mit so etwas wie 7zip, um die Inhalte), die eine Reihe von XML-Dateien. Mit dem im Verstand, würden Sie wollen, etwas zu verwenden, die können die Umwandlung von XML in HTML.
  • Sie könnten auch einen Blick auf Pandoc oder jedem anderen Befehlszeilen-tool von Java. Diese Aufgaben sind nicht trivial und ich bin mir nicht sicher ob es eine eine funktionierende API gibt, für die andere als POI Geldautomaten.
  • ich habe es herausgefunden, indem Sie über den link : code.google.com/p/xdocreport/wiki/XWPFConverterXHTML. ich werde Sie einfach posten Sie als Antwort, es könnte jemand helfen. Danke Euch allen für Eure sugesstions.
  • Können Sie docx4j für die, siehe Beispiel: github.com/plutext/docx4j/blob/master/src/samples/docx4j/org/...

Schreibe einen Kommentar