Wie zum Extrahieren von docx - (Word 2007 oben), Apache-POI
Hai, ich bin mit der Apache POI-3.6
Ich habe schon einige code..
XWPFDocument doc = new XWPFDocument(new FileInputStream(file));
wordxExtractor = new XWPFWordExtractor(doc);
text = wordxExtractor.getText();
System.out.println("adding docx " + file);
d.add(new Field("content", text, Field.Store.NO, Field.Index.ANALYZED));
leider, es erzeugt Fehler..
Exception in thread "main" java.lang.NoClassDefFoundError: org/dom4j/DocumentException
at org.apache.poi.openxml4j.opc.OPCPackage.init(OPCPackage.java:149)
at org.apache.poi.openxml4j.opc.OPCPackage.<init>(OPCPackage.java:136)
at org.apache.poi.openxml4j.opc.Package.<init>(Package.java:54)
at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:98)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:199)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:178)
at org.apache.poi.util.PackageHelper.open(PackageHelper.java:53)
at org.apache.poi.xwpf.usermodel.XWPFDocument.<init>(XWPFDocument.java:98)
at org.apache.lucene.demo.Indexer.indexDocs(Indexer.java:153)
at org.apache.lucene.demo.Indexer.main(Indexer.java:88)
Schien es, dass es verwendet Konstruktor
XWPFWordExtractor(OPCPackage container)
aber nicht diese ->
XWPFWordExtractor(XWPFDocument Dokument)
Alle Fragen sich warum??
Oder irgendeine Idee, wie ich die Informationen extrahieren kann .docx-konvertieren Sie es dann in einen String?
InformationsquelleAutor Doli | 2010-08-30
Du musst angemeldet sein, um einen Kommentar abzugeben.
Müssen Sie dom4j Bibliothek, um Ihre claspath oder Ihr Projekt Bibliotheken
InformationsquelleAutor Deitek
Sieht es aus wie Sie nicht alle Abhängigkeiten auf Ihrem classpath.
Wenn man sich http://poi.apache.org/overview.html du wirst sehen, dass dom4j ist eine benötigte Bibliothek bei der Arbeit mit dem OOXML-Dateien. Von der Ausnahme, die Sie bekam, es scheint, dass Sie es nicht haben... Wenn man sich in der POI-binary herunterladen, sollten Sie finden es in der ooxml-libs-Unterverzeichnis.
InformationsquelleAutor Gagravarr
Könnten Sie versuchen, docx4j statt; siehe http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
InformationsquelleAutor JasonPlutext