Tag: apache-tika
Das Apache Tika™ toolkit erkennt und extrahiert Metadaten und strukturierten text aus verschiedenen Dokumenten vorhandenen parser-Bibliotheken.
2
Antworten
Brauche ich, um zu vergleichen und erhalten Sie alle visuellen Unterschiede in den beiden PDF-Dateien. Ich weiß, es gibt einige Fragen, die im Zusammenhang mit diesem auf stack overflow, aber Sie sind nicht die Erfüllung meiner not.
2
Antworten
Hatte ich die Anforderung zu extrahieren bestimmte Spalten/Zeilen aus Excel/CSV-Datei. Jemand mir empfehlen, um mit Tika für diese Aufgabe. Zwar werde durch tika, kam ich über POI, API und mehr freundlich zu verwenden. vielleicht haben wir Sie
2
Antworten
Ich download tika-core und Tikka-parser-Bibliotheken, aber ich konnte nicht finden die Beispiel-codes zu Parsen von HTML-Dokumenten zu string. Ich habe, um loszuwerden, alle html-tags von der Quelle einer web-Seite. Was kann ich tun? Wie kann ich das
5
Antworten
schreiben brauche ich eine java-Klasse, vergleicht zwei pdf-Dateien und zeigt die Unterschiede(Unterschiede in text/position/schriftart) über irgendeine Art der Hervorhebung. mein Erster Ansatz war die Verwendung pdfbox zum Parsen der Datei mit pdfbox und speichern Sie den extrahierten
2
Antworten
Ich bin mit Apache Tika, und ich habe die Dateien (ohne Dateiendung) für bestimmte Inhalte geben, die müssen umbenannt werden, haben die Erweiterung, die den Inhalt geben. Jede Idee, wenn es etwas ist, was ich verwenden könnte,
2
Antworten
Ich habe versucht, Sie zu konvertieren .doc zu HTML durch die Verwendung von WordToHtmlConverter und es funktionierte perfekt. Aber wenn ich versuchte, Sie zu konvertieren .docx zu HTML, bekam ich mit es stecken. Was ich versucht habe:
3
Antworten
Für diesen link http://bits.blogs.nytimes.com/2014/09/02/uber-banned-across-germany-by-frankfurt-court/?partner=rss&emc=rss dieser code nicht funktioniert, aber wenn ich die anderen zum Beispiel: https://www.google.com alles ok ist: URL url = new URL("http://bits.blogs.nytimes.com/2014/09/02/uber-banned-across-germany-by-frankfurt-court/?partner=rss&emc=rss"); URLConnection uc; uc = url.openConnection(); uc.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X
3
Antworten
Im Laufenden Solr 1.4 unter Ubuntu 10.04 (installiert via apt-get solr-tomcat) und es scheint einwandfrei zu funktionieren. Im, mit einiger Mühe, eine kohärente Informationen, wie Dokumente indizieren, obwohl. Im neuen zu SOLR so mit mir tragen! Ich
4
Antworten
Ich brauchen würde, um die iana.org MediaType eher als application/zip oder application/x-tika-msoffice für Dokumente wie, odt, ppt, pptx, xlsx etc. Wenn man sich mimetypes.xml es gibt mimeType Elemente aus der iana.org mime-Typ und "sub-Klasse von" <mime-type type="application/msword">
5
Antworten
Kann jemand mir eine Anleitung. Meine wichtigste Erfahrung mit Solr ist die Indizierung von CSV-Dateien. Aber ich finde keine einfache Anleitung/tutorial, um mir zu sagen, was ich tun muss, um den index in PDF-Dateien. Habe ich dies
2
Antworten
Ich fange gerade mit elasticsearch. Auf unsere Anforderung hat uns benötigen, um index Tausende von PDF-Dateien und ich habe eine harte Zeit immer nur EINER von Ihnen zu index erfolgreich. Installiert die Anlage Typ plugin und bekam
1
Antworten
Ich bin das hochladen von Dateien zu einem Amazon s3-bucket und haben Zugriff auf den InputStream und einen String enthält den MIME-Typ der Datei, nicht aber den ursprünglichen Dateinamen. Es ist bis zu mir, um tatsächlich zu
5
Antworten
Ich versuche, erstellen Sie ein einfaches java-Programm liest und extrahiert den Inhalt aus der Datei(en), die in zip-Datei. Zip-Datei enthält 3 Dateien (txt, pdf, docx). Ich brauche zum Lesen des Inhalts alle diese Dateien, und ich bin
3
Antworten
Auf Tika ' s Webseite heißt es (in Bezug tika-app-1.2.jar) es kann verwendet werden, im server-Modus. Weiß jemand, wie man Dokumente senden und empfangen, analysiert der text von diesem server, wenn es ausgeführt wird? InformationsquelleAutor der Frage