Tag: apache-tika

Das Apache Tika™ toolkit erkennt und extrahiert Metadaten und strukturierten text aus verschiedenen Dokumenten vorhandenen parser-Bibliotheken.

Wie vergleichen zwei PDF-Dokumenten auf Basis von visual Unterschiede programmgesteuert?

Anzahl der Antworten 2 Antworten
Brauche ich, um zu vergleichen und erhalten Sie alle visuellen Unterschiede in den beiden PDF-Dateien. Ich weiß, es gibt einige Fragen, die im Zusammenhang mit diesem auf stack overflow, aber Sie sind nicht die Erfüllung meiner not.

Unterschied zwischen Apache POI api und Apache Tika-Api?

Anzahl der Antworten 2 Antworten
Hatte ich die Anforderung zu extrahieren bestimmte Spalten/Zeilen aus Excel/CSV-Datei. Jemand mir empfehlen, um mit Tika für diese Aufgabe. Zwar werde durch tika, kam ich über POI, API und mehr freundlich zu verwenden. vielleicht haben wir Sie

Wie kann ich mit der HTML-parser mit Apache Tika in Java extrahiert alle HTML-tags?

Anzahl der Antworten 2 Antworten
Ich download tika-core und Tikka-parser-Bibliotheken, aber ich konnte nicht finden die Beispiel-codes zu Parsen von HTML-Dokumenten zu string. Ich habe, um loszuwerden, alle html-tags von der Quelle einer web-Seite. Was kann ich tun? Wie kann ich das

vergleichen Sie zwei pdf-Dateien (Ansatz) unter Verwendung der java

Anzahl der Antworten 5 Antworten
schreiben brauche ich eine java-Klasse, vergleicht zwei pdf-Dateien und zeigt die Unterschiede(Unterschiede in text/position/schriftart) über irgendeine Art der Hervorhebung. mein Erster Ansatz war die Verwendung pdfbox zum Parsen der Datei mit pdfbox und speichern Sie den extrahierten

Wie man die Dateiendung von der content-type?

Anzahl der Antworten 2 Antworten
Ich bin mit Apache Tika, und ich habe die Dateien (ohne Dateiendung) für bestimmte Inhalte geben, die müssen umbenannt werden, haben die Erweiterung, die den Inhalt geben. Jede Idee, wenn es etwas ist, was ich verwenden könnte,

Konvertieren .docx zu HTML mit JAVA

Anzahl der Antworten 2 Antworten
Ich habe versucht, Sie zu konvertieren .doc zu HTML durch die Verwendung von WordToHtmlConverter und es funktionierte perfekt. Aber wenn ich versuchte, Sie zu konvertieren .docx zu HTML, bekam ich mit es stecken. Was ich versucht habe:

java.lang.IllegalArgumentException: protocol = http host = null

Anzahl der Antworten 3 Antworten
Für diesen link http://bits.blogs.nytimes.com/2014/09/02/uber-banned-across-germany-by-frankfurt-court/?partner=rss&emc=rss dieser code nicht funktioniert, aber wenn ich die anderen zum Beispiel: https://www.google.com alles ok ist: URL url = new URL("http://bits.blogs.nytimes.com/2014/09/02/uber-banned-across-germany-by-frankfurt-court/?partner=rss&emc=rss"); URLConnection uc; uc = url.openConnection(); uc.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X

Wie kann ich die index-Dokumente in SOLR?

Anzahl der Antworten 3 Antworten
Im Laufenden Solr 1.4 unter Ubuntu 10.04 (installiert via apt-get solr-tomcat) und es scheint einwandfrei zu funktionieren. Im, mit einiger Mühe, eine kohärente Informationen, wie Dokumente indizieren, obwohl. Im neuen zu SOLR so mit mir tragen! Ich

Erste MIME-Typ Subtyp mit Apache tika

Anzahl der Antworten 4 Antworten
Ich brauchen würde, um die iana.org MediaType eher als application/zip oder application/x-tika-msoffice für Dokumente wie, odt, ppt, pptx, xlsx etc. Wenn man sich mimetypes.xml es gibt mimeType Elemente aus der iana.org mime-Typ und "sub-Klasse von" <mime-type type="application/msword">

Die Indizierung von PDF mit Solr

Anzahl der Antworten 5 Antworten
Kann jemand mir eine Anleitung. Meine wichtigste Erfahrung mit Solr ist die Indizierung von CSV-Dateien. Aber ich finde keine einfache Anleitung/tutorial, um mir zu sagen, was ich tun muss, um den index in PDF-Dateien. Habe ich dies

Elasticsearch Parse Exception Fehler beim index PDF

Anzahl der Antworten 2 Antworten
Ich fange gerade mit elasticsearch. Auf unsere Anforderung hat uns benötigen, um index Tausende von PDF-Dateien und ich habe eine harte Zeit immer nur EINER von Ihnen zu index erfolgreich. Installiert die Anlage Typ plugin und bekam

So ermitteln Sie die geeignete Dateierweiterung von MIME Type in Java

Anzahl der Antworten 1 Antworten
Ich bin das hochladen von Dateien zu einem Amazon s3-bucket und haben Zugriff auf den InputStream und einen String enthält den MIME-Typ der Datei, nicht aber den ursprünglichen Dateinamen. Es ist bis zu mir, um tatsächlich zu

Lesen Sie Inhalte aus Dateien, die sich in einer Zip-Datei befinden

Anzahl der Antworten 5 Antworten
Ich versuche, erstellen Sie ein einfaches java-Programm liest und extrahiert den Inhalt aus der Datei(en), die in zip-Datei. Zip-Datei enthält 3 Dateien (txt, pdf, docx). Ich brauche zum Lesen des Inhalts alle diese Dateien, und ich bin

Wie benutzt man Tika im Servermodus?

Anzahl der Antworten 3 Antworten
Auf Tika ' s Webseite heißt es (in Bezug tika-app-1.2.jar) es kann verwendet werden, im server-Modus. Weiß jemand, wie man Dokumente senden und empfangen, analysiert der text von diesem server, wenn es ausgeführt wird? InformationsquelleAutor der Frage