Wie benutzt man Tika im Servermodus?
Auf Tika ' s Webseite heißt es (in Bezug tika-app-1.2.jar) es kann verwendet werden, im server-Modus. Weiß jemand, wie man Dokumente senden und empfangen, analysiert der text von diesem server, wenn es ausgeführt wird?
InformationsquelleAutor der Frage Serge Anido | 2012-09-01
Du musst angemeldet sein, um einen Kommentar abzugeben.
Tika unterstützt zwei "server" zu wechseln. Die einfachere und ursprüngliche ist die
--server
Flagge von Tika-App. Die funktionelle, aber auch jüngeren ist die JAX-RS, JSR-311-server-Komponentedie eine zusätzliche jar.Tika-App-Netzwerk-Server ist sehr einfach zu bedienen. Einfach start-Tika-App mit der
--server
fahne, und ein--port ###
flag zu sagen was port Abhören. Dann, eine Verbindung zu diesem port und senden Sie eine einzelne Datei. Sie erhalten wieder die html-version. NetCat funktioniert gut für diese, so etwas wiejava -jar tika-app.jar --server --port 12345
gefolgt vonnc 127.0.0.1 12345 < MyFileToExtract
erhalten Sie wieder die html -Den JAX-RS, JSR-311-server-Komponente unterstützt einige verschiedene urls für Dinge wie Metadaten -, text etc. Sie starten den server mit
java -jar tika-server.jar
dann tun Sie HTTP put-Aufrufe an die entsprechende url mit Ihrem input-Dokument und erhalten Sie die Ressource wieder. Es gibt eine Menge von details und Beispiele (einschließlich der Verwendung von curl zum testen) auf die wiki-SeiteTika-App-Netzwerk-Server ist ziemlich einfach, unterstützt nur einen Modus (extrahieren, die in HTML), und ist in der Regel für Tests /demos /prototyping /etc. Die Tika JAXRS-Server ist eine voll RESTful-Dienst, die Gespräche HTTP und stellt eine Breite Palette von Tika Modi. Es ist die allgemein empfohlenen Weg, in diesen Tagen, um eine Schnittstelle mit Tika über das Netzwerk, und/oder von nicht-Java-stacks.
InformationsquelleAutor der Antwort Gagravarr
Einfach hinzufügen @Gagravarr tolle Antwort.
Wenn die Rede von Tika im server-Modus, ist es wichtig zu unterscheiden zwischen zwei Versionen, die sonst zu Verwirrung führen:
Die erste option nur-text-Extraktion und gibt den Inhalt als HTML. Wahrscheinlich, was Sie wirklich wollen, ist die zweite option, die einen RESTful-Dienst auszusetzen, viel mehr von Tika Funktionen.
Können Sie einfach herunterladen tika-server.jar von Tika Projekt-Website. Starten Sie den server mit
- H 0.0.0.0 (host) option lässt den server listen für alle eingehenden Anfragen, sonst ohne Sie würde es nur hören für Anfragen von localhost. Sie können auch hinzufügen der option-p den port ändern, sonst wird es standardmäßig 9998.
Dann, sobald der server gestartet wurde, können Sie einfach darauf zugreifen über den browser. Es wird die Liste der verfügbaren Endpunkte.
Schließlich zum extrahieren von meta-Daten aus einer Datei, die Sie verwenden können, cURL, wie diese:
Gibt die meta-Daten als Schlüssel/Wert-paar pro Zeile. Sie können auch Tika Rückgabe der Ergebnisse als JSON-durch das hinzufügen der richtigen accept-header:
[Update 2015-01-19] Zuvor der Kommentar sagte, dass tika-server.jar ist nicht als download zur Verfügung. Behoben, da es tatsächlich existiert als binary herunterladen.
InformationsquelleAutor der Antwort Ingo Renner
Zur Verbesserung der Gagravarr perfekte Antwort:
"http://myserver-domain/*Pfad-zum-doc - */doc-name.Erweiterung" | nc
127.0.0.1 12345
login:*Passwort*
"http://myserver-domain/*Pfad-zum-doc - */doc-name.Erweiterung" | nc
127.0.0.1 12345
InformationsquelleAutor der Antwort Pr Shadoko