Unterschied zwischen Apache POI api und Apache Tika-Api?
Hatte ich die Anforderung zu extrahieren bestimmte Spalten/Zeilen aus Excel/CSV-Datei. Jemand mir empfehlen, um mit Tika für diese Aufgabe.
Zwar werde durch tika, kam ich über POI, API und mehr freundlich zu verwenden.
vielleicht haben wir Sie Voraussetzung, um zu analysieren, eine PDF-Datei weiter.
Ich bin neu auf dieser Technologie würde ich gern wissen, den Unterschied zwischen zwei-und, welche Technologie ist besser geeignet für meine Anforderung.
Dank,
Krishna
- haben Sie den info-tag diejenigen, die Sie markiert haben, um Ihre Frage?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Apache Tika bietet eine Allgemeine Methode zum extrahieren von konsistenten text-und Metadaten aus einer Vielzahl von Formaten. Es bietet auch content detection, Erkennung der Sprache und ein paar andere bits. Wenn Sie schreiben Sie Ihren code für die Arbeit mit Apache Tika, dann wird sich der code in der Lage zu arbeiten mit einem große Auswahl an Formaten in der gleichen Weise. Sie brauchen nicht zu kümmern, ob ein format hat einen Titel, oder eine andere ruft die gleiche logische Sache ein LongTitle oder ein Thema. Sie brauchen nicht zu sorgen, was die Bibliothek zu benutzen für das, was formatieren. Rufen Sie Tika, es übernimmt die harte Arbeit für Sie, und zurück kommt Ihr konsistentes Metadaten und Textinhalte
Apache POI ist eine der Bibliotheken, die Tika verwendet. POI unterstützt die meisten Microsoft Office-Formate, einschließlich Excel (.xls-und .xlsx). Es bietet Zugriff auf die ganze Datei-format, ermöglicht Ihnen die vollständige Kontrolle darüber, welche Informationen Sie Auslesen. (Es unterstützt auch schreiben). Tika verwendet POI zu text und Metadaten aus den verschiedenen Formaten von Microsoft, aber nicht entpacken alles. Mit POI direkt würde Ihnen erlauben, zu entscheiden, was Sie über Pflege bekommen.
Wenn Sie möchten, unterstützt viele Datei-Formate, verwenden Sie Tika. Wenn Sie wollen die volle Kontrolle darüber, wie Sie die Informationen erhalten, die sich, verwenden Sie POI.
Apache POI ausgewachsenen parser/writer für die meisten Microsoft-Dokumente. Es unterstützt sowohl die neu eingeführte 2007 (XSSF) - format und Microsoft 2003-Datei-Formate (HSSF). Apache POI bietet zwei level-API zum Parsen und generieren von Microsoft-Dateien. Eine, höhere level-API, die bit-Speicher-intensiv liest die ganze Datei und speichert Sie in den Speicher etwas ähnliches wie DOM Parsen in XML und unteren level-API für Speicher-intensive Anwendung, die ähnlich wie SAX/StAX-parsing.
Andererseits Apache Tika ist die content-Analyse-tool, das ich denke, nur unterstützt von Microsoft Excel und viele andere Extraktions-Komponenten. Es gibt keine Unterstützung für das schreiben von neuen Dateien oder die Erstellung von Inhalten von Tika, die sowieso nicht die Ihre Nutzung Fall.
So, Sie haben die Wahl je nach Ihrem Bedarf.