Erste MIME-Typ Subtyp mit Apache tika

Ich brauchen würde, um die iana.org MediaType eher als application/zip oder application/x-tika-msoffice für Dokumente wie, odt, ppt, pptx, xlsx etc.

Wenn man sich mimetypes.xml es gibt mimeType Elemente aus der iana.org mime-Typ und "sub-Klasse von"

   <mime-type type="application/msword">
    <alias type="application/vnd.ms-word"/>
    ............................
    <glob pattern="*.doc"/>
    <glob pattern="*.dot"/>
    <sub-class-of type="application/x-tika-msoffice"/>
  </mime-type>

Wie man die iana.org mime-Typ-name anstelle der Eltern geben Namen ?

Beim testen mime-Typ-Erkennung, weiß ich :

MediaType mediaType = MediaType.parse(tika.detect(inputStream));
String mimeType = mediaType.getSubtype();

Test-Ergebnisse :

FAILED: getsCorrectContentType("application/vnd.ms-excel", docs/xls/en.xls)
java.lang.AssertionError: expected:<application/vnd.ms-excel> but was:<x-tika-msoffice>

FAILED: getsCorrectContentType("vnd.openxmlformats-officedocument.spreadsheetml.sheet", docs/xlsx/en.xlsx)
java.lang.AssertionError: expected:<vnd.openxmlformats-officedocument.spreadsheetml.sheet> but was:<zip>

FAILED: getsCorrectContentType("application/msword", doc/en.doc)
java.lang.AssertionError: expected:<application/msword> but was:<x-tika-msoffice>

FAILED: getsCorrectContentType("application/vnd.openxmlformats-officedocument.wordprocessingml.document", docs/docx/en.docx)
java.lang.AssertionError: expected:<application/vnd.openxmlformats-officedocument.wordprocessingml.document> but was:<zip>

FAILED: getsCorrectContentType("vnd.ms-powerpoint", docs/ppt/en.ppt)
java.lang.AssertionError: expected:<vnd.ms-powerpoint> but was:<x-tika-msoffice>

Gibt es eine Möglichkeit, um die konkreten Subtyp von mimetypes.xml ? Anstatt der x-tika-msoffice oder application/zip ?

Außerdem habe ich nie bekommen, application/x-tika-ooxml, aber application/zip für xlsx -, docx -, pptx-Dokumente.

InformationsquelleAutor lisak | 2011-08-21

21

Ursprünglich, Tika nur unterstützt Erkennung von Mime-Magie oder durch Datei-Endung (glob), da all dies die meisten mime-Erkennung vor Tika hat.

Wegen der Probleme mit Mime-Magie und Einheiten, wenn es um die Erkennung von container-Formate, es wurde beschlossen, einige neue Detektoren, um Tika zu behandeln. Die Container Bewusst Detektoren nahm die ganze Datei geöffnet und bearbeitet container, und arbeitete dann die genauen Datei-Typ, basierend auf dem Inhalt. Zunächst ist es nötig, Sie zu nennen explizit, aber dann waren Sie eingehüllt in ContainerAwareDetector wie Sie sehen werden, in einigen der Antworten.

Seitdem Tika hat einen service loader Muster, das zunächst für den Parser. Dies erlaubt Klassen werden automatisch geladen, wenn vorhanden, mit einer Allgemeinen Art und Weise zu identifizieren, welche die richtigen seien und diese zu nutzen. Diese Unterstützung wurde dann ausgedehnt Detektoren auch an die Stelle der alten ContainerAwareDetector entfernt werden konnten, zugunsten von etwas cleaner.

Wenn Sie auf Tika 1.2 oder später, und Sie wollen eine genaue Erfassung aller Formate, einschließlich container-Formate, die Sie wollen, etwas zu tun:
```
 TikaConfig config = TikaConfig.getDefaultConfig();
 Detector detector = config.getDetector();

 TikaInputStream stream = TikaInputStream.get(fileOrStream);

 Metadata metadata = new Metadata();
 metadata.add(Metadata.RESOURCE_NAME_KEY, filenameWithExtension);
 MediaType mediaType = detector.detect(stream, metadata);
```
Wenn Sie diese nur mit der Core-Tika jar (tika-core-1.2-....), dann ist der einzige Detektor vorhanden, wird der mime-Magie ein, und Sie erhalten die alten Stil-Erkennung auf Basis magic + glob nur. Jedoch, wenn Sie dies sowohl mit der Kern-und Parser Tika Gläser (und deren Abhängigkeiten), oder von Tika-App (das enthält die Kern + Parser + Abhängigkeiten automatisch), dann die DefaultDetector nutzen alle die verschiedenen Container-Detektoren für die Bearbeitung Ihrer Datei. Wenn Sie Ihre Datei ist zip-basiert ist, dann-Erkennung zählen die Verarbeitung der zip-Struktur um die Datei zu identifizieren, basierend auf, was drin ist. Dies wird Ihnen die hohe Genauigkeit, die Sie anstreben, ohne Sie zu nennen, viele verschiedene Parser wiederum. DefaultDetector alle Detektoren verfügbar sind.

Wie erkenne ich, eine .Eigenschaften-Datei mit tika-app1.8. Seinen erkennen es als text/plain vielmehr möchte ich es als text/Eigenschaften. Wie verstelle ich diese?
Sie müssen sich Fragen, wie Sie eine neue Frage und/oder erhöhen eines enhancement request in den Tika issue-tracker
Was sind die Abhängigkeiten erforderlich, zusammen mit dem Parser-Glas? Sind Sie in einem separaten jar/s von Ihrer eigenen?

InformationsquelleAutor Gagravarr

Für jemand anderes mit einem ähnlichen problem, aber mit neueren Tika version dies sollte den trick tun:

Verwenden ZipContainerDetector da Sie keine ContainerAwareDetector mehr.
Geben TikaInputStream zu den detect() Methode des Detektors zu gewährleisten tika analysieren können, den korrekten mime-Typ.

Mein Beispiel-code sieht wie folgt aus:

public static String getMimeType(final Document p_document)
{
    try
    {
        Metadata metadata = new Metadata();
        metadata.add(Metadata.RESOURCE_NAME_KEY, p_document.getDocName());

        Detector detector = getDefaultDectector();

        LogMF.debug(log, "Trying to detect mime type with detector {0}.", detector);
        TikaInputStream inputStream = TikaInputStream.get(p_document.getData(), metadata);

        return detector.detect(inputStream, metadata).toString();
    }
    catch (Throwable t)
    {
        log.error("Error while determining mime-type of " + p_document);
    }

    return null;
}

private static Detector getDefaultDectector()
{
    if (detector == null)
    {
        List<Detector> detectors = new ArrayList<>();

        //zip compressed container types
        detectors.add(new ZipContainerDetector());
        //Microsoft stuff
        detectors.add(new POIFSContainerDetector());
        //mime magic detection as fallback
        detectors.add(MimeTypes.getDefaultMimeTypes());

        detector = new CompositeDetector(detectors);
    }

    return detector;
}

Beachten Sie, dass die Document Klasse Teil meine domain Modell. So werden Sie sicher etwas ähnliches auf die Linie.

Ich hoffe, dass jemand verwenden kann.

Sie wären viel besser dran, nur mit DefaultDetector, anstatt zu versuchen zu rufen, um einzelne Detektoren selbst
Ich konnte nicht erkennen, dass der mime-Typ von einem word 2010-Dokument mit dem Standard-Detektor. Mit meinem Ansatz kann ich. Aber ich habe es noch nicht getestet gegen andere Dokument-Typen.
DefaultDetector funktionieren sollte (es gibt eine Last von unit-tests, die zeigen, dass!). Stellen Sie sicher, dass der Parser Tika jar auf Ihrem classpath, zusammen mit den Abhängigkeiten, wenn es nicht
Ich hoffe, niemand wird code verwendet, der fängt Throwable und zurück null.

InformationsquelleAutor Sebastian Götz

2

Den Standard byte-Muster-Erkennung Regeln im tika-core kann nur erkennen das generische OLE2-oder ZIP-format ist für alle MS Office-Dokument-Typen. Sie verwenden möchten ContainerAwareDetector für diese Art von Nachweis ist, soweit ich weiß. Und verwenden MimeTypes-Detektor als seine fallback-Detektor. Versuchen Sie dies :
```
public MediaType getContentType(InputStream is, String fileName) {
    MediaType mediaType;
    Metadata md = new Metadata();
    md.set(Metadata.RESOURCE_NAME_KEY, fileName);
    Detector detector = new ContainerAwareDetector(tikaConfig.getMimeRepository());

    try {
        mediaType = detector.detect(is, md);
    } catch (IOException ioe) {
        whatever;
    }
    return mediaType;
}
```
Diese Weise sollten Ihre tests pass

ContainerAwareDetector ist veraltet und seit einiger Zeit auch in Tika, für alle, die sich bei diesem heute dich sollte stattdessen mit Tika ' s neue-ish DefaultDetector gekoppelt mit allen tika-Parser auf deinem classpath

InformationsquelleAutor lisak

Können Sie eine benutzerdefinierte tika config-Datei:

MimeTypes mimes=MimeTypesFactory.create(Thread.currentThread()
   .getContextClassLoader().getResource("tika-custom-MimeTypes.xml"));
Metadata metadata = new Metadata();
metadata.add(Metadata.RESOURCE_NAME_KEY, file.getName());
tis = TikaInputStream.get(file);
String mimetype = new  DefaultDetector(mimes).detect(tis,metadata).toString();

In das WEB-INF/classes gelegt "tika-custom-MimeTypes.xml" mit Ihren änderungen:

In meinem Fall:

<mime-type type="video/mp4">
    <magic priority="60">
      <match value="ftypmp41" type="string" offset="4"/>
      <match value="ftypmp42" type="string" offset="4"/>
      <!-- add -->
      <match value="ftyp" type="string" offset="4"/>
    </magic>
    <glob pattern="*.mp4"/>
    <glob pattern="*.mp4v"/>
    <glob pattern="*.mpg4"/>
    <!-- sub-class-of type="video/quicktime" /-->
</mime-type>
<mime-type type="video/quicktime">
    <magic priority="50">
      <match value="moov" type="string" offset="4"/>
      <match value="mdat" type="string" offset="4"/>
      <!--remove for videos of screencast -->
      <!--match value="ftyp" type="string" offset="4"/-->
    </magic>
    <glob pattern="*.qt"/>
    <glob pattern="*.mov"/>
</mime-type>

InformationsquelleAutor Glaucio

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.