Erste MIME-Typ Subtyp mit Apache tika

Ich brauchen würde, um die iana.org MediaType eher als application/zip oder application/x-tika-msoffice für Dokumente wie, odt, ppt, pptx, xlsx etc.

Wenn man sich mimetypes.xml es gibt mimeType Elemente aus der iana.org mime-Typ und "sub-Klasse von"

   <mime-type type="application/msword">
    <alias type="application/vnd.ms-word"/>
    ............................
    <glob pattern="*.doc"/>
    <glob pattern="*.dot"/>
    <sub-class-of type="application/x-tika-msoffice"/>
  </mime-type>

Wie man die iana.org mime-Typ-name anstelle der Eltern geben Namen ?

Beim testen mime-Typ-Erkennung, weiß ich :

MediaType mediaType = MediaType.parse(tika.detect(inputStream));
String mimeType = mediaType.getSubtype();

Test-Ergebnisse :

FAILED: getsCorrectContentType("application/vnd.ms-excel", docs/xls/en.xls)
java.lang.AssertionError: expected:<application/vnd.ms-excel> but was:<x-tika-msoffice>

FAILED: getsCorrectContentType("vnd.openxmlformats-officedocument.spreadsheetml.sheet", docs/xlsx/en.xlsx)
java.lang.AssertionError: expected:<vnd.openxmlformats-officedocument.spreadsheetml.sheet> but was:<zip>

FAILED: getsCorrectContentType("application/msword", doc/en.doc)
java.lang.AssertionError: expected:<application/msword> but was:<x-tika-msoffice>

FAILED: getsCorrectContentType("application/vnd.openxmlformats-officedocument.wordprocessingml.document", docs/docx/en.docx)
java.lang.AssertionError: expected:<application/vnd.openxmlformats-officedocument.wordprocessingml.document> but was:<zip>

FAILED: getsCorrectContentType("vnd.ms-powerpoint", docs/ppt/en.ppt)
java.lang.AssertionError: expected:<vnd.ms-powerpoint> but was:<x-tika-msoffice>

Gibt es eine Möglichkeit, um die konkreten Subtyp von mimetypes.xml ? Anstatt der x-tika-msoffice oder application/zip ?

Außerdem habe ich nie bekommen, application/x-tika-ooxml, aber application/zip für xlsx -, docx -, pptx-Dokumente.

InformationsquelleAutor lisak | 2011-08-21

Schreibe einen Kommentar