Fehler bei der Indizierung mit Apache Solr: mehrere Werte auftreten für non multiValued field-keywords

Ich versuche, die schnell index einer großen Sammlung von html-Dateien für eine einmalige information retrieval experiment mit Apache Lucene Solr. Ich bin mit dem Beispiel Solr-Instanz verteilt mit der neuesten Version ( solr-4.9.0/example/solr ), und in den Geist der ein quick-and-dirty Lösung, die ich bin nur, die Unterlagen mit curl:

curl http://localhost:8983/solr/update/extract?literal.id=001 -F [email protected]

Wenn ich mir die logs in der Solr panel bei der Indizierung sehe ich eine Menge von Fehlern in der form:

org.apache.solr.common.SolrException: ERROR: [doc=BLOG06-20060103-014-0011844415] multiple values encountered for non multiValued field keywords: [hair care,​ shampoo,​ hair styles,​ hair styles,​ ...]

Sieht es aus wie die Komponente dabei die keyword-Extraktion draußen ziehen mehrere Werte, wenn vielleicht es sollte nur eine Liste der Wörter, die durch Leerzeichen getrennt werden. Muss ich irgendetwas tun, um dies zu erzwingen, oder wie sieht das aus irgendeiner Art von bug?

  • Werfen Sie einen Blick in die schema.xml und ob das Feld keywords wird definiert als multiValued="true" oder nicht.
  • Ah ja, dass das problem behoben. Ich fühle mich ein wenig albern, jetzt. Ich glaube, ich war der Annahme, dass das Standard-schema für das Beispiel-installation gewesen wäre, das setup mit dem Standard-Dokument-parser-Konfiguration.
InformationsquelleAutor nedned | 2014-08-21
Schreibe einen Kommentar