unigrams & bigrame (tf-idf) weniger genau als nur unigrams (ff-idf)?

Dies ist eine Frage, über die lineare regression mit ngrams, mit Tf-IDF (term frequency - inverse document frequency). Um dies zu tun, ich bin mit numpy sparse Matrizen und sklearn für die lineare regression.

Habe ich mit 53 Fällen und über 6000 Funktionen bei der Verwendung von unigrams. Die Vorhersagen basieren auf cross-Validierung mit LeaveOneOut.

Wenn ich ein tf-idf-sparse-matrix nur unigram erzielt, bekomme ich etwas besser Vorhersagen, als wenn ich ein tf-idf-sparse-matrix der unigram+bigram erzielt. Je mehr Spalten ich hinzufügen, um die matrix (Spalten für Zeichen, quadgram, quintgrams, etc.), die weniger genau die regression Vorhersage.

Ist dieses gemeinsame? Wie ist das möglich? Ich hätte gedacht, dass die mehr Funktionen, desto besser.

  • Was ist Ihre Aufgabe (z.B. Dokument-Klassifikation) und welche/wie viele Daten haben Sie?
InformationsquelleAutor Zach | 2012-09-03
Schreibe einen Kommentar