unigrams & bigrame (tf-idf) weniger genau als nur unigrams (ff-idf)?

Dies ist eine Frage, über die lineare regression mit ngrams, mit Tf-IDF (term frequency - inverse document frequency). Um dies zu tun, ich bin mit numpy sparse Matrizen und sklearn für die lineare regression.

Habe ich mit 53 Fällen und über 6000 Funktionen bei der Verwendung von unigrams. Die Vorhersagen basieren auf cross-Validierung mit LeaveOneOut.

Wenn ich ein tf-idf-sparse-matrix nur unigram erzielt, bekomme ich etwas besser Vorhersagen, als wenn ich ein tf-idf-sparse-matrix der unigram+bigram erzielt. Je mehr Spalten ich hinzufügen, um die matrix (Spalten für Zeichen, quadgram, quintgrams, etc.), die weniger genau die regression Vorhersage.

Ist dieses gemeinsame? Wie ist das möglich? Ich hätte gedacht, dass die mehr Funktionen, desto besser.

Was ist Ihre Aufgabe (z.B. Dokument-Klassifikation) und welche/wie viele Daten haben Sie?

InformationsquelleAutor Zach | 2012-09-03

11

Ist es nicht üblich, für die bigrame durchführen schlimmer als unigrams, aber es gibt Situationen, in denen es geschehen kann. Insbesondere das hinzufügen von extra-Funktionen, die führen kann zu overfitting. Tf-idf ist unwahrscheinlich, zu lindern, da längere n-Gramme werden seltener, was zu einer höheren idf-Werte.

Ich bin mir nicht sicher, was für eine Art von variable, die Sie versuchen, vorherzusagen, und ich habe noch nie getan regression auf text, aber ist hier einige vergleichbare Ergebnisse aus der Literatur, um Sie zum nachdenken:
- In zufälliger text-Generierung mit kleinen (aber nicht triviale) training-sets, 7-Gramm neigen zu rekonstruieren, die Eingabe von text fast wortwörtlich, d.h. zu einem vollständigen overfit, während Trigramme sind mehr wahrscheinlich zu generieren "neue" aber noch etwas Grammatik/text erkennbar (siehe Jurafsky & Martin; kann mich nicht erinnern, in welchem Kapitel und ich habe nicht mein Exemplar praktisch).
- In der Klassifizierung Stil der NLP-Aufgaben, die mit kernel Maschinen, quadratische Kerne neigen dazu, besser ergehen, als kubische, weil letztere oft overfit auf dem Trainings-set. Beachten Sie, dass unigram+bigram-Funktionen gedacht werden kann als eine Teilmenge der quadratischen kernel-Funktion Raum, und {1,2,3}-Gramm, dass die kubische kernel.
Genau, was passiert, hängt von Ihrer Ausbildung gesetzt; es könnte einfach zu klein sein.
- Meine Ergebnisse werden von Leave One Out cross validation. Ich habe 53 Proben und jede Probe, die genommen wird aus dem training set, bevor es trainiert wird. Nicht diese, in sich selbst zu verhindern, über die Montage?
- Nein, eine cross-Validierung ist nur eine Mindestanforderung für jede Art von evaluation, wenn es keine separate Validierungs-oder test-set. 53 Proben ist ein sehr kleine Trainings-set. Auch, ich sah nur Ihre Nachrichten auf der scikit-learn mailing-Liste, und ich lese, dass du tust sentiment-Analyse. In diesem Fall, drop tf-idf und verwenden Sie raw-Frequenzen, sublinear tf-oder boolean-Ausdruck vorkommen. idf unterschätzt die Bedeutung von sentiment-Wörter, denn es ist entworfen, um zu finden thematische ähnlichkeit gekennzeichnet durch die seltenere Wörter im text.
- 53 Proben, ist sehr wenig für die text-Klassifizierung. Anstatt zu versuchen zu zwicken die feature-Extraktion und Lern-Algorithmus, sollten Sie besser investieren Zeit bei der Kennzeichnung mehr Daten (semi-automatisch, vielleicht mit Hilfe von externen Datenquellen).
- wie viele Texte würden Sie sagen, wäre genug?
- kommentieren von mindestens 100 * n_classes (z.B. 200 für binäre Klassifikation). Dann compute cross validation score auf 50%, 60%, 70%, 80%, 90% und 100% Ihrer Daten und halten die test-Fehler-Kurve: sollten Sie beachten einige Regeln nachlassender Wirkungskraft durch die Berücksichtigung der Steigung für jedes segment. Der Kompromiss zwischen Genauigkeit Verbesserungen und Anmerkungen Kosten spezifisches problem, aber diese Kurve sollte Ihnen das Instrument eine informierte Entscheidung zu treffen (also nicht komplett im Dunkeln :).
- in meinem Fall würde es mich Kosten $6000 zu kommentieren 100*n_classes, also nicht machbar für mich! Aus Neugier, wo hast du das Bild aus?
- Wie viele Klassen haben Sie in Ihrem Fall? Wenn Sie wollen, um einen Klassifizierer zu können, verallgemeinern Sie brauchen, um zu zeigen, dass es ein corpus von Dokumenten, decken Sie alle Wörter der Wortschatz der Themen statistisch verknüpft mit der a-Klasse. Sie können nicht erwarten, dass 10 Dokumente pro Klasse zu decken weitgehend alle interessanten Wortschatz von Themen in Bezug auf diese Klassen. Wenn man nicht genügend mit der Bezeichnung data und Kennzeichnung ist zu teuer, dann reines supervised machine learning ist wahrscheinlich nicht die Lösung für dein problem.
- Auf der anderen Seite, machine learning (unüberwachtes lernen, halb-betreutes lernen und aktives lernen) könnte helfen, senken Sie die Kosten der Kennzeichnung der neuen Proben. Jedoch glaube ich nicht, bereit zu verwenden, scikit-learn active learning loop.
InformationsquelleAutor Fred Foo
8

Als larsmans sagte, das hinzufügen von mehr Variablen /Funktionen macht es einfacher für das Modell overfit daher verlieren im test Genauigkeit. In den master-branch von scikit-learn gibt es jetzt eine min_df parameter cut-off-Features mit weniger als die Anzahl der vorkommen. Daher min_df==2 zu min_df==5 könnte Ihnen helfen, loszuwerden, unechte bi-Gramm.

Alternativ können Sie die L1 oder L1 + L2 bestraft lineare regression (oder Klassifikation) entweder mithilfe der folgenden Klassen:
- sklearn.linear_model.Lasso (regression)
- sklearn.linear_model.ElasticNet (regression)
- sklearn.linear_model.SGDRegressor (regression) mit Strafe == 'elastic_net' oder 'l1'
- sklearn.linear_model.SGDClassifier (Klassifikation) mit Strafe == 'elastic_net' oder 'l1'
Dieser wird es möglich machen, zu ignorieren störende Funktionen und führen zu einer sparse-Modell mit vielen null-GEWICHTE für verrauschte Funktionen. Netz Suchen die Regularisierung Parameter werden jedoch sehr wichtig.

Können Sie auch versuchen, univariate Funktion Auswahl wie erfolgt die text-Klassifizierung Beispiel von scikit-learn (überprüfen Sie die SelectKBest und chi2 utilities.
- chi2 feature-Auswahl nicht tatsächlich für die regression, obwohl. Es könnte gehackt werden, um die Arbeit mit den eingeteilten regression Ergebnisse.
- Wenn Sie sagen, min_df ist in der Master-Branch, meinst du die Entwickler-version darüber hinaus 0.11?
- Ja, der master-branch des offiziellen github-repo: github.com/scikit-learn/scikit-learn
- Hinweis: die min_df ist nun Teil der veröffentlichten Versionen von scikit-learn (0,14 und später).
InformationsquelleAutor ogrisel

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.