scikit-learn TfidfVectorizer Bedeutung?
Ich war Lesung über TfidfVectorizer Umsetzung von scikit-learn, i dont verstehen, was die Ausgabe der Methode, zum Beispiel:
new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball']
new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)
print tfidf_vectorizer.vocabulary_
print new_term_freq_matrix.todense()
Ausgabe:
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
Was ist?(z.B.: u 'me': 8 ):
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
ist das eine matrix oder eben ein Vektor?, ich kann nicht verstehen, was sagt mir die Ausgabe:
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
Könnte jemand mir erklären im detail diese Ausgänge?
Dank!
Du musst angemeldet sein, um einen Kommentar abzugeben.
TfidfVectorizer - Wandelt text in feature-Vektoren, die verwendet werden können, die als input für estimator.
vocabulary_
Ist ein Wörterbuch, das konvertiert jedes token (Wort) des feature-index in der matrix, die jeweils einzigartige token bekommt ein feature-index.Er sagt Ihnen, dass das token " ich " wird dargestellt als Funktion der Nummer 8 in der Ausgabe-matrix.
Jeder Satz ist ein Vektor, der die Sätze, die Sie eingegeben haben, sind matrix mit 3 Vektoren.
In jeder Vektor, der die zahlen (GEWICHTE) stellen Funktionen tf-idf-score.
Zum Beispiel:
'julie': 4 --> Sagt Ihnen, dass das in jedem Satz 'Julie' erscheint, haben Sie nicht null ist (tf-idf) Gewicht. Wie Sie sehen können, in der 2 ' ND-Vektor:
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
Die 5 ' te element gewertet 0.51785612 - die tf-idf-score für 'Julie'.
Für mehr info über Tf-Idf-scoring Lesen Sie hier: http://en.wikipedia.org/wiki/Tf%E2%80%93idf
Also tf-idf erstellt eine Reihe von seinen eigenen Wortschatz aus den gesamten Satz von Dokumenten. Was ist zu sehen in der ersten Zeile der Ausgabe. (zum besseren Verständnis habe ich sortiert)
Und wenn das Dokument wird analysiert, um seine tf-idf. Dokument:
und dessen Ausgabe,
[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
entspricht,
Da unser Dokument hat nur diese Worte: baseball, basketball, er, aus dem Vokabular erstellt. Der document-vector-Ausgang hat Werte für tf-idf für nur diese drei Worte, und in der gleichen sortierten Wortschatz position.
tf-idf verwendet wird, zum klassifizieren von Dokumenten, ranking in Suchmaschinen. tf: term Frequenz(Anzahl der Wörter präsentieren im Dokument aus seinem eigenen Wortschatz), idf: inverse document frequency(Bedeutung des Wortes zu jedem Dokument).
Die Methode bezieht sich auf die Tatsache, dass alle Wörter, die nicht gewichtet werden, ebenso mit den gewichten angeben, die Worte, die die meisten einzigartig, um das Dokument, und am besten zu charakterisieren.