sklearn : TFIDF-Transformator : Wie man tf-idf-Werte der gegebenen Wörter im Dokument
Ich verwendet, sklearn für die Berechnung der TFIDF (Term frequency inverse document frequency) - Werte für Dokumente mit Befehl :
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(documents)
from sklearn.feature_extraction.text import TfidfTransformer
tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)
X_train_tf
ist ein scipy.sparse
matrix der Form (2257, 35788)
.
Wie kann ich die TF-IDF für die Wörter in einem bestimmten Dokument? Mehr spezifisch, wie man Wörter mit maximale TF-IDF Werte in einem bestimmten Dokument?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie TfidfVectorizer von sklean
Den oben tfidf_matix hat die TF-IDF-Werte aller Dokumente im Korpus. Dies ist eine große sparse-matrix. Nun,
dies gibt Ihnen die Liste aller tokens oder n-Gramm oder Worte.
Für das erste Dokument in Ihrem corpus,
Können Sie ausdrucken,
Hier ist noch eine einfachere Lösung ist in Python 3 mit pandas-Bibliothek