Verständnis "score" zurück, die von scikit-learn KMeans

Bewarb ich mich clustering auf eine Reihe von text-Dokumente (über 100). Ich konvertiert Sie zu Tfidf Vektoren mit TfIdfVectorizer und versorgt die Vektoren als Eingabe für scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10). Wenn ich jetzt

model.fit()
print model.score()

auf meine Vektoren, bekomme ich einen sehr kleinen Wert, wenn der ganze text-Dokumente sind sehr ähnlich, und ich bekomme einen sehr großen negativen Wert, wenn die Dokumente sind sehr unterschiedlich.

Es dient meinen grundlegenden Zweck der Feststellung, welche Dokumente ähnlich sind, aber kann mir jemand helfen zu verstehen, was genau bedeutet dies model.score() Wert bedeuten, die für einen passen? Wie kann ich diesen Wert verwenden, um zu rechtfertigen, meine Erkenntnisse?

Schreibe einen Kommentar