scikit-learn, wie zu wissen, Dokumente im cluster?

Ich bin neu sowohl python und scikit-learn, also bitte Geduld mit mir.

Nahm ich den source code für die k-means-clustering-Algorithmus von k-means-clustering.

Habe ich dann geändert, um auf meinem lokalen mittels load_file Funktion.

Obwohl der Algorithmus beendet, aber es erzeugt keine Ausgabe, wie die Dokumente gruppiert werden, zusammen.

Fand ich, dass die km Objekt "km.label" array der Listen der Schwerpunkt-id des jeweiligen Dokuments.

Es hat auch die centroid-Vektor mit "km.cluster_centers_"

Aber was für ein Dokument ist es ? Ich habe um die Karte zu "dataset", die einen "Haufen" - Objekt.

Wenn ich drucken dataset.Daten[0], bekomme ich die Daten der ersten Datei, die ich denke, sind gemischt. aber ich will nur den Namen wissen.

Ich bin verwirrt Fragen, wie wird das Dokument im dataset.Daten[0] ist clusterd zu centoid bei km.label[0] ?

Mein grundlegendes problem ist, herauszufinden, welche Dateien gebündelt sind.
Wie finden Sie das ?

Stellen Sie sicher, zu überprüfen, ob die Ergebnisse sinnvoll sind. K-means wird oft zurück, Ergebnisse, mathematische optimas, aber überhaupt nicht hilfreich für das eigentliche problem bei der hand!

InformationsquelleAutor Ashish Negi | 2013-07-22

12

Vergessen die Bunch Objekt. Es ist nur ein Implementierungsdetail laden das toy datasets, die gebündelt mit scikit-learn.

Im echten Leben, mit echten Daten müssen Sie nur direkt anrufen:
```
km = KMeans(n_clusters).fit(my_document_features)
```
dann sammeln cluster-Zuordnungen aus:
```
km.labels_
```
my_document_features ist ein 2D-datastructure: entweder ein numpy-array oder ein scipy.sparse matrix mit der Form (n_documents, n_features).

km.labels_ ist ein 1D-numpy-array mit Form (n_documents,). Daher ist das erste element in labels_ ist der index des Clusters der das beschriebene Dokument in der ersten Zeile der my_document_features feature-matrix.

In der Regel würden Sie bauen my_document_features mit einem TfidfVectorizer Objekt:
```
my_document_features = TfidfVectorizer().fit_transform(my_text_documents)
```
sowie my_text_documents würde entweder eine Liste von python unicode Objekte, wenn Sie Lesen Sie die Dokumente direkt (z.B. aus einer Datenbank oder Zeilen aus einer einzelnen CSV-Datei oder was auch immer Sie wollen) oder alternativ:
```
vec = TfidfVectorizer(input='filename')
my_document_features = vec.fit_transform(my_text_files)
```
wo my_text_files ist eine python-Liste für den Pfad zu Ihrem Dokument-Dateien auf Ihrer Festplatte (vorausgesetzt, Sie sind verschlüsselt, wobei die UTF-8-Codierung).

Die Länge der my_text_files oder my_text_documents Listen sollten n_documents daher das mapping mit km.labels_ ist direkt.

Als scikit-learn ist nicht nur für clustering oder Kategorisierung der Dokumente verwenden wir den Namen "Beispiel" anstelle von "Dokument". Auf diese Weise werden Sie sehen, das wir verwenden n_samples statt n_documents dokumentieren Sie die erwarteten Formen der Argumente, die Eigenschaften der Schätzer in der Bibliothek.
- Danke ogrisel. In der Beispiel-code dataset.Daten Ihrer "my_text_files". Also, wie finde ich heraus, welche Datei ist bei 0 index ? Wenn Sie nicht speichern, wie kann ich den Datei-Namen, während der Verwendung load_files () - Funktion ?
- Nein: dataset.data ist eine Liste von in-memory-python-unicode-string mit dem Inhalt der text-Dateien. Wenn Sie die load_files() - Dienstprogramm die filenames gespeichert sind, in die dataset.filenames Liste.
InformationsquelleAutor ogrisel

dataset.filenames ist der Schlüssel 🙂

Dies ist, wie ich es Tat.

load_files Erklärung :

def load_files(container_path, description=None, categories=None,
           load_content=True, shuffle=True, charset=None,
           charse_error='strict', random_state=0)

so tun

dataset_files = load_files("path_to_directory_containing_category_folders");

dann bekam ich das Ergebnis :

habe ich Sie in den Clustern, die ein Wörterbuch

clusters = defaultdict(list)

k = 0;
for i in km.labels_ :
  clusters[i].append(dataset_files.filenames[k])  
  k += 1

und dann Druck ich es 🙂

for clust in clusters :
  print "\n************************\n"
  for filename in clusters[clust] :
    print filename

Dies hat mir geholfen, herauszufinden, wie anzeigen, welche Beobachtungen gehörte zu jedem cluster für eine nicht-Datei dataset. Danke!

InformationsquelleAutor Ashish Negi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.