Sklearn.KMeans() : Holen Sie sich Klasse centroid labels und Verweis auf ein dataset

Sci-Kit lernen Kmeans und PCA dimensionsreduktion

Ich habe einen Datensatz, 2M Zeilen und 7 Spalten, wobei verschiedene Messungen von zu Hause den Stromverbrauch mit einem Datum für jede Messung.

Datum,
Global_active_power,
Global_reactive_power,
Spannung,
Global_intensity,
Sub_metering_1,
Sub_metering_2,
Sub_metering_3

Ich mein dataset in ein pandas dataframe, der Auswahl aller Spalten, aber die Datum-Spalte, und führen Sie dann Kreuzvalidierung geteilt.

import pandas as pd
from sklearn.cross_validation import train_test_split

data = pd.read_csv('household_power_consumption.txt', delimiter=';')
power_consumption = data.iloc[0:, 2:9].dropna()
pc_toarray = power_consumption.values
hpc_fit, hpc_fit1 = train_test_split(pc_toarray, train_size=.01)
power_consumption.head()

Sklearn.KMeans() : Holen Sie sich Klasse centroid labels und Verweis auf ein dataset

Ich benutze K-means-Klassifikation, gefolgt von PCA dimensionsreduktion angezeigt.

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np
from sklearn.decomposition import PCA

hpc = PCA(n_components=2).fit_transform(hpc_fit)
k_means = KMeans()
k_means.fit(hpc)

x_min, x_max = hpc[:, 0].min() - 5, hpc[:, 0].max() - 1
y_min, y_max = hpc[:, 1].min(), hpc[:, 1].max() + 5
xx, yy = np.meshgrid(np.arange(x_min, x_max, .02), np.arange(y_min, y_max, .02))
Z = k_means.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.figure(1)
plt.clf()
plt.imshow(Z, interpolation='nearest',
          extent=(xx.min(), xx.max(), yy.min(), yy.max()),
          cmap=plt.cm.Paired,
          aspect='auto', origin='lower')

plt.plot(hpc[:, 0], hpc[:, 1], 'k.', markersize=4)
centroids = k_means.cluster_centers_
inert = k_means.inertia_
plt.scatter(centroids[:, 0], centroids[:, 1],
           marker='x', s=169, linewidths=3,
           color='w', zorder=8)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

Sklearn.KMeans() : Holen Sie sich Klasse centroid labels und Verweis auf ein dataset

Nun würde ich gerne herausfinden, welche Zeilen fiel unter einer gegebenen Klasse, dann die Daten fielen unter eine bestimmte Klasse.

Gibt es eine Möglichkeit, beziehen sich die Punkte auf dem Graphen zu einem index-in meinem
dataset, nach PCA?
Einige Methode, die ich nicht kenne?
Oder ist mein Ansatz grundlegend falsch?
Irgendwelche Empfehlungen?

Ich bin ziemlich neu in diesem Gebiet und versuche mich durch zu Lesen viel code, dies ist eine Zusammenstellung von mehreren Beispielen, die ich gesehen habe, dokumentiert .

Mein Ziel ist es, zu klassifizieren Sie die Daten, und dann bekommen Sie die Termine, die fallen unter eine Klasse.

Danke

InformationsquelleAutor flow | 2014-12-16

KMeans().Vorhersagen(X) ..docs hier

Vorherzusagen, die nächsten cluster-jede Probe in X gehört.

In der Vektor-Quantisierung Literatur, cluster_centers_ aufgerufen wird der code-Buch und jeder Wert, der zurückgegeben wird, indem Sie voraussagen, ist der index des nächsten code in das code-Buch.

Parameters: (New data to predict)

X : {array-like, sparse matrix}, shape = [n_samples, n_features]

Returns: (Index of the cluster each sample belongs to)  

labels : array, shape [n_samples,]

Ich das problem mit dem code, den Sie übermittelt, ist die Verwendung von

train_test_split()

gibt zwei arrays in zufälliger Zeilen an, die in Ihrem Daten-set, effektiv ruiniert Ihr dataset, um die es schwierig machen, korrelieren die Etiketten zurückgegeben, die von KMeans-Klassifizierung, um sequentielle Daten in Ihrem Datensatz.

Hier ein Beispiel:

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans

#read data into pandas dataframe
df = pd.read_csv('household_power_consumption.txt', delimiter=';')

Sklearn.KMeans() : Holen Sie sich Klasse centroid labels und Verweis auf ein dataset

#convert merge date and time colums and convert to datetime objects
df['Datetime'] = pd.to_datetime(df['Date'] + ' ' + df['Time'])
df.set_index(pd.DatetimeIndex(df['Datetime'],inplace=True))
df.drop(['Date','Time'], axis=1, inplace=True)

#put last column first
cols = df.columns.tolist()
cols = cols[-1:] + cols[:-1]
df = df[cols]
df = df.dropna()

Sklearn.KMeans() : Holen Sie sich Klasse centroid labels und Verweis auf ein dataset

#convert dataframe to data array and removes date column not to be processed, 
sliced = df.iloc[0:, 1:8].dropna()
hpc = sliced.values

k_means = KMeans()
k_means.fit(hpc)

# array of indexes corresponding to classes around centroids, in the order of your dataset
classified_data = k_means.labels_

#copy dataframe (may be memory intensive but just for illustration)
df_processed = df.copy()
df_processed['Cluster Class'] = pd.Series(classified_data, index=df_processed.index)

Sklearn.KMeans() : Holen Sie sich Klasse centroid labels und Verweis auf ein dataset

Jetzt sehen Sie Ihr Ergebnis deckte sich mit Ihrer Daten-set auf der rechten Seite.
Jetzt, dass es klassifiziert, ist es bis zu Ihnen, um sinnstiftend.
Dies ist nur ein insgesamt gutes Beispiel dafür, wie es verwendet werden kann, von Anfang bis Ende.
Anzeige das Ergebnis anschauen PCA oder andere Graphen, abhängig von der Klasse.

Ich wollte nur nicht sehen, die .Etiketten definition.. IPython notebook, verwenden Sie '?', es hilft, die ex-KMeans().labels_?

InformationsquelleAutor flow

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.