Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Scikit-Learn der Pipeline: Eine sparse-matrix übergeben wurde, aber dichten Daten erforderlich ist

Anzahl der Antworten 5 Antworten
Mir fällt es schwer zu verstehen, wie zu beheben eine Pipeline, die ich erstellt (gelesen: groß eingefügt von einem tutorial). Es ist python 3.4.2: df = pd.DataFrame df = DataFrame.from_records(train) test = [blah1, blah2, blah3] pipeline =

Wie kann ich wissen, die Wahrscheinlichkeit der Klasse vorhergesagt durch das predict () - Funktion im Support-Vector-Machine?

Anzahl der Antworten 4 Antworten
Wie kann ich wissen, sample die Wahrscheinlichkeit, dass es gehört zu einer Klasse vorhergesagt durch das predict () - Funktion von Scikit-Learn im Support-Vector-Machine? >>>print clf.predict([fv]) [5] Gibt es irgendeine Funktion? InformationsquelleAutor der Frage postgres | 2013-02-22

Sci-kit und Regression Zusammenfassung

Anzahl der Antworten 2 Antworten
Als R Benutzer, ich haben wollte, auch bekommen Sie bis zu Geschwindigkeit auf scikit. Begann mit Linear -, Ridge-und Lasso. Ich habe gegangen durch die Beispiele. Unten ist für die basic-OLS. Einrichten das Modell(s) ist wohl auch

Sklearn so Speichern Sie ein Modell Erstellt, Aus einer Pipeline und GridSearchCV Mit Joblib oder Gurke?

Anzahl der Antworten 1 Antworten
Nach der Ermittlung der optimalen Parameter mit einem pipeline und GridSearchCVwie kann ich pickle/joblib diesem Prozess die spätere Wiederverwendung? Ich sehe, wie Sie dies tun, wenn es einen einzelnen Klassifikator... from sklearn.externals import joblib joblib.dump(clf, 'filename.pkl') Aber

Erhalten Sie eigen-Werte und-Vektoren von sklearn PCA

Anzahl der Antworten 1 Antworten
Wie kann ich die eigen Werte und eigen Vektoren der PCA-Anwendung? from sklearn.decomposition import PCA clf=PCA(0.98,whiten=True) #converse 98% variance X_train=clf.fit_transform(X_train) X_test=clf.transform(X_test) Ich kann es nicht finden in docs. 1.Ich bin "nicht" in der Lage zu verstehen, die

Regression mit Datums-Variablen, die mit Scikit-learn

Anzahl der Antworten 3 Antworten
Habe ich ein Pandas DataFrame mit einem date Spalte (zB: 2013-04-01) dtype datetime.date. Wenn ich die Spalte in X_train und versuchen Sie, sich das Regressionsmodell, bekomme ich die Fehlermeldung float() argument must be a string or a

Was ist der Unterschied zwischen predict_proba und decision_function in scikit-learn?

Anzahl der Antworten 2 Antworten
Ich studiere einen scikit-learn Beispiel (Classifier-Vergleich) und verwirrt mit predict_proba und decision_function. Sie eine Darstellung der klassifikationsergebnisse durch die Zeichnung der Konturen mit entweder Z = clf.decision_function() oder Z = clf.predict_proba(). Was ist der Unterschied zwischen diesen

Deprecation Warnung in scikit-learn svmlight-format loader

Anzahl der Antworten 2 Antworten
Ich bin immer eine neue deprecation Warnung in einem IPython notebook, die ich schrieb, habe ich nicht gesehen. Was ich sehe, ist folgende: X,y = load_svmlight_file('./GasSensorArray/batch2.dat') /Users/cpd/.virtualenvs/py27-ipython+pandas/lib/python2.7/site-packages/sklearn/datasets/svmlight_format.py:137: DeprecationWarning: using a non-integer number instead of an integer will

LogisticRegression: Unbekannt label type: 'continuous' mit sklearn in python

Anzahl der Antworten 2 Antworten
Habe ich folgenden code zum testen einige der beliebtesten ML-algorithmen sklearn python-Bibliothek: import numpy as np from sklearn import metrics, svm from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier

AdaBoostClassifier mit verschiedenen Basis-Lerner

Anzahl der Antworten 3 Antworten
Ich versuche, mit AdaBoostClassifier mit einem base-learner andere als DecisionTree. Ich habe versucht, SVM und KNeighborsClassifier aber ich bekomme Fehler. Kann jemand Punkt aus den Klassifikatoren, die verwendet werden können mit AdaBoostClassifier? InformationsquelleAutor der Frage vdesai |

Vektorisieren ein Pandas dataframe für Scikit-Learn

Anzahl der Antworten 4 Antworten
Sagen, ich habe einen dataframe in Pandas wie folgt: > my_dataframe col1 col2 A foo B bar C something A foo A bar B foo wo die Zeilen stellen Instanzen und Spalten-Eingabe-Funktionen (zeigt nicht das Ziel-label, aber

Numpy hstack - "ValueError: alle Eingabe-arrays müssen dieselbe Anzahl von Dimensionen" - aber Sie tun es

Anzahl der Antworten 3 Antworten
Ich versuche zu join zwei numpy-arrays. In einem habe ich eine Reihe von Spalten/Funktionen nach dem ausführen von TF-IDF auf eine einzelne Spalte der text. In der anderen habe ich eine Spalte/Funktion, die eine Ganzzahl ist. So

Python-Liste von Ngrams mit Frequenzen

Anzahl der Antworten 3 Antworten
Ich brauche, um die beliebtesten ngrams von text. Ngrams Länge muss zwischen 1 bis 5 Worte. Weiß ich, wie man bigrame und Trigramme. Zum Beispiel: bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) finder.apply_freq_filter(3) finder.apply_word_filter(filter_stops) matches1 = finder.nbest(bigram_measures.pmi, 20)

TfidfVectorizer in scikit-learn : ValueError: np.nan ist ein ungültiges Dokument

Anzahl der Antworten 1 Antworten
Ich bin mit TfidfVectorizer von scikit-learn, um einige der feature-Extraktion von text-Daten. Ich habe eine CSV-Datei mit einem Score (+1 oder -1) und eine Rezension (text). Zog ich diese Daten in einem DataFrame so kann ich den

Wie interpretieren scikit - learn-confusion-matrix und die Klassifizierung Bericht?

Anzahl der Antworten 3 Antworten
Habe ich eine sentiment-Analyse-Aufgabe, für diese Im mit dieser corpus die Meinung haben 5 Klassen (very negnegneuposvery pos), von 1 bis 5. Also ich mache die Klassifizierung wie folgt: from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np

Python: UnicodeDecodeError: 'utf8' codec kann nicht decodieren byte

Anzahl der Antworten 3 Antworten
Bin ich beim Lesen eine Reihe von RTF-Dateien in python-Zeichenketten. Auf EINIGE Texte, die ich bekomme diese Fehlermeldung: Traceback (most recent call last): File "11.08.py", line 47, in <module> X = vectorizer.fit_transform(texts) File "C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py", line 716, in

Sollte ich " zufällig.Samen` oder `numpy.random.seed` zur Kontrolle random number generation in `scikit-learn"?

Anzahl der Antworten 1 Antworten
Ich bin mit scikit-learn und numpy und ich möchte, um die Globale Saatgut so, dass meine Arbeit reproduzierbar ist. Sollte ich numpy.random.seed oder random.seed? Edit: Aus dem link in die Kommentare, ich verstehe, dass Sie anders sind,

OLS-Regression: Scikit vs. Statsmodels?

Anzahl der Antworten 2 Antworten
Kurze version: ich war mit der scikit LinearRegression über einige Daten, aber ich bin verwendet, um p-Werte, so legen die Daten in die statsmodels OLS, und zwar R^2 ist etwa die gleiche variable Koeffizienten sind alle Verschieden

Scikit-learn train_test_split mit Indizes

Anzahl der Antworten 3 Antworten
Wie bekomme ich die original-Indizes der Daten bei der Nutzung train_test_split()? Was ich habe, ist die folgende from sklearn.cross_validation import train_test_split import numpy as np data = np.reshape(np.randn(20),(10,2)) # 10 training examples labels = np.random.randint(2, size=10) #

DBSCAN in scikit-learn Python: speichern Sie die cluster-Punkte in einem array

Anzahl der Antworten 2 Antworten
folgenden Beispiel Demo des DBSCAN clustering-Algorithmus von Scikit Lernen, ich bin versucht zu speichern in einem array die x -, y-jedes clustering-Klasse import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.datasets.samples_generator import

Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste

Anzahl der Antworten 1 Antworten
Scikit-learn ist CountVectorizer - Klasse können Sie eine Zeichenfolge übergeben 'Deutsch' auf das argument stop_words. Ich möchte einige Dinge hinzufügen, um diese vordefinierten Liste. Kann mir jemand sagen, wie dies zu tun? InformationsquelleAutor der Frage panterasBox |

pip: abrufen von Aktualisierungen von remote git-repository

Anzahl der Antworten 3 Antworten
Ich installiert scikit-learn von GitHub vor ein paar Wochen: pip install git+git://github.com/scikit-learn/scikit-learn@master Ging ich auf GitHub und es wurden mehrere änderungen an der master-branch seitdem. Wie kann ich ein update für meine lokale installation von scikit-learn? Versuchte

wie erklären Sie den Entscheidungsbaum von scikit-learn

Anzahl der Antworten 3 Antworten
Ich habe zwei Probleme mit Verständnis das Ergebnis des Entscheidungsbaum von scikit-learn. Dies ist zum Beispiel einer meiner Entscheidung Bäume: Meine Frage ist, wie kann ich mit dem Baum? Die erste Frage ist die: wenn eine Probe

Recursive feature elimination auf Random Forest mit scikit-learn

Anzahl der Antworten 4 Antworten
Ich versuche, preform-rekursive Funktion elimination mit scikit-learn und ein random forest Klassifikator, mit OOB-ROC-wie ein Tor erzielt wird jede Teilmenge angelegt, die während der rekursiven Prozess. Jedoch, wenn ich versuche, die RFECV Methode, bekomme ich eine Fehlermeldung

Python-RandomForest - Unbekannt label Fehler

Anzahl der Antworten 3 Antworten
Habe ich Probleme mit RandomForest fit-Funktion Dies ist mein Trainings-set P1 Tp1 IrrPOA Gz Drz2 0 0.0 7.7 0.0 -1.4 -0.3 1 0.0 7.7 0.0 -1.4 -0.3 2 ... ... ... ... ... 3 49.4 7.5 0.0

Was ist der Unterschied zwischen SVC und SVM in scikit-learn?

Anzahl der Antworten 1 Antworten
Aus der Dokumentation scikit-learn implementiert SVC, NuSVC und LinearSVC die Klassen in der Lage die Durchführung multi-class-Klassifizierung, die auf ein dataset. Von der anderen Seite habe ich auch schon gelesen, dass scikit lernen, verwendet auch libsvm für

Am schnellsten SVM-Implementierung in Python nutzbar

Anzahl der Antworten 9 Antworten
Baue ich einige prädiktive Modelle in Python und habe mit scikits lernen die SVM-Implementierung. Es war wirklich toll, einfach zu bedienen, und relativ schnell. Leider bin ich allmählich eingeschränkt durch meine Laufzeit. Ich betreibe ein rbf SVM

Die Kombination von text, STEMMEN und entfernen von Satzzeichen in NLTK und scikit-learn

Anzahl der Antworten 1 Antworten
Bin ich mit einer Kombination von NLTK und scikit-learn's CountVectorizer für Wortstamm Wörter und tokenisierung. Unten ist ein Beispiel der einfachen Nutzung der CountVectorizer: from sklearn.feature_extraction.text import CountVectorizer vocab = ['The swimmer likes swimming so he swims.']

Wie finden Sie die Bedeutung der Funktionen für eine Logistische regression Modell?

Anzahl der Antworten 1 Antworten
Habe ich eine binäre Vorhersage-Modell ausgebildet, die von logistic regression-Algorithmus. Ich möchte wissen, welche Merkmale(Prädiktoren) sind wichtiger für die Entscheidung positive oder negative Klasse. Ich weiß, es ist coef_ parameter kommt aus der scikit-learn Paket, aber ich

Erste Modell-Attribute von scikit-learn-pipeline

Anzahl der Antworten 1 Antworten
Ich in der Regel erhalten Sie PCA Belastungen wie diese: pca = PCA(n_components=2) X_t = pca.fit(X).transform(X) loadings = pca.components_ Wenn ich PCA mit einem scikit-learn pipline ... from sklearn.pipeline import Pipeline pipeline = Pipeline(steps=[ ('scaling',StandardScaler()), ('pca',PCA(n_components=2)) ])

Parameter "Schichten" von der Methode "train_test_split" (scikit Lernen)

Anzahl der Antworten 5 Antworten
Ich versuche, mit train_test_split von scikit-Paket Lernen, aber ich habe Probleme mit der parameter -stratify. Nachfolgend ist der code: from sklearn import cross_validation, datasets X = iris.data[:,:2] y = iris.target cross_validation.train_test_split(X,y,stratify=y) Aber, ich erhalte die folgende problem:

graph.write_pdf(“iris.pdf") AttributeError: 'list' - Objekt hat kein Attribut 'write_pdf'

Anzahl der Antworten 8 Antworten
Mein code ist, Folgen Sie der Klasse des maschinellen Lernens von google.Die beiden Codes gleich sind.Ich weiß nicht, warum es den Fehler anzeigen.Kann der Typ der variable error.Aber google ' s code ist mir gleich.Wer hat schon

Klassifikatoren in scikit-learn, Griff nan/null

Anzahl der Antworten 1 Antworten
Ich Frage mich, ob es gibt Klassifizierer, Griff nan/null-Werte in scikit-learn. Ich dachte, random forest regressor dies handhabt, aber ich bekam eine Fehlermeldung, wenn ich rufe predict. X_train = np.array([[1, np.nan, 3],[np.nan, 5, 6]]) y_train = np.array([1,

scikit-learn-Kreuzvalidierung, negative Werte mit dem mittleren quadrierten Fehler

Anzahl der Antworten 1 Antworten
Wenn ich den folgenden code mit Data-matrix - X Größe (952,144) und output Vektor y Größe (952), mean_squared_error Metrik gibt negative Werte, was ist unerwartet. Haben Sie eine Idee? from sklearn.svm import SVR from sklearn import cross_validation

Wie die k-fold cross validation in scikit mit naive bayes-Klassifikator und NLTK

Anzahl der Antworten 5 Antworten
Ich habe ein kleines corpus und ich möchte, um die Richtigkeit der Berechnung der naive Bayes-Klassifikator mit 10-fold cross validation, wie Sie es tun können. InformationsquelleAutor der Frage user2284345 | 2013-05-04

Kann ich CountVectorizer in scikit-learn to count Häufigkeit von Dokumenten, die nicht verwendet wurden, zum extrahieren der tokens?

Anzahl der Antworten 3 Antworten
Habe ich die Arbeit mit den CountVectorizer Klasse in scikit-learn. Ich verstehe, dass, wenn Sie in der Weise angezeigt, unten die endgültige Ausgabe aus einem array, Grafen von Funktionen, oder Token. Diese Token extrahiert aus einer Reihe

Clustern von Textdokumenten mit scikit-learn kmeans in Python

Anzahl der Antworten 2 Antworten
Muss ich implementieren scikit-learn ist kMeans für das clustering von Textdokumenten. Die Beispielcode funktioniert gut, wie es ist, aber dauert einige 20newsgroups-Daten als Eingabe. Ich möchte den gleichen code für das clustering eine Liste von Dokumenten, wie

Wie berechnet man Präzision, Abruf, Genauigkeit und f1-Score für den Multiclass-Fall mit scikit learn?

Anzahl der Antworten 4 Antworten
Arbeite ich in einer sentiment-Analyse problem der Daten sieht wie folgt aus: label instances 5 1190 4 838 3 239 1 204 2 127 Also meine Daten unausgeglichen ist seit 1190 instances sind beschriftet mit 5. Für

Python scikit lernen MLPClassifier "hidden_layer_sizes"

Anzahl der Antworten 2 Antworten
Ich bin verloren in der scikit lernen 0.18 Benutzerhandbuch (http://scikit-learn.org/dev/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier): hidden_layer_sizes : tuple, length = n_layers - 2, default (100,) The ith element represents the number of neurons in the ith hidden layer. Wenn ich Suche, nur

Wie scikit-learn PCA zur Reduzierung der Funktionen verwendet wird und welche Funktionen verworfen werden

Anzahl der Antworten 3 Antworten
Ich versuche zu laufen, eine Zone die PCA auf eine matrix der Dimensionen m x n, wobei m die Anzahl der features und n die Anzahl der samples. Angenommen, ich möchte die Erhaltung der nf Funktionen mit

Warum verbessert eine Hot-Encoding die Leistung beim maschinellen Lernen?

Anzahl der Antworten 2 Antworten
Habe ich bemerkt, dass, wenn Ein Hot-Codierung verwendet wird, auf einen bestimmten Datensatz (einer matrix), und als Trainingsdaten für das lernen von algorithmen, es gibt deutlich bessere Ergebnisse hinsichtlich der Vorhersage-Genauigkeit im Vergleich zu der ursprünglichen matrix

Pandas Dataframe Spalten Skalierung mit Sklearn

Anzahl der Antworten 4 Antworten
Habe ich ein pandas dataframe mit gemischten Spalten, und ich möchte gelten sklearn ist min_max_scaler, um einige der Spalten. Im Idealfall würde ich gerne tun, diese Transformationen im Ort, aber habe noch nicht herausgefunden, wie man das

Wie extrahiert man die Entscheidungsregeln aus dem Entscheidungsbaum von scikit-learn?

Anzahl der Antworten 12 Antworten
Kann ich Extrakt der zugrunde liegenden Entscheidung-Regeln (oder 'Entscheidungswege') von einem geschulten Baum in einem Entscheidungsbaum, wie eine textuelle Liste? Etwas wie: if A>0.4 then if B<0.2 then if C>0.8 then class='X' Vielen Dank für Ihre Hilfe.

Scikit-lernen: So erhalten Sie True Positive, True Negative, False Positive und False Negative

Anzahl der Antworten 10 Antworten
Ich bin neu in maschinelles lernen und in scikit-learn. Mein problem: (Bitte, korrigieren Sie jede Art von missconception) Ich habe ein dataset, das eine GROßE JSON, ich es abrufen und speichern Sie es in einem trainList variable.

Sklearn-Fehler ValueError: Der Input enthält NaN, unendlich oder einen zu großen Wert für dtype ('float64')

Anzahl der Antworten 10 Antworten
Ich bin mit sklearn und habe ein problem mit dem affinity propagation. Ich habe gebaut ein input-matrix und ich bekomme immer folgende Fehlermeldung. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Habe ich

Zählen Sie effizient Worthäufigkeiten in Python

Anzahl der Antworten 6 Antworten
Ich würde gerne zählen, Frequenzen aller Wörter in einer text-Datei. >>> countInFile('test.txt') zurückkehren sollte {'aaa':1, 'bbb': 2, 'ccc':1} wenn der Ziel-text-Datei ist wie: # test.txt aaa bbb ccc bbb Ich habe es umgesetzt mit reinem python folgende

Sklearn SGDC-Klassifizierer teilweise fit

Anzahl der Antworten 1 Antworten
Ich versuche, SGD zu klassifizieren, die einen großen Datenbestand. Da die Daten zu groß, um fit in den Speicher, ich möchte die partial_fit Methode zum trainieren der Klassifizierer. Ich habe eine Stichprobe des Datensatzes (über 100.000 Zeilen),

Geschichteter Zug / Test-Split in scikit-learn

Anzahl der Antworten 5 Antworten
Muss ich spaltete meine Daten in eine Trainings-set (75%) und test-set (25%). Momentan mache ich das mit dem folgenden code: X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) Allerdings würde ich gerne unterteilen, mein Trainings-dataset. Wie mache ich

Vorverarbeitung in scikit learn - Einzelprobe - Abschreibungswarnung

Anzahl der Antworten 5 Antworten
Auf eine frische installation von Anaconda unter Ubuntu... ich bin Vorverarbeitung meine Daten auf verschiedene Weise vor, dass eine Klassifizierung der Aufgabe mit Scikit-Learn. from sklearn import preprocessing scaler = preprocessing.MinMaxScaler().fit(train) train = scaler.transform(train) test = scaler.transform(test)

SVM in Python schneller ausführen

Anzahl der Antworten 4 Antworten
Mithilfe der code unten für svm in python: from sklearn import datasets from sklearn.multiclass import OneVsRestClassifier from sklearn.svm import SVC iris = datasets.load_iris() X, y = iris.data, iris.target clf = OneVsRestClassifier(SVC(kernel='linear', probability=True, class_weight='auto')) clf.fit(X, y) proba =