Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Fehler beim importieren von scikit-learn-Module

Anzahl der Antworten 8 Antworten
Ich versuche, eine Funktion aufzurufen, die aus der cluster-Modul, etwa so: import sklearn db = sklearn.cluster.DBSCAN() und ich bekomme die folgende Fehlermeldung: AttributeError: 'module' object has no attribute 'cluster' Tab-Abschluss in IPython, ich scheinen, um Zugang zu

Label-Codierung über mehrere Spalten in scikit-learn

Anzahl der Antworten 18 Antworten
Ich versuche, scikit-learn ist LabelEncoder zum codieren eines pandas DataFrame string-Etiketten. Als dataframe hat viele (50+) Spalten, ich möchte vermeiden, erstellen eine LabelEncoder - Objekt für jede Spalte; ich würde lieber einen großen LabelEncoder Objekte, die auf

Funktionen in sklearn Logistische regression

Anzahl der Antworten 1 Antworten
Ich habe einige problem mit dem hinzufügen von eigenen Funktionen zu sklearn.linear_model.LogisticRegression. Aber trotzdem können Sie einige Beispiel-code: from sklearn.linear_model import LogisticRegression, LinearRegression import numpy as np #Numbers are class of tag resultsNER = np.array([1,2,3,4,5]) #Acording to

Leave-one-out-cross-Validierung

Anzahl der Antworten 1 Antworten
Ich versuche zu bewerten, eine multivariable Datensatz durch leave-one-out-cross-Validierung und entfernen Sie dann die Proben nicht predictive dem ursprünglichen dataset (Benjamini-korrigiert FDR > 10%). Mithilfe der docs auf cross-Validierung, die ich gefunden habe, der leave-one-out-iterator. Jedoch, wenn

Wie visualisieren Ausgabe-cluster, jeder cluster-einzigartige Farben

Anzahl der Antworten 1 Antworten
ich nur Anfänger in python habe ich code-Suche auf dem internet für die execute-K-means verwenden, scikit, ich habe versucht, modifiziert den code zum visualisieren plot 3d und Farbe die einzelnen cluster (3 cluster), aber das Ergebnis ist

Scikit Lernen Random forest Klassifikator: Wie entsteht ein plot der OOB-Fehler gegen die Zahl der Bäume

Anzahl der Antworten 1 Antworten
Edit 2: Es ist jetzt ein schönes Beispiel in der sklearn Dokumentation. Um zu sehen, wie viele Bäume notwendig sind, in meinem Wald, ich möchte plot der OOB Fehler als die Anzahl der Bäume im Wald ist

Python Sklearn - Deprecation-Warnung

Anzahl der Antworten 2 Antworten
Ich bin ein Anfänger in Python und Sklearn. Frage mich, ob ich mich hier etwas fehlt. Ich bin immer folgende Warnmeldung: DeprecationWarning: die Übergabe von 1d-arrays, da die Daten veraltet 0.17 und willraise ValueError im 0.19. Hier

Grundstück SVM mit Matplotlib?

Anzahl der Antworten 1 Antworten
Habe ich einige interessante Nutzer-Daten. Es gibt einige Informationen über die Zuverlässigkeit von bestimmten Aufgaben der Benutzer wurden gebeten, zu führen. Ich versuche heraus zu finden ob late - was mir sagt, dass wenn Benutzer auf Zeit

Python: ValueError: Einstellung der ein array-element mit einer Sequenz

Anzahl der Antworten 1 Antworten
Ich versuche, scikit-learn, um einige ML. Ich bin mit dem Vorverarbeitung Modul, um prep meine Daten. Die Daten sind vom Typ float. Aus dem Lesen der anderen Fragen zu diesem Problem: ValueError: Einstellung der ein array-element mit

Probleme mit der Installation und Verwendung scikit-learn in Anaconda

Anzahl der Antworten 2 Antworten
Ich installiert Anaconda auf 64bit windows und habe ich auch installiert scikit-learn mit "conda install scikit-learn". Aber ich kann nicht finden, scikit-learn, wenn ich drucken Sie alle installierten Module in python, und ich kann nicht importieren scikit-learn.

Cache-Eintrag Deserialisierung fehlgeschlagen, der Eintrag ignoriert

Anzahl der Antworten 2 Antworten
C:\Users\deypr>pip3 install sklearn Collecting sklearn Cache entry deserialization failed, entry ignored Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLError(1, '[SSL: TLSV1_ALERT_ACCESS_DENIED] tlsv1 alert access denied (_ssl.c:777)'),)': /simple/sklearn/ Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after

Sklearn: ROC für multiclass Klassifizierung

Anzahl der Antworten 1 Antworten
Mache ich verschiedene text-Klassifikation von Experimenten. Jetzt brauche ich für die Berechnung der AUC-ROC für jede Aufgabe. Für die binäre Klassifikationen habe ich schon gemacht und es funktioniert mit diesem code: scaler = StandardScaler(with_mean=False) enc = LabelEncoder()

ValueError: Unbekannt label type: 'continuous'

Anzahl der Antworten 2 Antworten
Ich gesehen habe die anderen Beiträge über dieses Gespräch, doch jeder, der diese mir helfen können. Ich bin mit jupyter notebook mit Python 3.6.0 unter windows x6 Maschine. Ich habe einen großen Datensatz, aber ich bekomme nur

Was bedeutet "passen" - Methode in scikit-learn tun?

Anzahl der Antworten 1 Antworten
Könnten Sie bitte erklären, was das "fit" - Methode in scikit-learn? Warum ist es nützlich? Ich bin neue in Machine Learning und scikit-learn. Frage ist breit, aber ich werde beißen. Viele Modelle haben, die passen Methoden in

Multi-Class-Logistischen Regression in SciKit Lernen

Anzahl der Antworten 1 Antworten
Ich habe ein Problem mit der richtige Aufruf von Scikit - Logistische Regression für die multi-class-Gehäuse. Ich bin mit dem lbgfs solver, und ich habe auch den multi_class parameter polynomial. Ist es mir unklar, wie das passieren

ImportError: cannot import name __check_bauen beim importieren TfidfVectorizer von sklearn

Anzahl der Antworten 2 Antworten
Ich bin mit 2.7.10 Python installiert haben und scikit-0.15.2 mit pip und ich habe auch schon "numpy-1.1.10" und "scipy-0.16.0" installiert und es funktioniert gut, aber wenn ich versuche zu importieren TfidfVectorizer von sklearn zu konstruieren, ein term-Dokument-matrix

Polynom-regression mit python

Anzahl der Antworten 3 Antworten
Was ich verstehen Polynom-regression ist eine bestimmte Art von Regressionsanalyse, die komplizierter als die lineare regression. Gibt es ein python-Modul, welches dies tun kann? Ich habe mir in der matplotlib ,scikitand numpy kann aber nur der finden,

sklearn: Berechnung Genauigkeit-score von k-means auf den test-Daten

Anzahl der Antworten 1 Antworten
Tue ich k-means-clustering auf den Satz von 30 Proben mit 2 Clustern (ich weiß schon, es gibt zwei Klassen). Ich Teile meine Daten in Trainings-und test-set und versuchen zu berechnen, wird die Genauigkeit Punktzahl auf meiner test-set.

Fehler beim importieren von scikit-learn

Anzahl der Antworten 3 Antworten
Ich versuche, verwenden Sie den folgenden code: from matplotlib import pyplot as plt from sklearn.datasets import load_iris import numpy as np Bekomme ich diesen Fehler: ImportError: No module named sklearn.datasets Ich versuche dann zu installieren scikit-learn, bekomme

Mit HIdden-Markov-Modell für die Vorhersage

Anzahl der Antworten 3 Antworten
Nehme an, es ist eine Sequenz von Beobachtungen,z.B. [1,2,3,5,5,5,2,3,2,3, ..., 3, 4]. Ich bin versucht, die aktuelle Implementierung von HMM in Scikit-learn, um vorherzusagen, der nächste Wert dieser Beobachtung Sequenz. Ich habe 2 Fragen in Bezug auf

Wie zu normalisieren, die ein array in NumPy?

Anzahl der Antworten 9 Antworten
Ich würde gerne die norm ein NumPy-array. Genauer gesagt, Suche ich eine entsprechende version dieser Funktion def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm Gibt es so etwas wie, dass

Python scikit lernen n_jobs

Anzahl der Antworten 1 Antworten
Dies ist nicht ein echtes Problem, aber ich würde gerne verstehen: läuft sklearn von Anaconda distrib auf einem Win7 die 4 Kerne 8 GB system Einbau eines KMeans-Modell auf einem 200.000 Proben*200 Werte-Tabelle. läuft mit n-jobs =

Pruning Von Entscheidungsbäumen

Anzahl der Antworten 4 Antworten
Hallo Jungs unten ist ein Ausschnitt aus dem Entscheidungsbaum wie es ist ziemlich riesig. Machen, wie der Baum aufhören zu wachsen, wenn die niedrigste Wert in einem Knoten unter 5. Hier ist der code zum erzeugen des

Mit scikit-learn (sklearn), wie man mit fehlenden Daten für die lineare regression?

Anzahl der Antworten 2 Antworten
Habe ich versucht, dieses konnte aber nicht erhalten, es funktioniert für meine Daten: Verwenden Scikit Lernen lineare regression auf eine Zeit-Serie pandas data frame Meine Daten besteht aus 2 DataFrames. DataFrame_1.shape = (40,5000) und DataFrame_2.shape = (40,74).

ValueError: Unbekannt label Typ in scikit-learn

Anzahl der Antworten 1 Antworten
Ich versuche zu generieren, meta-Funktionen, so dass ich tutorials und die folgenden schreiben: clf = tree.DecisionTreeClassifier() clf.fit(X, y) Aber es wirft ValueError. File "/usr/local/lib/python2.7/dist-packages/sklearn/tree/tree.py", line 739, in fit X_idx_sorted=X_idx_sorted) File "/usr/local/lib/python2.7/dist-packages/sklearn/tree/tree.py", line 146, in fit check_classification_targets(y) File

Singleton array array(< - Funktion-Zug in 0x7f3a311320d0>, dtype=Objekt) nicht als ein gültiges Sammlung

Anzahl der Antworten 4 Antworten
Nicht sicher, wie Sie Sie zu beheben . Jede Hilfe dankbar. Ich sah thi Vektorisierung: Keine gültige Sammlung aber nicht sicher, ob ich verstanden, dass diese train = df1.iloc[:,[4,6]] target =df1.iloc[:,[0]] def train(classifier, X, y): X_train, X_test,

Wie zu erkennen, Cluster-labels in kmeans scikit lernen

Anzahl der Antworten 1 Antworten
Lerne ich python scikit. Das Beispiel hier zeigt die top vorkommende Wörter in den einzelnen Cluster-und nicht-Cluster-name. http://scikit-learn.org/stable/auto_examples/document_clustering.html Fand ich, dass die km Objekt "km.label" die Listen der Schwerpunkt-id, die ist die Nummer. Ich habe zwei Frage

Bewertung der Logistischen regression mit cross-Validierung

Anzahl der Antworten 1 Antworten
Möchte ich verwenden, cross-Validierung, test - /Zug meinen Daten und bewerten Sie die Leistung der logistischen regression über den gesamten Datensatz und nicht nur auf dem test-set (z.B. 25%). Diese Begriffe sind mir völlig neu und bin

Die Bestimmung, die bestimmte Funktionen für die SVM-Klassifizierer in sklearn

Anzahl der Antworten 3 Antworten
Ich habe einen Datensatz und möchte ich Zug mein Modell auf die Daten. Nach dem training brauche ich, um zu wissen, die features, sind die wichtigsten Geber in der Klassifizierung für einen SVM-Klassifizierer. Gibt es etwas, genannt-Funktion

Mean Squared error in Python

Anzahl der Antworten 2 Antworten
Ich versuche, aus der Funktion, berechnen der mittlere quadratische Fehler von y (wahre Werte) und y_pred (vorhergesagt) nicht mit sklearn oder andere Implementierungen. Werde ich als Nächstes versuchen: def mserror(y, y_pred): i=0 for i in range (len(y)):

Arbeiten von labelEncoder in sklearn

Anzahl der Antworten 3 Antworten
Sagen, ich habe das folgende Eingabe-feature: hotel_id = [1, 2, 3, 2, 3] Dies ist eine kategoriale Funktion mit numerischen Werten. Wenn ich es auf das Modell wie es ist, das Modell zu behandeln, wird es als

IndexError: zu viele Indizes

Anzahl der Antworten 4 Antworten
Ich bin versucht, einen Algorithmus in scikit-learn, um vorherzusagen, die Ausgabe basiert auf einer Reihe von Eingaben. Ich scheine immer die Fehlermeldung "zu viele Indizes' zurückgegeben, aber kann nicht herausfinden, warum. CSV-Datei-Training: 1.1 0.2 0.1 0 0.12

Display ein .png-Bild aus python auf mint-15 linux

Anzahl der Antworten 1 Antworten
Ich versuche, die Anzeige einer .png Datei, die ich erstellt mithilfe der folgenden. import pydot, StringIO dot_data = StringIO.StringIO() tree.export_graphviz( clf, out_file = dot_data, feature_names =['age', 'sex', 'first_class', 'second_class', 'third_class']) graph = pydot.graph_from_dot_data( dot_data.getvalue()) graph.write_png('titanic.png') from IPython.core.display

Modul 'sklearn' hat kein Attribut 'cross_validation'

Anzahl der Antworten 4 Antworten
Ich versuche zu splitten, mein dataset in Trainings-und Test-Datensatz sein, aber ich bin immer diese Fehlermeldung: X_train,X_test,Y_train,Y_test = sklearn.cross_validation.train_test_split(X,df1['ENTRIESn_hourly']) AttributeError Traceback (most recent call last) <ipython-input-53-5445dab94861> in <module>() ----> 1 X_train,X_test,Y_train,Y_test = sklearn.cross_validation.train_test_split(X,df1['ENTRIESn_hourly']) AttributeError: module 'sklearn' has

Wie bewerbe ich mich scikit-learn ist LogisticRegression für einige decimal-Daten?

Anzahl der Antworten 1 Antworten
Ich habe die Trainings-Daten-set wie dieses: 0.00479616 | 0.0119904 | 0.00483092 | 0.0120773 | 1 0.51213136 | 0.0113404 | 0.02383092 | -0.012073 | 0 0.10479096 | -0.011704 | -0.0453692 | 0.0350773 | 0 Den ersten 4 Spalten

Python sklearn - wie berechnen p-Werte

Anzahl der Antworten 2 Antworten
Dies ist wahrscheinlich eine einfache Frage, aber ich versuche zu berechnen, die p-Werte für meine Funktionen entweder mithilfe von Klassifikatoren für eine Klassifizierung problem oder Regressoren für die regression. Könnte jemand empfehlen, was ist die beste Methode

nicht der import meiner util-Modul

Anzahl der Antworten 1 Antworten
Ich bin mit sklearn.externals.joblib zu bestehen Klassifikator-Modell auf der Platte, die in der Realität verwendet pickle Modul auf einer niedrigeren Ebene. Erstelle ich eine benutzerdefinierte CountVectorizer Klasse StemmedCountVectorizer gespeichert und es in util.py, dann verwendet es im

Unterschied zwischen cross_val_score und cross_val_predict

Anzahl der Antworten 2 Antworten
Möchte ich zur Bewertung einer regression Modell erstellen, mit scikitlearn mit der Kreuzvalidierung und immer verwirrt, welche der beiden Funktionen cross_val_score und cross_val_predict ich verwenden soll. Eine Möglichkeit wäre : cvs = DecisionTreeRegressor(max_depth = depth) scores =

AttributeError list-Objekt hat kein Attribut hinzufügen

Anzahl der Antworten 1 Antworten
Python ist neu für mich und ich bin dabei einige machine learning-code mit python. Mein Szenario ist, dass ich lese Daten aus meiner sql und versucht Gestalt zu geben, um diese Daten, so kann ich es verwenden,

Konvertieren numpy array-Typ und Werte aus Float64 zu Float32

Anzahl der Antworten 3 Antworten
Ich versuche zu konvertieren Schwelle array(pickle-Datei der isolation Wald von scikit lernen) Typ aus Float64 zu Float32 for i in range(len(tree.tree_.threshold)): tree.tree_.threshold[i] = tree.tree_.threshold[i].astype(np.float32) Dann Druck es for value in tree.tree_.threshold[:5]: print(type(value)) print(value) den Ausgang bin ich

Python scikits - Puffer hat falsche Anzahl von Dimensionen (voraussichtlich 1, 2)

Anzahl der Antworten 1 Antworten
Ich versuche mit diesem code-snippet. Ich bin mit scikits.lernen 0.8.1 from scikits.learn import linear_model import numpy as np num_rows = 10000 X = np.zeros([num_rows,2]) y = np.zeros([num_rows,1]) # assume here I have filled in X and y

ImportError: cannot import name Wahl beim importieren sklearn.Mischung

Anzahl der Antworten 3 Antworten
Ich bin mit scikit lernen 0.15.0. Wenn ich versuche zu importieren sklearn.Mischung ich bekommen ImportError: cannot import name Wahl Irgendwelche Ideen? =================================================================== In [1]: **from sklearn import mixture** ImportError Traceback (most recent call last) <ipython-input-1-05bc76cab98d> in <module>()

Wie berechnen confusion matrix für multiclass Klassifizierung in Scikit?

Anzahl der Antworten 3 Antworten
Ich habe eine multiclass Klassifizierung task. Wenn ich mein script basiert auf dem scikit Beispiel als folgt: classifier = OneVsRestClassifier(GradientBoostingClassifier(n_estimators=70, max_depth=3, learning_rate=.02)) y_pred = classifier.fit(X_train, y_train).predict(X_test) cnf_matrix = confusion_matrix(y_test, y_pred) Bekomme ich diesen Fehler: File "C:\ProgramData\Anaconda2\lib\site-packages\sklearn\metrics\classification.py", line

Wie zu verwenden OneHotEncoder für mehrere Spalten und fallen automatisch die erste dummy-variable für jede Spalte?

Anzahl der Antworten 2 Antworten
Dies ist das dataset mit 3 Spalten und 3 Zeilen Name Organisation Abteilung Manie   ABC2 FINANZEN Joyce   ABC1 HR Ami   NSV2 HR Dies ist der code den ich habe: Nun, es ist gut bis

sklearn ImportError: No module named _check_build

Anzahl der Antworten 7 Antworten
Ich versuche zu importieren sklearn, aber wenn ich Versuch, das zu tun, erhalte ich den folgenden: --------------------------------------------------------------------------- ImportError Traceback (most recent call last) <ipython-input-2-8fd979e02004> in <module>() ----> 1 import sklearn C:\Users\Alpine\AppData\Local\Enthought\Canopy\User\sklearn\__init__.py in <module>() 29 # process, as

Nicht importieren sklearn.model_selection in scikit-learn

Anzahl der Antworten 1 Antworten
Ich versuche zu importieren sklearn.model_selection. Ich habe versucht neu zu installieren, scikit-learn und anaconda, immer noch nicht funktioniert. Hier ist der Fehler msg ich habe: ImportError Traceback (most recent call last) <ipython-input-69-e49df3a70ea4> in <module>() 4 get_ipython().magic(u'matplotlib inline')

Bestimmen Sie, ob text in Englisch?

Anzahl der Antworten 4 Antworten
Ich bin mit beiden Nltk und Scikit Lernen, um einige der text-Verarbeitung. Aber in meiner Liste der Dokumente, die ich haben einige Dokumente, die nicht in Englisch. Zum Beispiel könnte das folgende wahr sein: [ "this is

Speichern und wiederverwenden von TfidfVectorizer in scikit lernen

Anzahl der Antworten 1 Antworten
Ich bin mit TfidfVectorizer in scikit lernen, um eine matrix zu erstellen, die aus text-Daten. Jetzt muss ich sparen, dieses Objekt für die Wiederverwendung später. Ich habe Gurke, aber es gab den folgenden Fehler. loc=open('vectorizer.obj','w') pickle.dump(self.vectorizer,loc) ***

Grid-search-cross-Validierung in sklearn

Anzahl der Antworten 1 Antworten
Können grid-search-cross-Validierung verwendet werden, um zu extrahieren, die besten Parameter mit der Entscheidungsbaum-Klassifikator? http://scikit-learn.org/stable/tutorial/statistical_inference/model_selection.html InformationsquelleAutor Borys | 2015-07-01

Scikit-learn GridSearch geben "ValueError: die multiclass-format wird nicht unterstützt" Fehlermeldung

Anzahl der Antworten 3 Antworten
Ich versuche, GridSearch parameterschätzung von LinearSVC() wie folgt - clf_SVM = LinearSVC() params = { 'C': [0.5, 1.0, 1.5], 'tol': [1e-3, 1e-4, 1e-5], 'multi_class': ['ovr', 'crammer_singer'], } gs = GridSearchCV(clf_SVM, params, cv=5, scoring='roc_auc') gs.fit(corpus1, y) corpus1 hat