Tag: scikit-learn
scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).
8
Antworten
Ich versuche, eine Funktion aufzurufen, die aus der cluster-Modul, etwa so: import sklearn db = sklearn.cluster.DBSCAN() und ich bekomme die folgende Fehlermeldung: AttributeError: 'module' object has no attribute 'cluster' Tab-Abschluss in IPython, ich scheinen, um Zugang zu
18
Antworten
Ich versuche, scikit-learn ist LabelEncoder zum codieren eines pandas DataFrame string-Etiketten. Als dataframe hat viele (50+) Spalten, ich möchte vermeiden, erstellen eine LabelEncoder - Objekt für jede Spalte; ich würde lieber einen großen LabelEncoder Objekte, die auf
1
Antworten
Ich habe einige problem mit dem hinzufügen von eigenen Funktionen zu sklearn.linear_model.LogisticRegression. Aber trotzdem können Sie einige Beispiel-code: from sklearn.linear_model import LogisticRegression, LinearRegression import numpy as np #Numbers are class of tag resultsNER = np.array([1,2,3,4,5]) #Acording to
1
Antworten
Ich versuche zu bewerten, eine multivariable Datensatz durch leave-one-out-cross-Validierung und entfernen Sie dann die Proben nicht predictive dem ursprünglichen dataset (Benjamini-korrigiert FDR > 10%). Mithilfe der docs auf cross-Validierung, die ich gefunden habe, der leave-one-out-iterator. Jedoch, wenn
1
Antworten
ich nur Anfänger in python habe ich code-Suche auf dem internet für die execute-K-means verwenden, scikit, ich habe versucht, modifiziert den code zum visualisieren plot 3d und Farbe die einzelnen cluster (3 cluster), aber das Ergebnis ist
1
Antworten
Edit 2: Es ist jetzt ein schönes Beispiel in der sklearn Dokumentation. Um zu sehen, wie viele Bäume notwendig sind, in meinem Wald, ich möchte plot der OOB Fehler als die Anzahl der Bäume im Wald ist
2
Antworten
Ich bin ein Anfänger in Python und Sklearn. Frage mich, ob ich mich hier etwas fehlt. Ich bin immer folgende Warnmeldung: DeprecationWarning: die Übergabe von 1d-arrays, da die Daten veraltet 0.17 und willraise ValueError im 0.19. Hier
1
Antworten
Habe ich einige interessante Nutzer-Daten. Es gibt einige Informationen über die Zuverlässigkeit von bestimmten Aufgaben der Benutzer wurden gebeten, zu führen. Ich versuche heraus zu finden ob late - was mir sagt, dass wenn Benutzer auf Zeit
1
Antworten
Ich versuche, scikit-learn, um einige ML. Ich bin mit dem Vorverarbeitung Modul, um prep meine Daten. Die Daten sind vom Typ float. Aus dem Lesen der anderen Fragen zu diesem Problem: ValueError: Einstellung der ein array-element mit
2
Antworten
Ich installiert Anaconda auf 64bit windows und habe ich auch installiert scikit-learn mit "conda install scikit-learn". Aber ich kann nicht finden, scikit-learn, wenn ich drucken Sie alle installierten Module in python, und ich kann nicht importieren scikit-learn.
2
Antworten
C:\Users\deypr>pip3 install sklearn Collecting sklearn Cache entry deserialization failed, entry ignored Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLError(1, '[SSL: TLSV1_ALERT_ACCESS_DENIED] tlsv1 alert access denied (_ssl.c:777)'),)': /simple/sklearn/ Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after
1
Antworten
Mache ich verschiedene text-Klassifikation von Experimenten. Jetzt brauche ich für die Berechnung der AUC-ROC für jede Aufgabe. Für die binäre Klassifikationen habe ich schon gemacht und es funktioniert mit diesem code: scaler = StandardScaler(with_mean=False) enc = LabelEncoder()
2
Antworten
Ich gesehen habe die anderen Beiträge über dieses Gespräch, doch jeder, der diese mir helfen können. Ich bin mit jupyter notebook mit Python 3.6.0 unter windows x6 Maschine. Ich habe einen großen Datensatz, aber ich bekomme nur
1
Antworten
Könnten Sie bitte erklären, was das "fit" - Methode in scikit-learn? Warum ist es nützlich? Ich bin neue in Machine Learning und scikit-learn. Frage ist breit, aber ich werde beißen. Viele Modelle haben, die passen Methoden in
1
Antworten
Ich habe ein Problem mit der richtige Aufruf von Scikit - Logistische Regression für die multi-class-Gehäuse. Ich bin mit dem lbgfs solver, und ich habe auch den multi_class parameter polynomial. Ist es mir unklar, wie das passieren
2
Antworten
Ich bin mit 2.7.10 Python installiert haben und scikit-0.15.2 mit pip und ich habe auch schon "numpy-1.1.10" und "scipy-0.16.0" installiert und es funktioniert gut, aber wenn ich versuche zu importieren TfidfVectorizer von sklearn zu konstruieren, ein term-Dokument-matrix
3
Antworten
Was ich verstehen Polynom-regression ist eine bestimmte Art von Regressionsanalyse, die komplizierter als die lineare regression. Gibt es ein python-Modul, welches dies tun kann? Ich habe mir in der matplotlib ,scikitand numpy kann aber nur der finden,
1
Antworten
Tue ich k-means-clustering auf den Satz von 30 Proben mit 2 Clustern (ich weiß schon, es gibt zwei Klassen). Ich Teile meine Daten in Trainings-und test-set und versuchen zu berechnen, wird die Genauigkeit Punktzahl auf meiner test-set.
3
Antworten
Ich versuche, verwenden Sie den folgenden code: from matplotlib import pyplot as plt from sklearn.datasets import load_iris import numpy as np Bekomme ich diesen Fehler: ImportError: No module named sklearn.datasets Ich versuche dann zu installieren scikit-learn, bekomme
3
Antworten
Nehme an, es ist eine Sequenz von Beobachtungen,z.B. [1,2,3,5,5,5,2,3,2,3, ..., 3, 4]. Ich bin versucht, die aktuelle Implementierung von HMM in Scikit-learn, um vorherzusagen, der nächste Wert dieser Beobachtung Sequenz. Ich habe 2 Fragen in Bezug auf
9
Antworten
Ich würde gerne die norm ein NumPy-array. Genauer gesagt, Suche ich eine entsprechende version dieser Funktion def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm Gibt es so etwas wie, dass
1
Antworten
Dies ist nicht ein echtes Problem, aber ich würde gerne verstehen: läuft sklearn von Anaconda distrib auf einem Win7 die 4 Kerne 8 GB system Einbau eines KMeans-Modell auf einem 200.000 Proben*200 Werte-Tabelle. läuft mit n-jobs =
4
Antworten
Hallo Jungs unten ist ein Ausschnitt aus dem Entscheidungsbaum wie es ist ziemlich riesig. Machen, wie der Baum aufhören zu wachsen, wenn die niedrigste Wert in einem Knoten unter 5. Hier ist der code zum erzeugen des
2
Antworten
Habe ich versucht, dieses konnte aber nicht erhalten, es funktioniert für meine Daten: Verwenden Scikit Lernen lineare regression auf eine Zeit-Serie pandas data frame Meine Daten besteht aus 2 DataFrames. DataFrame_1.shape = (40,5000) und DataFrame_2.shape = (40,74).
1
Antworten
Ich versuche zu generieren, meta-Funktionen, so dass ich tutorials und die folgenden schreiben: clf = tree.DecisionTreeClassifier() clf.fit(X, y) Aber es wirft ValueError. File "/usr/local/lib/python2.7/dist-packages/sklearn/tree/tree.py", line 739, in fit X_idx_sorted=X_idx_sorted) File "/usr/local/lib/python2.7/dist-packages/sklearn/tree/tree.py", line 146, in fit check_classification_targets(y) File
4
Antworten
Nicht sicher, wie Sie Sie zu beheben . Jede Hilfe dankbar. Ich sah thi Vektorisierung: Keine gültige Sammlung aber nicht sicher, ob ich verstanden, dass diese train = df1.iloc[:,[4,6]] target =df1.iloc[:,[0]] def train(classifier, X, y): X_train, X_test,
1
Antworten
Lerne ich python scikit. Das Beispiel hier zeigt die top vorkommende Wörter in den einzelnen Cluster-und nicht-Cluster-name. http://scikit-learn.org/stable/auto_examples/document_clustering.html Fand ich, dass die km Objekt "km.label" die Listen der Schwerpunkt-id, die ist die Nummer. Ich habe zwei Frage
1
Antworten
Möchte ich verwenden, cross-Validierung, test - /Zug meinen Daten und bewerten Sie die Leistung der logistischen regression über den gesamten Datensatz und nicht nur auf dem test-set (z.B. 25%). Diese Begriffe sind mir völlig neu und bin
3
Antworten
Ich habe einen Datensatz und möchte ich Zug mein Modell auf die Daten. Nach dem training brauche ich, um zu wissen, die features, sind die wichtigsten Geber in der Klassifizierung für einen SVM-Klassifizierer. Gibt es etwas, genannt-Funktion
2
Antworten
Ich versuche, aus der Funktion, berechnen der mittlere quadratische Fehler von y (wahre Werte) und y_pred (vorhergesagt) nicht mit sklearn oder andere Implementierungen. Werde ich als Nächstes versuchen: def mserror(y, y_pred): i=0 for i in range (len(y)):
3
Antworten
Sagen, ich habe das folgende Eingabe-feature: hotel_id = [1, 2, 3, 2, 3] Dies ist eine kategoriale Funktion mit numerischen Werten. Wenn ich es auf das Modell wie es ist, das Modell zu behandeln, wird es als
4
Antworten
Ich bin versucht, einen Algorithmus in scikit-learn, um vorherzusagen, die Ausgabe basiert auf einer Reihe von Eingaben. Ich scheine immer die Fehlermeldung "zu viele Indizes' zurückgegeben, aber kann nicht herausfinden, warum. CSV-Datei-Training: 1.1 0.2 0.1 0 0.12
1
Antworten
Ich versuche, die Anzeige einer .png Datei, die ich erstellt mithilfe der folgenden. import pydot, StringIO dot_data = StringIO.StringIO() tree.export_graphviz( clf, out_file = dot_data, feature_names =['age', 'sex', 'first_class', 'second_class', 'third_class']) graph = pydot.graph_from_dot_data( dot_data.getvalue()) graph.write_png('titanic.png') from IPython.core.display
4
Antworten
Ich versuche zu splitten, mein dataset in Trainings-und Test-Datensatz sein, aber ich bin immer diese Fehlermeldung: X_train,X_test,Y_train,Y_test = sklearn.cross_validation.train_test_split(X,df1['ENTRIESn_hourly']) AttributeError Traceback (most recent call last) <ipython-input-53-5445dab94861> in <module>() ----> 1 X_train,X_test,Y_train,Y_test = sklearn.cross_validation.train_test_split(X,df1['ENTRIESn_hourly']) AttributeError: module 'sklearn' has
1
Antworten
Ich habe die Trainings-Daten-set wie dieses: 0.00479616 | 0.0119904 | 0.00483092 | 0.0120773 | 1 0.51213136 | 0.0113404 | 0.02383092 | -0.012073 | 0 0.10479096 | -0.011704 | -0.0453692 | 0.0350773 | 0 Den ersten 4 Spalten
2
Antworten
Dies ist wahrscheinlich eine einfache Frage, aber ich versuche zu berechnen, die p-Werte für meine Funktionen entweder mithilfe von Klassifikatoren für eine Klassifizierung problem oder Regressoren für die regression. Könnte jemand empfehlen, was ist die beste Methode
1
Antworten
Ich bin mit sklearn.externals.joblib zu bestehen Klassifikator-Modell auf der Platte, die in der Realität verwendet pickle Modul auf einer niedrigeren Ebene. Erstelle ich eine benutzerdefinierte CountVectorizer Klasse StemmedCountVectorizer gespeichert und es in util.py, dann verwendet es im
2
Antworten
Möchte ich zur Bewertung einer regression Modell erstellen, mit scikitlearn mit der Kreuzvalidierung und immer verwirrt, welche der beiden Funktionen cross_val_score und cross_val_predict ich verwenden soll. Eine Möglichkeit wäre : cvs = DecisionTreeRegressor(max_depth = depth) scores =
1
Antworten
Python ist neu für mich und ich bin dabei einige machine learning-code mit python. Mein Szenario ist, dass ich lese Daten aus meiner sql und versucht Gestalt zu geben, um diese Daten, so kann ich es verwenden,
3
Antworten
Ich versuche zu konvertieren Schwelle array(pickle-Datei der isolation Wald von scikit lernen) Typ aus Float64 zu Float32 for i in range(len(tree.tree_.threshold)): tree.tree_.threshold[i] = tree.tree_.threshold[i].astype(np.float32) Dann Druck es for value in tree.tree_.threshold[:5]: print(type(value)) print(value) den Ausgang bin ich
1
Antworten
Ich versuche mit diesem code-snippet. Ich bin mit scikits.lernen 0.8.1 from scikits.learn import linear_model import numpy as np num_rows = 10000 X = np.zeros([num_rows,2]) y = np.zeros([num_rows,1]) # assume here I have filled in X and y
3
Antworten
Ich bin mit scikit lernen 0.15.0. Wenn ich versuche zu importieren sklearn.Mischung ich bekommen ImportError: cannot import name Wahl Irgendwelche Ideen? =================================================================== In [1]: **from sklearn import mixture** ImportError Traceback (most recent call last) <ipython-input-1-05bc76cab98d> in <module>()
3
Antworten
Ich habe eine multiclass Klassifizierung task. Wenn ich mein script basiert auf dem scikit Beispiel als folgt: classifier = OneVsRestClassifier(GradientBoostingClassifier(n_estimators=70, max_depth=3, learning_rate=.02)) y_pred = classifier.fit(X_train, y_train).predict(X_test) cnf_matrix = confusion_matrix(y_test, y_pred) Bekomme ich diesen Fehler: File "C:\ProgramData\Anaconda2\lib\site-packages\sklearn\metrics\classification.py", line
2
Antworten
Dies ist das dataset mit 3 Spalten und 3 Zeilen Name Organisation Abteilung Manie ABC2 FINANZEN Joyce ABC1 HR Ami NSV2 HR Dies ist der code den ich habe: Nun, es ist gut bis
7
Antworten
Ich versuche zu importieren sklearn, aber wenn ich Versuch, das zu tun, erhalte ich den folgenden: --------------------------------------------------------------------------- ImportError Traceback (most recent call last) <ipython-input-2-8fd979e02004> in <module>() ----> 1 import sklearn C:\Users\Alpine\AppData\Local\Enthought\Canopy\User\sklearn\__init__.py in <module>() 29 # process, as
1
Antworten
Ich versuche zu importieren sklearn.model_selection. Ich habe versucht neu zu installieren, scikit-learn und anaconda, immer noch nicht funktioniert. Hier ist der Fehler msg ich habe: ImportError Traceback (most recent call last) <ipython-input-69-e49df3a70ea4> in <module>() 4 get_ipython().magic(u'matplotlib inline')
4
Antworten
Ich bin mit beiden Nltk und Scikit Lernen, um einige der text-Verarbeitung. Aber in meiner Liste der Dokumente, die ich haben einige Dokumente, die nicht in Englisch. Zum Beispiel könnte das folgende wahr sein: [ "this is
1
Antworten
Ich bin mit TfidfVectorizer in scikit lernen, um eine matrix zu erstellen, die aus text-Daten. Jetzt muss ich sparen, dieses Objekt für die Wiederverwendung später. Ich habe Gurke, aber es gab den folgenden Fehler. loc=open('vectorizer.obj','w') pickle.dump(self.vectorizer,loc) ***
1
Antworten
Können grid-search-cross-Validierung verwendet werden, um zu extrahieren, die besten Parameter mit der Entscheidungsbaum-Klassifikator? http://scikit-learn.org/stable/tutorial/statistical_inference/model_selection.html InformationsquelleAutor Borys | 2015-07-01
3
Antworten
Ich versuche, GridSearch parameterschätzung von LinearSVC() wie folgt - clf_SVM = LinearSVC() params = { 'C': [0.5, 1.0, 1.5], 'tol': [1e-3, 1e-4, 1e-5], 'multi_class': ['ovr', 'crammer_singer'], } gs = GridSearchCV(clf_SVM, params, cv=5, scoring='roc_auc') gs.fit(corpus1, y) corpus1 hat