Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Lineare Regression mit sklearn mit kategorischen Variablen

Anzahl der Antworten 3 Antworten
Ich versuche zu laufen einer gewöhnlichen linearen regression in Python mit sk-lernen, aber ich habe einige kategoriale Daten, ich weiß nicht genau, wie zu handhaben, vor allem, weil ich importiert die Daten mit pandas read.csv() und ich

Get-Funktion Bedeutung von GridSearchCV

Anzahl der Antworten 2 Antworten
Ist es ein Weg um die Funktion, Bedeutung aus sklearn ist GridSearchCV? Beispiel : from sklearn.model_selection import GridSearchCV print("starting grid search ......") optimized_GBM = GridSearchCV(LGBMRegressor(), params, cv=3, n_jobs=-1) # optimized_GBM.fit(tr, yvar) preds2 = optimized_GBM.predict(te) Gibt es eine

Wie Sie eine benutzerdefinierte SVM-kernel?

Anzahl der Antworten 2 Antworten
Möchte ich zur Umsetzung meiner eigenen Gaussian kernel, Python, nur für die übung. Ich verwende: sklearn.svm.SVC(kernel=my_kernel) aber ich verstehe wirklich nicht, was Los ist. Ich erwarte, dass die Funktion my_kernel genannt zu werden mit den Spalten der

Kann nicht downloaden und installieren, scikit-learn

Anzahl der Antworten 1 Antworten
Ich bin Recht neu bei python. Ich will KMean-code, und ich möchte zu installieren scikit-learn oder sklearn. Benutzte ich diesen code um zu versuchen diese Pakete installieren: pip install -U sklearn pip install -U scikit-learn Aber bekam

Ist sklearn.Metriken.mean_squared_error die größer desto besser (negiert)?

Anzahl der Antworten 2 Antworten
Im Allgemeinen, die mean_squared_error ist je kleiner, desto besser. Wenn ich mit der sklearn Metriken Paket, heißt es in dem Dokument Seiten: http://scikit-learn.org/stable/modules/model_evaluation.html Alle scorer Objekte Folgen der Konvention, dass höhere Werte zurückgegeben werden besser als niedrigere

Python ValueError: nicht-broadcastable output-Operanden-Form (124,1) nicht mit der broadcast-Form (124,13)

Anzahl der Antworten 1 Antworten
Ich möchte zu normalisieren, ein Trainings-und test-Daten mit MinMaxScaler im sklearn.preprocessing. Das Paket wird jedoch nicht angezeigt zu werden, akzeptieren meine test-Daten. import pandas as pd import numpy as np # Read in data. df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',

Unterschied zwischen original xgboost (Learning API) und sklearn XGBClassifier (Scikit-Learn-API)

Anzahl der Antworten 2 Antworten
Ich die xgboots sklearn Schnittstelle unten zu schaffen und die Ausbildung einer xgb-Modell-1. clf = xgb.XGBClassifier(n_estimators = 100, objective= 'binary:logistic',) clf.fit(x_train, y_train, early_stopping_rounds=10, eval_metric="auc", eval_set=[(x_valid, y_valid)]) Und die xgboost Modell kann erstellt werden, indem original-xgboost als Modell-2

Wie man das Gewicht-Vektor in der Logistischen Regression?

Anzahl der Antworten 2 Antworten
Ich habe eine X-feature-matrix und y-label-matrix und ich bin die Benutzung mit Binär-logistischen regression wie kann ich das Gewicht Vektor w gegebenen matrix X-Funktion und Y-label-matrix. Ich bin ein bisschen verwirrt, wie Sie diese erreichen innerhalb sklean.

scikit-learn howto Grundstück kmean Dokument-Cluster?

Anzahl der Antworten 1 Antworten
Ich will plot in diesem Beispiel im scatter-plot : http://scikit-learn.org/dev/auto_examples/document_clustering.html#example-document-clustering-py Ich bin sklearn und numpy Neuling hier , möchte ich, um die Daten der Koordinaten der Vektoren, so kann ich den plot. EDIT: Hier ist, was ich

Wie die Ausgabe RandomForest Klassifizierer von python?

Anzahl der Antworten 2 Antworten
Habe ich trainiert RandomForestClassifier von Python Sckit Lernen Modul mit sehr großen Datensatz, aber die Frage ist, wie kann ich eventuell dieses Modell speichern und lassen Sie andere Menschen wenden es auf Ihr Ende. Danke! Siehe scikit-learn.org/stable/tutorial/basic/...

Scikit erfahren Fehlermeldung 'Precision und F-score sind schlecht definiert und wird auf 0.0 gesetzt in labels'

Anzahl der Antworten 2 Antworten
Im arbeiten auf eine binäre Klassifikation Modell, Klassifizierer naive bayes. Ich habe eine fast ausgeglichene dataset jedoch bekomme ich die folgende Fehlermeldung, wenn ich sage: UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in

Das finden und die Verwendung der Eigenwerte und Eigenvektoren von PCA in scikit-learn

Anzahl der Antworten 2 Antworten
Ich wurden unter Verwendung von PCA-umgesetzt in scikit-learn. Ich möchte jedoch finden Sie die Eigenwerte und Eigenvektoren das Ergebnis, nachdem wir passen die Trainings-dataset. Es gibt keine Erwähnung der beiden in der Dokumentation. Zweitens können diese Eigenwerte

Scikit-Learn One-hot-Codierung vor oder nach Zug/test-split

Anzahl der Antworten 2 Antworten
Ich bin auf der Suche auf zwei Szenarien ein Modell zu bauen, mit scikit-learn und ich kann nicht herausfinden, warum einer von Ihnen ist die Rückkehr ein Resultat, das ist so grundlegend anders als die anderen. Der

Ranking und erzielt in Recursive Feature Elimination (RFE) in scikit-learn

Anzahl der Antworten 1 Antworten
Ich versuche zu verstehen, wie zu Lesen grid_scores_ und ranking_ Werte in RFECV. Hier ist das wichtigste Beispiel aus der Dokumentation: from sklearn.datasets import make_friedman1 from sklearn.feature_selection import RFECV from sklearn.svm import SVR X, y = make_friedman1(n_samples=50,

Wie zu normalisieren, mit PCA und scikit-learn

Anzahl der Antworten 1 Antworten
Lassen Sie mich diese kurze. Im Grunde, was ich wissen will ist: sollte ich das tun, pca.fit(normalize(x)) new=pca.transform(normalize(x)) oder diese pca.fit(normalize(x)) new=pca.transform(x) Ich weiß, dass sollten wir die Normalisierung unserer Daten vor der Verwendung von PCA-aber welche

Wie die Verwendung der Pearson Korrelation als Distanz-Metrik in Scikit-learn Agglomerative clustering

Anzahl der Antworten 1 Antworten
Habe ich Folgendes Daten: State Murder Assault UrbanPop Rape Alabama 13.200 236 58 21.200 Alaska 10.000 263 48 44.500 Arizona 8.100 294 80 31.000 Arkansas 8.800 190 50 19.500 California 9.000 276 91 40.600 Colorado 7.900 204

Matplotlib Scatter - ValueError: RGBA Folge haben sollte, von der Länge 3 oder 4

Anzahl der Antworten 1 Antworten
Ich versuche, zeichnen ein Diagramm für meine Funktionen und ich bekomme immer diese Fehlermeldung: ValueError: RGBA sequence should have length 3 or 4 Den code funktionierte perfekt, wenn ich hatte nur 6 Arten von Formen, aber jetzt

Zug-Modell schlägt fehl, weil 'Liste' - Objekt hat kein Attribut 'untere'

Anzahl der Antworten 2 Antworten
Trainiere ich einen Klassifizierer über tweets für sentiment-Analyse-Zwecke. Code ist der folgende: df = pd.read_csv('Trainded Dataset Sentiment.csv', error_bad_lines=False) df.head(5) #TWEET X = df[['SentimentText']].loc[2:50000] #SENTIMENT LABEL y = df[['Sentiment']].loc[2:50000] #Apply Normalizer function over the tweets X['Normalized Text'] =

Finden Sie die tf-idf-score von bestimmten Wörtern in Dokumenten mit sklearn

Anzahl der Antworten 3 Antworten
Ich habe code, der ausgeführt basic TF-IDF-vectorizer auf eine Sammlung von Dokumenten, die RÜCKFÜHRUNG einer sparse-matrix D X F, wobei D die Anzahl der Dokumente, und F ist die Anzahl der Begriffe. Kein problem. Aber wie finde

NameError: name 'Baum' ist nicht definiert

Anzahl der Antworten 3 Antworten
Hey, ich bin neu in Python und ich versuche zu Folgen, zusammen mit einem tutorial, aber ich bekomme diese Fehlermeldung: NameError: name 'Baum' ist nicht definiert. Das Ziel ist es natürlich für das Programm, um festzustellen, ob

Wie man Gewicht-Klassen in einem RandomForest Umsetzung?

Anzahl der Antworten 1 Antworten
Ich arbeite an einem 3D-Punkt Identifikation mit der RandomForest Methode von scikit. Eine der Fragen, die ich laufen in ist, dass bestimmte Klassen vorhanden sind, öfter als andere Klassen. Dies bedeutet, dass in den Prozess der Generierung

Wie man matplotlib.pyplot arbeiten in einer virtuellen Umgebung unter OSX?

Anzahl der Antworten 4 Antworten
Ich stieß zuerst auf die Antwort zu diese Frage, wo ich herausgefunden habe, brauchte ich für die Installation meines eigenen backend-framework. Seit der Antwort erwähnt, PyQt4, die ich wählte zu gehen mit diesem. Folgenden links in die

Immer GEWICHTE von features mit scikit-learn Logistische Regression

Anzahl der Antworten 2 Antworten
Ich bin ein wenig neu hier. Ich bin mit einer einfachen Logistischen Regression, die Classifier in python scikit-learn. Ich habe 4 Funktionen. Mein code ist X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state =

F1-score pro Klasse für die multi-class classification

Anzahl der Antworten 2 Antworten
Arbeite ich an einem multiclass Klassifizierung problem mit python und scikit-learn. Derzeit bin ich mit dem classification_report Funktion zu bewerten, die Leistung des Klassifizierers, die Einholung von berichten wie dem folgenden: >>> print(classification_report(y_true, y_pred, target_names=target_names)) precision recall

Legen Sie benutzerdefinierte Funktionen in Sklearn pipeline

Anzahl der Antworten 1 Antworten
In meinem Klassifikationsschema, gibt es mehrere Schritte, einschließlich: SCHLUG (Synthetische Minderheit Über-sampling-Technik) Fisher Kriterien für die Funktionsauswahl Standardisierung (Z-score Normalisierung) SVC (Support Vector Classifier) Die wichtigsten Parameter abgestimmt werden, im Schema oben sind die % - Perzentil

Python: Listen-iteration gibt nur letzten Wert

Anzahl der Antworten 1 Antworten
Ich bin mit scikit-learn für die GMM-training und versuche zu variieren, die Anzahl der Gemisch-Komponenten per Schleife über eine Liste von Ganzzahlen. Aber wenn ich drucken meine fertigen Modelle bekomme ich nur die, die mit 3-Gemisch-Komponenten, oder

Wie areTF-IDF berechnet, indem die scikit-learn TfidfVectorizer

Anzahl der Antworten 3 Antworten
Ich den folgenden code ausführen, um den text zu konvertieren matrix zu TF-IDF-matrix. text = ['This is a string','This is another string','TFIDF computation calculation','TfIDF is the product of TF and IDF'] from sklearn.feature_extraction.text import TfidfVectorizer vectorizer =

AttributeError: module 'tensorflow.contrib.lernen' hat kein Attribut 'TensorFlowDNNClassifier'

Anzahl der Antworten 2 Antworten
Dies ist die ml tensorflow code, den ich versuche zu ausführen - import tensorflow.contrib.learn as skflow from sklearn import datasets, metrics iris = datasets.load_iris() classifier = skflow.TensorFlowDNNClassifier(hidden_units=[10, 20, 10], n_classes=3) classifier.fit(iris.data, iris.target) score = metrics.accuracy_score(iris.target, classifier.predict(iris.data)) print("Accuracy:

Die effiziente Erstellung von sparse-pivot-Tabellen in pandas?

Anzahl der Antworten 3 Antworten
Arbeite ich drehen, eine Liste von records mit zwei Spalten (A und B) in eine matrix-Darstellung. Ich habe bereits mit der pivot-Funktion innerhalb von pandas, aber das Ergebnis ist ziemlich groß. Tut pandas Unterstützung Einschwenken in eine

Ändern Sätze zu Vektoren mit while-Funktion in Python

Anzahl der Antworten 2 Antworten
Möchte ich ändern die folgenden Sätze zu Vektoren mit sklearn: Article 1. It is not good to eat pizza after midnight Article 2. I wouldn't survive a day withouth stackexchange Article 3. All of these are just

silhouette Koeffizient in python mit sklearn

Anzahl der Antworten 1 Antworten
Ich habe Probleme bei der Berechnung der silhouette Koeffizient in python mit sklearn. Hier ist mein code : from sklearn import datasets from sklearn.metrics import * iris = datasets.load_iris() X = pd.DataFrame(iris.data, columns = col) y =

Die Vorhersage neuer Daten mithilfe sklearn nach der Standardisierung der Trainings-Daten

Anzahl der Antworten 1 Antworten
Ich bin mit Sklearn bauen eine lineare regression Modell (oder jedes andere Modell) mit den folgenden Schritten: X_train und Y_train sind die Trainingsdaten Standardisierung der Trainings-Daten X_train = preprocessing.scale(X_train) passen das Modell model.fit(X_train, Y_train) Einmal das Modell

Mithilfe von decision tree-regression und Kreuzvalidierung in sklearn

Anzahl der Antworten 2 Antworten
Ich bin ein Neuling in statistischen Methoden, also bitte entschuldigt eventuelle Naivität. Ich habe ein problem, das Verständnis, die Durchführung der cross-Validierung bei der Verwendung von Entscheidungsbaum-regression von sklearn (z.B. DecisionTreeRegressor und RandomForestRegressor). Mein dataset unterschiedlich aus,

Grid-Search mit Recursive Feature Elimination in scikit-learn-pipeline gibt einen Fehler zurück

Anzahl der Antworten 2 Antworten
Ich versuche, Kette Grid Search and Recursive Feature Elimination in einer Pipeline mit scikit-learn. GridSearchCV und RFE mit der "nackten" Klassifikator gut funktioniert: from sklearn.datasets import make_friedman1 from sklearn import feature_selection from sklearn.grid_search import GridSearchCV from sklearn.svm

scikit lernen svc coef0 parameter range

Anzahl der Antworten 1 Antworten
Dokumentation hier. Frage ich mich, wie wichtig die coef0 parameter für SVCs unter der Polynom-und sigmoid Kernel. Wie ich es verstehe, es ist die intercept-Begriff, nur eine Konstante als bei der linearen regression, um den offset der

Scikit-learn ist GridSearchCV mit linearen kernel-svm dauert zu lange

Anzahl der Antworten 1 Antworten
Nahm ich Beispielcode von sklearn website, die tuned_parameters = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4], 'C': [1, 10, 100, 1000]}, {'kernel': ['linear'], 'C': [1, 10, 100, 1000]}] scores = [('f1', f1_score)] for score_name, score_func in scores: print "#

Was ist der Unterschied zwischen OneVsRestClassifier und MultiOutputClassifier in scikit lernen?

Anzahl der Antworten 1 Antworten
Kann mir bitte jemand erklären (mit Beispiel vielleicht), was ist der Unterschied zwischen OneVsRestClassifier und MultiOutputClassifier in scikit-learn? Ich habe gelesen, Dokumentation und ich habe verstanden, dass wir verwenden: OneVsRestClassifier - wenn wir wollen, zu tun multiclass-oder

Mit scikit-learn LinearRegression in den plot ein linearer fit

Anzahl der Antworten 2 Antworten
Ich versuche, lineares Regressionsmodell für die Vorhersage der Sohn die Länge seines Vaters, Länge import numpy as np import pandas as pd from matplotlib import pyplot as plt import seaborn as sns %matplotlib inline from sklearn.linear_model import

Pass ein dict zu scikit lernen estimator

Anzahl der Antworten 3 Antworten
Ich versuche zu pass-Modell-Parameter als dict zu einem Scikit-learn-Schätzer und habe kein Glück. Es scheint einfach so zu verschachteln, mein dict in einer der Parameter. Zum Beispiel: params = { 'copy_X': True, 'fit_intercept': False, 'normalize': True }

GridSearchCV - XGBoost - Früh Stoppen

Anzahl der Antworten 2 Antworten
ich versuche zu tun, hyperparemeter Suche mit scikit-learn ist GridSearchCV auf XGBoost. Während gridsearch ich möchte es frühzeitig beenden, da es reduzieren die Suchzeit drastisch, und die (erwartet) bessere Ergebnisse auf meine Vorhersage/regression Aufgabe. Ich bin mit

KerasRegressor Bestimmtheitsmaß R^2 Score

Anzahl der Antworten 1 Antworten
Ich bin den Aufbau einer kleinen neuronalen Netzes im Keras bedeutete für eine regression Aufgabe, und ich möchte das gleiche Genauigkeit Messwert als die scikit-learn RandomForestRegressor: Den Koeffizienten R^2 ist definiert als (1 - u/v), wobei u

Scikit-Learn PCA

Anzahl der Antworten 2 Antworten
Ich bin mit input-Daten aus hier (siehe Abschnitt 3.1). Ich versuche zu reproduzieren Ihre Kovarianz-matrix, Eigenwerte und Eigenvektoren mit scikit-learn. Allerdings bin ich nicht in der Lage zu reproduzieren die Ergebnisse, wie Sie in der Datenquelle. Ich

Speichern Sie die python random forest Modell-Datei

Anzahl der Antworten 3 Antworten
In R nach der Ausführung von "random forest" - Modell, die ich verwenden kann save.image("***.RData") zum speichern des Modells. Danach kann ich nur laden Sie das Modell, um Vorhersagen machen direkt. Können Sie tun, eine ähnliche Sache

Python/Scikit-Learn - Kann damit nicht umgehen Mischung aus multiclass und kontinuierliche

Anzahl der Antworten 2 Antworten
Ich versuche fit ein SGDRegressor auf meine Daten und dann überprüfen Sie die Genauigkeit. Der Beschlag funktioniert gut, aber dann die Vorhersagen sind nicht in den gleichen Datentyp(?) als das ursprüngliche Ziel-Daten, und ich bekomme die Fehlermeldung

Scikit: berechnen Sie precision und recall mit cross_val_score Funktion

Anzahl der Antworten 4 Antworten
Ich bin mit scikit zur Durchführung einer logistischen regression auf spam - /ham-Daten. X_train ist meine Trainings-Daten und y_train die Etiketten('spam' oder 'ham') und ich trainierte mein LogisticRegression diese Weise: classifier = LogisticRegression() classifier.fit(X_train, y_train) Wenn ich

sklearn Problem: Gefunden-arrays mit inkonsistenten Anzahl von Proben, wenn dabei die regression

Anzahl der Antworten 5 Antworten
scheint diese Frage gebeten worden war, bevor, aber ich kann nicht scheinen, um einen Kommentar für eine weitere Klärung auf die akzeptierte Antwort, und ich konnte nicht herausfinden, die Lösung bereitgestellt. Ich versuche zu lernen, wie sklearn

Schnelle Information-Gain-Berechnung

Anzahl der Antworten 3 Antworten
Ich brauche, um zu berechnen, Informationen Gewinnen erreicht souverän für >100 K-Funktionen >10k Dokumente für text-Klassifikation. Der Code unten funktioniert einwandfrei, aber für den vollen Datenbestand ist sehr langsam - dauert mehr als eine Stunde auf einem

Fehler mit Sklearn Random Forest Regressor

Anzahl der Antworten 2 Antworten
Wenn Sie versuchen, um zu passen ein Random Forest Modell mit Regressor y-Daten, die wie folgt aussieht: [ 0.00000000e+00 1.36094276e+02 4.46608221e+03 8.72660888e+03 1.31375786e+04 1.73580193e+04 2.29420671e+04 3.12216341e+04 4.11395711e+04 5.07972062e+04 6.14904935e+04 7.34275322e+04 7.87333933e+04 8.46302456e+04 9.71074959e+04 1.07146672e+05 1.17187952e+05 1.26953374e+05 1.37736003e+05

Pandas: Verwenden Sie mehrere Spalten in einem dataframe als index eines anderen

Anzahl der Antworten 2 Antworten
Habe ich eine große dataframe mit meinen Daten und einen weiteren dataframe derselben ersten dimension enthält Metadaten zu jedem Punkt in der Zeit (z.B., was trial number war es, was trial-Typ es war). Was ich will zu

scikit-learn return-Wert LogisticRegression.predict_proba

Anzahl der Antworten 1 Antworten
Was genau macht der LogisticRegression.predict_proba Funktion zurückgeben? In meinem Beispiel bekomme ich ein Ergebnis wie dieses: [[ 4.65761066e-03 9.95342389e-01] [ 9.75851270e-01 2.41487300e-02] [ 9.99983374e-01 1.66258341e-05]] Aus anderen Berechnungen, die Verwendung der sigmoid-Funktion, ich weiß, dass in der