Tag: scikit-learn
scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).
3
Antworten
Ich versuche zu laufen einer gewöhnlichen linearen regression in Python mit sk-lernen, aber ich habe einige kategoriale Daten, ich weiß nicht genau, wie zu handhaben, vor allem, weil ich importiert die Daten mit pandas read.csv() und ich
2
Antworten
Ist es ein Weg um die Funktion, Bedeutung aus sklearn ist GridSearchCV? Beispiel : from sklearn.model_selection import GridSearchCV print("starting grid search ......") optimized_GBM = GridSearchCV(LGBMRegressor(), params, cv=3, n_jobs=-1) # optimized_GBM.fit(tr, yvar) preds2 = optimized_GBM.predict(te) Gibt es eine
2
Antworten
Möchte ich zur Umsetzung meiner eigenen Gaussian kernel, Python, nur für die übung. Ich verwende: sklearn.svm.SVC(kernel=my_kernel) aber ich verstehe wirklich nicht, was Los ist. Ich erwarte, dass die Funktion my_kernel genannt zu werden mit den Spalten der
1
Antworten
Ich bin Recht neu bei python. Ich will KMean-code, und ich möchte zu installieren scikit-learn oder sklearn. Benutzte ich diesen code um zu versuchen diese Pakete installieren: pip install -U sklearn pip install -U scikit-learn Aber bekam
2
Antworten
Im Allgemeinen, die mean_squared_error ist je kleiner, desto besser. Wenn ich mit der sklearn Metriken Paket, heißt es in dem Dokument Seiten: http://scikit-learn.org/stable/modules/model_evaluation.html Alle scorer Objekte Folgen der Konvention, dass höhere Werte zurückgegeben werden besser als niedrigere
1
Antworten
Ich möchte zu normalisieren, ein Trainings-und test-Daten mit MinMaxScaler im sklearn.preprocessing. Das Paket wird jedoch nicht angezeigt zu werden, akzeptieren meine test-Daten. import pandas as pd import numpy as np # Read in data. df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',
2
Antworten
Ich die xgboots sklearn Schnittstelle unten zu schaffen und die Ausbildung einer xgb-Modell-1. clf = xgb.XGBClassifier(n_estimators = 100, objective= 'binary:logistic',) clf.fit(x_train, y_train, early_stopping_rounds=10, eval_metric="auc", eval_set=[(x_valid, y_valid)]) Und die xgboost Modell kann erstellt werden, indem original-xgboost als Modell-2
2
Antworten
Ich habe eine X-feature-matrix und y-label-matrix und ich bin die Benutzung mit Binär-logistischen regression wie kann ich das Gewicht Vektor w gegebenen matrix X-Funktion und Y-label-matrix. Ich bin ein bisschen verwirrt, wie Sie diese erreichen innerhalb sklean.
1
Antworten
Ich will plot in diesem Beispiel im scatter-plot : http://scikit-learn.org/dev/auto_examples/document_clustering.html#example-document-clustering-py Ich bin sklearn und numpy Neuling hier , möchte ich, um die Daten der Koordinaten der Vektoren, so kann ich den plot. EDIT: Hier ist, was ich
2
Antworten
Habe ich trainiert RandomForestClassifier von Python Sckit Lernen Modul mit sehr großen Datensatz, aber die Frage ist, wie kann ich eventuell dieses Modell speichern und lassen Sie andere Menschen wenden es auf Ihr Ende. Danke! Siehe scikit-learn.org/stable/tutorial/basic/...
2
Antworten
Im arbeiten auf eine binäre Klassifikation Modell, Klassifizierer naive bayes. Ich habe eine fast ausgeglichene dataset jedoch bekomme ich die folgende Fehlermeldung, wenn ich sage: UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in
2
Antworten
Ich wurden unter Verwendung von PCA-umgesetzt in scikit-learn. Ich möchte jedoch finden Sie die Eigenwerte und Eigenvektoren das Ergebnis, nachdem wir passen die Trainings-dataset. Es gibt keine Erwähnung der beiden in der Dokumentation. Zweitens können diese Eigenwerte
2
Antworten
Ich bin auf der Suche auf zwei Szenarien ein Modell zu bauen, mit scikit-learn und ich kann nicht herausfinden, warum einer von Ihnen ist die Rückkehr ein Resultat, das ist so grundlegend anders als die anderen. Der
1
Antworten
Ich versuche zu verstehen, wie zu Lesen grid_scores_ und ranking_ Werte in RFECV. Hier ist das wichtigste Beispiel aus der Dokumentation: from sklearn.datasets import make_friedman1 from sklearn.feature_selection import RFECV from sklearn.svm import SVR X, y = make_friedman1(n_samples=50,
1
Antworten
Lassen Sie mich diese kurze. Im Grunde, was ich wissen will ist: sollte ich das tun, pca.fit(normalize(x)) new=pca.transform(normalize(x)) oder diese pca.fit(normalize(x)) new=pca.transform(x) Ich weiß, dass sollten wir die Normalisierung unserer Daten vor der Verwendung von PCA-aber welche
1
Antworten
Habe ich Folgendes Daten: State Murder Assault UrbanPop Rape Alabama 13.200 236 58 21.200 Alaska 10.000 263 48 44.500 Arizona 8.100 294 80 31.000 Arkansas 8.800 190 50 19.500 California 9.000 276 91 40.600 Colorado 7.900 204
1
Antworten
Ich versuche, zeichnen ein Diagramm für meine Funktionen und ich bekomme immer diese Fehlermeldung: ValueError: RGBA sequence should have length 3 or 4 Den code funktionierte perfekt, wenn ich hatte nur 6 Arten von Formen, aber jetzt
2
Antworten
Trainiere ich einen Klassifizierer über tweets für sentiment-Analyse-Zwecke. Code ist der folgende: df = pd.read_csv('Trainded Dataset Sentiment.csv', error_bad_lines=False) df.head(5) #TWEET X = df[['SentimentText']].loc[2:50000] #SENTIMENT LABEL y = df[['Sentiment']].loc[2:50000] #Apply Normalizer function over the tweets X['Normalized Text'] =
3
Antworten
Ich habe code, der ausgeführt basic TF-IDF-vectorizer auf eine Sammlung von Dokumenten, die RÜCKFÜHRUNG einer sparse-matrix D X F, wobei D die Anzahl der Dokumente, und F ist die Anzahl der Begriffe. Kein problem. Aber wie finde
3
Antworten
Hey, ich bin neu in Python und ich versuche zu Folgen, zusammen mit einem tutorial, aber ich bekomme diese Fehlermeldung: NameError: name 'Baum' ist nicht definiert. Das Ziel ist es natürlich für das Programm, um festzustellen, ob
1
Antworten
Ich arbeite an einem 3D-Punkt Identifikation mit der RandomForest Methode von scikit. Eine der Fragen, die ich laufen in ist, dass bestimmte Klassen vorhanden sind, öfter als andere Klassen. Dies bedeutet, dass in den Prozess der Generierung
4
Antworten
Ich stieß zuerst auf die Antwort zu diese Frage, wo ich herausgefunden habe, brauchte ich für die Installation meines eigenen backend-framework. Seit der Antwort erwähnt, PyQt4, die ich wählte zu gehen mit diesem. Folgenden links in die
2
Antworten
Ich bin ein wenig neu hier. Ich bin mit einer einfachen Logistischen Regression, die Classifier in python scikit-learn. Ich habe 4 Funktionen. Mein code ist X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.2, random_state =
2
Antworten
Arbeite ich an einem multiclass Klassifizierung problem mit python und scikit-learn. Derzeit bin ich mit dem classification_report Funktion zu bewerten, die Leistung des Klassifizierers, die Einholung von berichten wie dem folgenden: >>> print(classification_report(y_true, y_pred, target_names=target_names)) precision recall
1
Antworten
In meinem Klassifikationsschema, gibt es mehrere Schritte, einschließlich: SCHLUG (Synthetische Minderheit Über-sampling-Technik) Fisher Kriterien für die Funktionsauswahl Standardisierung (Z-score Normalisierung) SVC (Support Vector Classifier) Die wichtigsten Parameter abgestimmt werden, im Schema oben sind die % - Perzentil
1
Antworten
Ich bin mit scikit-learn für die GMM-training und versuche zu variieren, die Anzahl der Gemisch-Komponenten per Schleife über eine Liste von Ganzzahlen. Aber wenn ich drucken meine fertigen Modelle bekomme ich nur die, die mit 3-Gemisch-Komponenten, oder
3
Antworten
Ich den folgenden code ausführen, um den text zu konvertieren matrix zu TF-IDF-matrix. text = ['This is a string','This is another string','TFIDF computation calculation','TfIDF is the product of TF and IDF'] from sklearn.feature_extraction.text import TfidfVectorizer vectorizer =
2
Antworten
Dies ist die ml tensorflow code, den ich versuche zu ausführen - import tensorflow.contrib.learn as skflow from sklearn import datasets, metrics iris = datasets.load_iris() classifier = skflow.TensorFlowDNNClassifier(hidden_units=[10, 20, 10], n_classes=3) classifier.fit(iris.data, iris.target) score = metrics.accuracy_score(iris.target, classifier.predict(iris.data)) print("Accuracy:
3
Antworten
Arbeite ich drehen, eine Liste von records mit zwei Spalten (A und B) in eine matrix-Darstellung. Ich habe bereits mit der pivot-Funktion innerhalb von pandas, aber das Ergebnis ist ziemlich groß. Tut pandas Unterstützung Einschwenken in eine
2
Antworten
Möchte ich ändern die folgenden Sätze zu Vektoren mit sklearn: Article 1. It is not good to eat pizza after midnight Article 2. I wouldn't survive a day withouth stackexchange Article 3. All of these are just
1
Antworten
Ich habe Probleme bei der Berechnung der silhouette Koeffizient in python mit sklearn. Hier ist mein code : from sklearn import datasets from sklearn.metrics import * iris = datasets.load_iris() X = pd.DataFrame(iris.data, columns = col) y =
1
Antworten
Ich bin mit Sklearn bauen eine lineare regression Modell (oder jedes andere Modell) mit den folgenden Schritten: X_train und Y_train sind die Trainingsdaten Standardisierung der Trainings-Daten X_train = preprocessing.scale(X_train) passen das Modell model.fit(X_train, Y_train) Einmal das Modell
2
Antworten
Ich bin ein Neuling in statistischen Methoden, also bitte entschuldigt eventuelle Naivität. Ich habe ein problem, das Verständnis, die Durchführung der cross-Validierung bei der Verwendung von Entscheidungsbaum-regression von sklearn (z.B. DecisionTreeRegressor und RandomForestRegressor). Mein dataset unterschiedlich aus,
2
Antworten
Ich versuche, Kette Grid Search and Recursive Feature Elimination in einer Pipeline mit scikit-learn. GridSearchCV und RFE mit der "nackten" Klassifikator gut funktioniert: from sklearn.datasets import make_friedman1 from sklearn import feature_selection from sklearn.grid_search import GridSearchCV from sklearn.svm
1
Antworten
Dokumentation hier. Frage ich mich, wie wichtig die coef0 parameter für SVCs unter der Polynom-und sigmoid Kernel. Wie ich es verstehe, es ist die intercept-Begriff, nur eine Konstante als bei der linearen regression, um den offset der
1
Antworten
Nahm ich Beispielcode von sklearn website, die tuned_parameters = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4], 'C': [1, 10, 100, 1000]}, {'kernel': ['linear'], 'C': [1, 10, 100, 1000]}] scores = [('f1', f1_score)] for score_name, score_func in scores: print "#
1
Antworten
Kann mir bitte jemand erklären (mit Beispiel vielleicht), was ist der Unterschied zwischen OneVsRestClassifier und MultiOutputClassifier in scikit-learn? Ich habe gelesen, Dokumentation und ich habe verstanden, dass wir verwenden: OneVsRestClassifier - wenn wir wollen, zu tun multiclass-oder
2
Antworten
Ich versuche, lineares Regressionsmodell für die Vorhersage der Sohn die Länge seines Vaters, Länge import numpy as np import pandas as pd from matplotlib import pyplot as plt import seaborn as sns %matplotlib inline from sklearn.linear_model import
3
Antworten
Ich versuche zu pass-Modell-Parameter als dict zu einem Scikit-learn-Schätzer und habe kein Glück. Es scheint einfach so zu verschachteln, mein dict in einer der Parameter. Zum Beispiel: params = { 'copy_X': True, 'fit_intercept': False, 'normalize': True }
2
Antworten
ich versuche zu tun, hyperparemeter Suche mit scikit-learn ist GridSearchCV auf XGBoost. Während gridsearch ich möchte es frühzeitig beenden, da es reduzieren die Suchzeit drastisch, und die (erwartet) bessere Ergebnisse auf meine Vorhersage/regression Aufgabe. Ich bin mit
1
Antworten
Ich bin den Aufbau einer kleinen neuronalen Netzes im Keras bedeutete für eine regression Aufgabe, und ich möchte das gleiche Genauigkeit Messwert als die scikit-learn RandomForestRegressor: Den Koeffizienten R^2 ist definiert als (1 - u/v), wobei u
2
Antworten
Ich bin mit input-Daten aus hier (siehe Abschnitt 3.1). Ich versuche zu reproduzieren Ihre Kovarianz-matrix, Eigenwerte und Eigenvektoren mit scikit-learn. Allerdings bin ich nicht in der Lage zu reproduzieren die Ergebnisse, wie Sie in der Datenquelle. Ich
3
Antworten
In R nach der Ausführung von "random forest" - Modell, die ich verwenden kann save.image("***.RData") zum speichern des Modells. Danach kann ich nur laden Sie das Modell, um Vorhersagen machen direkt. Können Sie tun, eine ähnliche Sache
2
Antworten
Ich versuche fit ein SGDRegressor auf meine Daten und dann überprüfen Sie die Genauigkeit. Der Beschlag funktioniert gut, aber dann die Vorhersagen sind nicht in den gleichen Datentyp(?) als das ursprüngliche Ziel-Daten, und ich bekomme die Fehlermeldung
4
Antworten
Ich bin mit scikit zur Durchführung einer logistischen regression auf spam - /ham-Daten. X_train ist meine Trainings-Daten und y_train die Etiketten('spam' oder 'ham') und ich trainierte mein LogisticRegression diese Weise: classifier = LogisticRegression() classifier.fit(X_train, y_train) Wenn ich
5
Antworten
scheint diese Frage gebeten worden war, bevor, aber ich kann nicht scheinen, um einen Kommentar für eine weitere Klärung auf die akzeptierte Antwort, und ich konnte nicht herausfinden, die Lösung bereitgestellt. Ich versuche zu lernen, wie sklearn
3
Antworten
Ich brauche, um zu berechnen, Informationen Gewinnen erreicht souverän für >100 K-Funktionen >10k Dokumente für text-Klassifikation. Der Code unten funktioniert einwandfrei, aber für den vollen Datenbestand ist sehr langsam - dauert mehr als eine Stunde auf einem
2
Antworten
Wenn Sie versuchen, um zu passen ein Random Forest Modell mit Regressor y-Daten, die wie folgt aussieht: [ 0.00000000e+00 1.36094276e+02 4.46608221e+03 8.72660888e+03 1.31375786e+04 1.73580193e+04 2.29420671e+04 3.12216341e+04 4.11395711e+04 5.07972062e+04 6.14904935e+04 7.34275322e+04 7.87333933e+04 8.46302456e+04 9.71074959e+04 1.07146672e+05 1.17187952e+05 1.26953374e+05 1.37736003e+05
2
Antworten
Habe ich eine große dataframe mit meinen Daten und einen weiteren dataframe derselben ersten dimension enthält Metadaten zu jedem Punkt in der Zeit (z.B., was trial number war es, was trial-Typ es war). Was ich will zu
1
Antworten
Was genau macht der LogisticRegression.predict_proba Funktion zurückgeben? In meinem Beispiel bekomme ich ein Ergebnis wie dieses: [[ 4.65761066e-03 9.95342389e-01] [ 9.75851270e-01 2.41487300e-02] [ 9.99983374e-01 1.66258341e-05]] Aus anderen Berechnungen, die Verwendung der sigmoid-Funktion, ich weiß, dass in der