Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

SciPy NumPy und SciKit-learn , erstellen Sie eine sparse-matrix

Anzahl der Antworten 1 Antworten
Ich versuche momentan zu klassifizieren text. Meine Datenmenge ist zu groß und so schlug hier, ich brauche für die Verwendung einer sparse matrix. Meine Frage ist jetzt, was ist der richtige Weg, um ein element hinzuzufügen, um

Einfache Vorhersage mittels linearer regression mit python

Anzahl der Antworten 3 Antworten
data2 = pd.DataFrame(data1['kwh']) data2 kwh date 2012-04-12 14:56:50 1.256400 2012-04-12 15:11:55 1.430750 2012-04-12 15:27:01 1.369910 2012-04-12 15:42:06 1.359350 2012-04-12 15:57:10 1.305680 2012-04-12 16:12:10 1.287750 2012-04-12 16:27:14 1.245970 2012-04-12 16:42:19 1.282280 2012-04-12 16:57:24 1.365710 2012-04-12 17:12:28 1.320130 2012-04-12

Spezifische Kreuzvalidierung mit Random Forest

Anzahl der Antworten 1 Antworten
Bin mit Random Forest mit scikit lernen. RF overfits die Daten und Vorhersage-Ergebnisse sind schlecht. Den overfit hängt NICHT von den Parametern der RF: NBtree, Depth_Tree Overfit geschieht mit vielen verschiedenen Parametern (Getestet über grid_search). Abhilfe zu

Mühe, die Montage einfach Daten mit MLPRegressor

Anzahl der Antworten 2 Antworten
Ich versuche aus Python und scikit-learn. Ich kann nicht MLPRegressor kommen sogar nahe an die Daten. Wo ist das denn falsch? from sklearn.neural_network import MLPRegressor import numpy as np import matplotlib.pyplot as plt x = np.arange(0.0, 1,

ValueError: negative Dimensionen sind nicht erlaubt

Anzahl der Antworten 1 Antworten
Ich bin Herumspielen mit einigen Daten aus einer Kaggle-Wettbewerb auf text_analysis, und ich bekomme immer diese eher seltsame Fehler schon im Titel beschrieben, wenn ich versuche, passen zu meinem Algorithmus. Ich sah es, und es hatte etwas

Wie fit ein Polynom-Kurve auf Daten mithilfe von scikit-learn?

Anzahl der Antworten 3 Antworten
Problem Kontext Mit scikit-learn mit Python, ich versuche, passen eine quadratische Polynom-Kurve, um einen Satz von Daten, so dass das Modell wäre von der form y = a2x^2 + a1x + a0 und die an Koeffizienten werden

Wie zu verwenden Isolierung Wald

Anzahl der Antworten 2 Antworten
Ich versuche zu erkennen, die Ausreißer zu meinen Daten und ich finde die sklearn ist Isolierung Wald. Ich kann nicht verstehen, wie mit ihm zu arbeiten. Ich passe meine Trainings-Daten und es gibt mir wieder einen Vektor

Umsetzung K-Nachbarn Klassifikatoren in scikit-learn mit 3-Funktion pro Objekt

Anzahl der Antworten 1 Antworten
Ich würde am Liebsten ein KNeighborsClassifier mit scikit-learn-Modul (http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) Rufe ich von meinem Bild Festigkeit, Dehnung und Humoments Funktionen. Wie bereite ich diese Daten für das training und die Validierung? Ich muss eine Liste erstellen, mit den

Laden Sie einen Datensatz aus der Datei, zur Verwendung mit sklearn

Anzahl der Antworten 1 Antworten
Ich sah, dass mit sklearn wir können einige vordefinierte datasets, zum Beispiel mydataset = datasets.load_digits() die wir bekommen können ein array (ein numpy-array?) der Datensatz mydataset.data und ein array mit den entsprechenden Etiketten mydataset.target. Aber ich möchte

Random Forest mit GridSearchCV - Fehler, die auf param_grid

Anzahl der Antworten 2 Antworten
Ich versuche zu erstellen, ein Random Forest Modell mit GridSearchCV aber bin immer ein Fehler in Bezug auf param_grid: "ValueError: Invalid parameter max_features für Schätzer Pipeline. Überprüfen Sie die Liste der verfügbaren Parameter mit ` - Schätzer.get_params().keys()".

Scikit-Learn der Linearen Regression, wie man Koeffizienten der jeweiligen Funktionen?

Anzahl der Antworten 5 Antworten
Ich versuche, führen Sie Funktion " Auswahl durch die Auswertung meiner regressions-Koeffizient-Ausgänge, und wählen Sie die Funktionen mit der höchsten Ausmaß-Koeffizienten. Das problem ist, ich weiß nicht, wie man die jeweiligen Funktionen, als nur die Koeffizienten sind

sklearn geschichtete Stichprobe basierend auf einer Spalte

Anzahl der Antworten 2 Antworten
Ich habe eine ziemlich große CSV-Datei mit amazon prüfen Sie die Daten, die ich gelesen habe in einem Pandabären-Daten-frame. Ich möchte teilen Sie die Daten 80-20(Zug-test), aber dabei möchte ich sicherstellen, dass die geteilten Daten ist proportional

scikit lernen, output-Metriken.classification_report in CSV/tab-delimited-format

Anzahl der Antworten 13 Antworten
Mache ich eine multiclass text Einstufung in Scikit-Learn. Das dataset ist ausgebildet, mit dem Multinomial Naive Bayes-Klassifikator, dass Hunderte von Etiketten. Hier ist ein Auszug aus dem Scikit Lernen, Skript für die Montage des MNB-Modell from __future__

CountVectorizer: Wortschatz war nicht eingebaut

Anzahl der Antworten 1 Antworten
Ich instanziiert ein sklearn.feature_extraction.text.CountVectorizer - Objekt durch übergabe eines Vokabulars durch die vocabulary argument, aber ich bekomme sklearn.utils.validation.NotFittedError: CountVectorizer - Vocabulary wasn't fitted. Fehlermeldung. Warum? Beispiel: import sklearn.feature_extraction import numpy as np import pickle # Save the

python - TypeError: nicht zu bestellen-Arten: str () - > float()

Anzahl der Antworten 1 Antworten
ich habe eine csv-Datei und hat v3 Spalte, aber diese Spalte hat einige 'nan' Zeilen. Wie kann ich mit Ausnahme der Zeilen. dataset = pd.read_csv('mypath') enc = LabelEncoder() enc.fit(dataset['v3']) print('fitting') dataset['v3'] = enc.transform(dataset['v3']) print('transforming') print(dataset['v3']) print('end') Edit:

Funktion Bedeutung mit XGBClassifier

Anzahl der Antworten 4 Antworten
Hoffentlich lese ich das falsch, aber in der XGBoost Bibliothek Dokumentation, es ist Hinweis der Extraktion der feature-Wichtigkeit-Attribute mit feature_importances_ viel wie sklearn den random forest. Jedoch, aus irgendeinem Grund, ich bekomme immer diese Fehlermeldung: AttributeError: 'XGBClassifier'

Fine-tuning-Parameter in der Logistischen Regression

Anzahl der Antworten 2 Antworten
Ich bin mit eine Logistische regression mit einem tf-idf-Wesen lief auf eine text-Spalte. Dies ist die einzige Spalte, die ich in meiner logistischen regression. Wie kann ich überprüfen, ob die Parameter für diese abgestimmt sind, so gut

hinzufügen von Wörtern zu stop_words Liste in TfidfVectorizer in sklearn

Anzahl der Antworten 2 Antworten
Möchte ich hinzufügen, ein paar mehr Worte zu stop_words in TfidfVectorizer. Ich habe die Lösung in Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste . Meine stop-word-Liste enthält nun sowohl "Englisch" stop-Wörter und die stop-Wörter, die ich

Wie funktioniert sklearn random forest index feature_importances_

Anzahl der Antworten 3 Antworten
Habe ich die RandomForestClassifier in sklearn für die Bestimmung der wichtigsten Funktionen in meinem dataset. Wie bin ich in der Lage, zurückzukehren, die eigentliche feature-Namen (meine Variablen sind mit x1, x2, x3, etc.) eher als relative Namen

Wie ist scikit-learn cross_val_predict Genauigkeit score berechnet?

Anzahl der Antworten 4 Antworten
Macht die cross_val_predict (siehe doc, v0.18) mit k-Falten-Methode, wie im code gezeigt unten Genauigkeit berechnen für jede Falte und Durchschnitt Sie endlich oder nicht? cv = KFold(len(labels), n_folds=20) clf = SVC() ypred = cross_val_predict(clf, td, labels, cv=cv)

Wie finden Sie die features, die Namen der Koeffizienten mit scikit lineare regression?

Anzahl der Antworten 4 Antworten
#training the model model_1_features = ['sqft_living', 'bathrooms', 'bedrooms', 'lat', 'long'] model_2_features = model_1_features + ['bed_bath_rooms'] model_3_features = model_2_features + ['bedrooms_squared', 'log_sqft_living', 'lat_plus_long'] model_1 = linear_model.LinearRegression() model_1.fit(train_data[model_1_features], train_data['price']) model_2 = linear_model.LinearRegression() model_2.fit(train_data[model_2_features], train_data['price']) model_3 = linear_model.LinearRegression() model_3.fit(train_data[model_3_features], train_data['price'])

TypeError: sparse matrix Länge ist zweideutig; verwenden getnnz() oder shape[0], während mit RF-Klassifikator?

Anzahl der Antworten 2 Antworten
Lerne ich über random forests in scikit lernen und als ein Beispiel möchte ich nutzen, Random forest Klassifikator für text-Klassifikation, mit meiner eigenen Datensatz. Also erstmal ich vektorisierter text mit tfidf und für die Einstufung: from sklearn.ensemble

Immer PyCharm zu importieren sklearn

Anzahl der Antworten 5 Antworten
Anfänger hier. Ich versuche zu verwenden sklearn im pycharm. Beim importieren sklearn bekomme ich eine Fehlermeldung, die lautet: "Import error: No module named sklearn" Das Projekt Dolmetscher in pycharm eingestellt ist 2.7.10 (/anaconda/bin/python.app), das sollte die richtige

Stratified Sampling in Pandas

Anzahl der Antworten 3 Antworten
Habe ich mir angeschaut, die Sklearn stratified sampling-docs sowie die pandas-docs und auch Geschichtete Stichproben von Pandas und sklearn geschichtete Stichprobe basierend auf einer Spalte aber das tun Sie nicht, dieses Problem anzugehen. Im-suchen nach einer schnellen

plot ein Dokument tfidf 2D-Grafik

Anzahl der Antworten 2 Antworten
Ich würde gerne ein 2d-plot Graphen mit der x-Achse als Begriff-und y-Achse als TFIDF-score (oder Dokument-id) für meine Liste von Sätzen. Ich verwendet scikit lernen ist fit_transform (), um die scipy-matrix, aber ich weiß nicht, wie Sie

So erhöhen Sie die Genauigkeit der Modelle der logistischen regression in Scikit python?

Anzahl der Antworten 1 Antworten
Ich versuche, vorherzusagen, die zugeben, variable Prädiktoren wie gre,gpa und Reihen.Aber die Vorhersage-Genauigkeit ist sehr weniger(0.66).Das dataset wird unten gegeben. https://gist.github.com/abyalias/3de80ab7fb93dcecc565cee21bd9501a Bitte einen der folgenden codes: In[73]: data.head(20) Out[73]: admit gre gpa rank_2 rank_3 rank_4 0 0

Scikit-learn χ2 (chi-Quadrat) - Statistik und entsprechende Kontingenz-Tabelle

Anzahl der Antworten 2 Antworten
In der Dokumentation für den chi-Quadrat-univariate Funktion Auswahl der Funktion scikit-learn http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html, heißt es Diese Kerbe kann benutzt werden, um wählen Sie die n_features features mit die höchsten Werte für das χ2 (chi-Quadrat) Statistik von X, die

LInearSVC vs. SVC(kernel='linear'): Widersprüchliche Argumente?

Anzahl der Antworten 2 Antworten
Aus meiner Forschung, fand ich drei widersprüchliche Ergebnisse: SVC(kernel="linear") ist besser LinearSVC ist besser Egal Kann mir jemand erklären, Wann LinearSVC vs. SVC(kernel="linear")? Wie es scheint, LinearSVC ist geringfügig besser als SVC und ist in der Regel

Kann jemand mir erklären StandardScaler?

Anzahl der Antworten 7 Antworten
Ich bin nicht in der Lage zu verstehen, die Seite der StandardScaler in der Dokumentation von sklearn. Kann mir jemand erklären, dies für mich in einfachen Worten? könnten Sie bitte akzeptieren jemand die Antwort, wenn Ihre Frage

sklearn: wie man die Koeffizienten der Polynom-Funktionen

Anzahl der Antworten 2 Antworten
Ich weiß, dass es möglich ist, um die Polynom-Funktionen, wie zahlen per: polynomial_features.transform(X). Nach der Handbuch, für einen Grad von zwei der features sind: [1, a, b, a^2, ab, b^2]. Aber wie bekomme ich eine Beschreibung der

ImportError: No module named sklearn (Python)

Anzahl der Antworten 3 Antworten
Ich verwenden möchte, scikit-learn. Ich habe eingegeben pip install -U scikit-learn pip3 install sklearn um es zu installieren; aber wenn ich $ Python >>> import sklearn gibt es ImportError: No module named sklearn Folgte ich andere tutorials,

Keras - How zur Durchführung einer Vorhersage unter Verwendung KerasRegressor?

Anzahl der Antworten 3 Antworten
Ich bin neu auf der Maschine lernen, und ich bin versucht zu behandeln Keras zum durchführen von regression-Aufgaben. Ich habe Erfahrung in diesem code, basierend auf diese Beispiel. X = df[['full_sq','floor','build_year','num_room','sub_area_2','sub_area_3','state_2.0','state_3.0','state_4.0']] y = df['price_doc'] X = np.asarray(X)

Wie zu tun Diskretisierung von kontinuierlichen Attributen in sklearn?

Anzahl der Antworten 4 Antworten
Meine Daten bestehen aus einem mix aus kontinuierlichen und kategorischen Eigenschaften. Unten ist ein kleines snippet, wie meine Daten Aussehen in das csv-format (Betrachten Sie es als Daten, die durch ein super-store-Kette, betreibt Filialen in verschiedenen Städten)

sklearn GridSearchCV mit Pipeline

Anzahl der Antworten 2 Antworten
Ich bin neu sklearn's Pipeline und GridSearchCV Funktionen. Ich bin versucht, bauen eine pipeline, die erste hat RandomizedPCA auf mein training Daten und dann passt ein ridge-regression-Modell. Hier ist mein code: pca = RandomizedPCA(1000, whiten=True) rgn =

Wie ist der R2-Wert in Scikit erfahren Sie berechnet?

Anzahl der Antworten 2 Antworten
R^2-Wert zurückgegeben scikit lernen (metrics.r2_score()) kann negativ sein. Die docs sagen: "Im Gegensatz zu den meisten anderen erzielt, R2-score negativ werden kann (es müssen nicht eigentlich ist das Quadrat einer Menge R)." Jedoch die wikipedia-Artikel auf R^2

sklearn selectKbest: die Variablen wurden gewählt?

Anzahl der Antworten 3 Antworten
Ich versuche sklearn, wählen Sie die beste k Variablen (zum Beispiel k=1) für eine lineare regression. Dies funktioniert und ich kann die R-Quadrat, aber es tut mir nicht sagen, welche Variablen die besten waren. Wie kann ich

hinzufügen Wortstamm Unterstützung CountVectorizer (sklearn)

Anzahl der Antworten 3 Antworten
Ich versuche, fügen Sie Wortstamm zu meiner pipeline in NLP mit sklearn. from nltk.stem.snowball import FrenchStemmer stop = stopwords.words('french') stemmer = FrenchStemmer() class StemmedCountVectorizer(CountVectorizer): def __init__(self, stemmer): super(StemmedCountVectorizer, self).__init__() self.stemmer = stemmer def build_analyzer(self): analyzer = super(StemmedCountVectorizer,

ValueError: Einstellung der ein array-element mit einer Sequenz. während der Verwendung von SVM in scikit-learn

Anzahl der Antworten 3 Antworten
Ich habe auf scikit-learn SVMs für eine binäre Klassifikation problem. Ich habe berechnet, die Funktionen von audio-Dateien und schrieb Sie in eine CSV-Datei. Dies ist, wie jede Zeile in einer CSV-Datei sieht wie folgt aus: "13_10 The

label-encoder-Kodierung fehlende Werte

Anzahl der Antworten 8 Antworten
Ich bin mit label-encoder zum konvertieren von kategorischen Daten in numerische Werte. Wie funktioniert LabelEncoder behandelt fehlende Werte? from sklearn.preprocessing import LabelEncoder import pandas as pd import numpy as np a = pd.DataFrame(['A','B','C',np.nan,'D','A']) le = LabelEncoder() le.fit_transform(a)

Wie codieren Sie eine kategoriale variable in sklearn?

Anzahl der Antworten 3 Antworten
Ich versuche, die Auto-Auswertung Datensatz aus dem UCI-repository, und ich Frage mich, ob es ist ein bequemer Weg, um beispielsweise binarisieren kategorischen Variablen in sklearn. Ein Ansatz wäre, um die DictVectorizer von LabelBinarizer aber hier bin ich

Missing value imputation in python mittels KNN

Anzahl der Antworten 2 Antworten
Ich habe einen Datensatz, der wie folgt aussieht 1908 January 5.0 -1.4 1908 February 7.3 1.9 1908 March 6.2 0.3 1908 April NaN 2.1 1908 May NaN 7.7 1908 June 17.7 8.7 1908 July NaN 11.0 1908

Werten Sie mehrere Werte auf sklearn cross_val_score

Anzahl der Antworten 2 Antworten
Ich versuche zu bewerten, multiple machine-learning-algorithmen mit sklearn für ein paar Metriken (accuracy, recall, Präzision und vielleicht auch mehr). Für das, was ich verstanden habe aus den Unterlagen, die hier und aus dem Quellcode(ich bin mit sklearn

Vorbereiten der Daten für die text-Klassifizierung mit Scikit Lernen SVM

Anzahl der Antworten 1 Antworten
Ich versuche zu gelten SVM von Scikit lernen zu klassifizieren, die tweets, die ich gesammelt. Also, es gibt zwei Kategorien, nennen Sie A und B. Jetzt habe ich alle tweets kategorisiert in zwei text-Datei', 'A.txt' und 'B.txt'.

Mit der predict_proba () - Funktion von RandomForestClassifier in das sichere und richtige Weg

Anzahl der Antworten 2 Antworten
Ich bin mit Scikit-learn anwenden machine-learning-Algorithmus auf meine datasets. Manchmal muss ich die Wahrscheinlichkeiten von Etiketten/Klassen stiftete der Bezeichnungen/Klassen selbst. Anstatt Spam/Nicht-Spam als Etiketten von E-Mails, ich möchte nur zum Beispiel: 0.78 Wahrscheinlichkeit einer bestimmten E-Mail ist

Ist ein countvectorizer das gleiche wie tfidfvectorizer mit use_idf=false?

Anzahl der Antworten 2 Antworten
Als der Titel besagt: ein countvectorizer das gleiche wie tfidfvectorizer mit use_idf=false ? Wenn nicht, warum nicht ? So bedeutet das auch, dass das hinzufügen der tfidftransformer hier überflüssig ist ? vect = CountVectorizer(min_df=1) tweets_vector = vect.fit_transform(corpus)

Was ist die Bedeutung des nu-parameter in Scikit-Learn der SVM Klasse?

Anzahl der Antworten 2 Antworten
Ich bin nach dem Beispiel, dargestellt in http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-py, wo ein one-class-SVM verwendet wird, für die Anomalie-Erkennung. Nun, dies kann eine notation eindeutig zu scikit-learn, aber ich konnte nicht finden eine Erklärung, wie der parameter nu gegeben, um

Multivariate/Multiple Lineare Regression in Scikit Lernen?

Anzahl der Antworten 1 Antworten
Ich habe ein dataset (dataTrain.csv & dataTest.csv).csv-Datei mit diesem format: Temperature(K),Pressure(ATM),CompressibilityFactor(Z) 273.1,24.675,0.806677258 313.1,24.675,0.888394713 ...,...,... Bauen regression-Modell und die Vorhersage mit diesem code: import pandas as pd from sklearn import linear_model dataTrain = pd.read_csv("dataTrain.csv") dataTest = pd.read_csv("dataTest.csv") #

Deprecation Warnungen von sklearn

Anzahl der Antworten 2 Antworten
Ich bin mit cross_validation aus sklearn, from sklearn.cross_validation import train_test_split Ich bekomme die folgende Warnung: cross_validation.py:44: DeprecationWarning: Dieses Modul wurde als veraltet markiert in der version 0.18 Gunsten der model_selection Modul, in dem alle die umgestalteten Klassen

Was ist das python äquivalent zu R NA?

Anzahl der Antworten 3 Antworten
Was ist das python äquivalent R die NA? Um genauer zu sein: R NaN, NA, NULL, - Inf und -Inf. NA ist in der Regel verwendet, wenn Daten fehlende. Was ist das python äquivalent? Wie Bibliotheken wie

Regression trees Random oder Wald regressor mit kategorischen Eingänge

Anzahl der Antworten 2 Antworten
Ich habe versucht, einen kategorischen inpust in eine regression Baum (oder Random Forest Regressor) aber sklearn hält Fehler zurückgeben und bitten für numerische Eingaben. import sklearn as sk MODEL = sk.ensemble.RandomForestRegressor(n_estimators=100) MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4]) # does not work