Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

SciPy NumPy und SciKit-learn , erstellen Sie eine sparse-matrix

1 Antworten

Ich versuche momentan zu klassifizieren text. Meine Datenmenge ist zu groß und so schlug hier, ich brauche für die Verwendung einer sparse matrix. Meine Frage ist jetzt, was ist der richtige Weg, um ein element hinzuzufügen, um

Einfache Vorhersage mittels linearer regression mit python

3 Antworten

data2 = pd.DataFrame(data1['kwh']) data2 kwh date 2012-04-12 14:56:50 1.256400 2012-04-12 15:11:55 1.430750 2012-04-12 15:27:01 1.369910 2012-04-12 15:42:06 1.359350 2012-04-12 15:57:10 1.305680 2012-04-12 16:12:10 1.287750 2012-04-12 16:27:14 1.245970 2012-04-12 16:42:19 1.282280 2012-04-12 16:57:24 1.365710 2012-04-12 17:12:28 1.320130 2012-04-12

linear-regression python scikit-learn

Spezifische Kreuzvalidierung mit Random Forest

1 Antworten

Bin mit Random Forest mit scikit lernen. RF overfits die Daten und Vorhersage-Ergebnisse sind schlecht. Den overfit hängt NICHT von den Parametern der RF: NBtree, Depth_Tree Overfit geschieht mit vielen verschiedenen Parametern (Getestet über grid_search). Abhilfe zu

scikit-learn

Mühe, die Montage einfach Daten mit MLPRegressor

2 Antworten

Ich versuche aus Python und scikit-learn. Ich kann nicht MLPRegressor kommen sogar nahe an die Daten. Wo ist das denn falsch? from sklearn.neural_network import MLPRegressor import numpy as np import matplotlib.pyplot as plt x = np.arange(0.0, 1,

neural-network python scikit-learn

ValueError: negative Dimensionen sind nicht erlaubt

1 Antworten

Ich bin Herumspielen mit einigen Daten aus einer Kaggle-Wettbewerb auf text_analysis, und ich bekomme immer diese eher seltsame Fehler schon im Titel beschrieben, wenn ich versuche, passen zu meinem Algorithmus. Ich sah es, und es hatte etwas

machine-learning numpy python scikit-learn

Wie fit ein Polynom-Kurve auf Daten mithilfe von scikit-learn?

3 Antworten

Problem Kontext Mit scikit-learn mit Python, ich versuche, passen eine quadratische Polynom-Kurve, um einen Satz von Daten, so dass das Modell wäre von der form y = a2x^2 + a1x + a0 und die an Koeffizienten werden

machine-learning numpy python regression scikit-learn

Wie zu verwenden Isolierung Wald

2 Antworten

Ich versuche zu erkennen, die Ausreißer zu meinen Daten und ich finde die sklearn ist Isolierung Wald. Ich kann nicht verstehen, wie mit ihm zu arbeiten. Ich passe meine Trainings-Daten und es gibt mir wieder einen Vektor

machine-learning outliers python scikit-learn

Umsetzung K-Nachbarn Klassifikatoren in scikit-learn mit 3-Funktion pro Objekt

1 Antworten

Ich würde am Liebsten ein KNeighborsClassifier mit scikit-learn-Modul (http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) Rufe ich von meinem Bild Festigkeit, Dehnung und Humoments Funktionen. Wie bereite ich diese Daten für das training und die Validierung? Ich muss eine Liste erstellen, mit den

classification machine-learning nearest-neighbor python scikit-learn

Laden Sie einen Datensatz aus der Datei, zur Verwendung mit sklearn

1 Antworten

Ich sah, dass mit sklearn wir können einige vordefinierte datasets, zum Beispiel mydataset = datasets.load_digits() die wir bekommen können ein array (ein numpy-array?) der Datensatz mydataset.data und ein array mit den entsprechenden Etiketten mydataset.target. Aber ich möchte

dataset python scikit-learn

Random Forest mit GridSearchCV - Fehler, die auf param_grid

2 Antworten

Ich versuche zu erstellen, ein Random Forest Modell mit GridSearchCV aber bin immer ein Fehler in Bezug auf param_grid: "ValueError: Invalid parameter max_features für Schätzer Pipeline. Überprüfen Sie die Liste der verfügbaren Parameter mit ` - Schätzer.get_params().keys()".

grid-search python random-forest scikit-learn

Scikit-Learn der Linearen Regression, wie man Koeffizienten der jeweiligen Funktionen?

5 Antworten

Ich versuche, führen Sie Funktion " Auswahl durch die Auswertung meiner regressions-Koeffizient-Ausgänge, und wählen Sie die Funktionen mit der höchsten Ausmaß-Koeffizienten. Das problem ist, ich weiß nicht, wie man die jeweiligen Funktionen, als nur die Koeffizienten sind

feature-selection linear-regression scikit-learn

sklearn geschichtete Stichprobe basierend auf einer Spalte

2 Antworten

Ich habe eine ziemlich große CSV-Datei mit amazon prüfen Sie die Daten, die ich gelesen habe in einem Pandabären-Daten-frame. Ich möchte teilen Sie die Daten 80-20(Zug-test), aber dabei möchte ich sicherstellen, dass die geteilten Daten ist proportional

pandas python scikit-learn sklearn-pandas

scikit lernen, output-Metriken.classification_report in CSV/tab-delimited-format

13 Antworten

Mache ich eine multiclass text Einstufung in Scikit-Learn. Das dataset ist ausgebildet, mit dem Multinomial Naive Bayes-Klassifikator, dass Hunderte von Etiketten. Hier ist ein Auszug aus dem Scikit Lernen, Skript für die Montage des MNB-Modell from __future__

classification machine-learning python scikit-learn text

CountVectorizer: Wortschatz war nicht eingebaut

1 Antworten

Ich instanziiert ein sklearn.feature_extraction.text.CountVectorizer - Objekt durch übergabe eines Vokabulars durch die vocabulary argument, aber ich bekomme sklearn.utils.validation.NotFittedError: CountVectorizer - Vocabulary wasn't fitted. Fehlermeldung. Warum? Beispiel: import sklearn.feature_extraction import numpy as np import pickle # Save the

nlp python scikit-learn

python - TypeError: nicht zu bestellen-Arten: str () - > float()

1 Antworten

ich habe eine csv-Datei und hat v3 Spalte, aber diese Spalte hat einige 'nan' Zeilen. Wie kann ich mit Ausnahme der Zeilen. dataset = pd.read_csv('mypath') enc = LabelEncoder() enc.fit(dataset['v3']) print('fitting') dataset['v3'] = enc.transform(dataset['v3']) print('transforming') print(dataset['v3']) print('end') Edit:

machine-learning pandas python python-3.x scikit-learn

Funktion Bedeutung mit XGBClassifier

4 Antworten

Hoffentlich lese ich das falsch, aber in der XGBoost Bibliothek Dokumentation, es ist Hinweis der Extraktion der feature-Wichtigkeit-Attribute mit feature_importances_ viel wie sklearn den random forest. Jedoch, aus irgendeinem Grund, ich bekomme immer diese Fehlermeldung: AttributeError: 'XGBClassifier'

python scikit-learn xgboost

Fine-tuning-Parameter in der Logistischen Regression

2 Antworten

Ich bin mit eine Logistische regression mit einem tf-idf-Wesen lief auf eine text-Spalte. Dies ist die einzige Spalte, die ich in meiner logistischen regression. Wie kann ich überprüfen, ob die Parameter für diese abgestimmt sind, so gut

artificial-intelligence machine-learning numpy python scikit-learn

hinzufügen von Wörtern zu stop_words Liste in TfidfVectorizer in sklearn

2 Antworten

Möchte ich hinzufügen, ein paar mehr Worte zu stop_words in TfidfVectorizer. Ich habe die Lösung in Hinzufügen von Wörtern zu scikit-learn ist CountVectorizer stop-Liste . Meine stop-word-Liste enthält nun sowohl "Englisch" stop-Wörter und die stop-Wörter, die ich

classification python scikit-learn stop-words text-classification

Wie funktioniert sklearn random forest index feature_importances_

3 Antworten

Habe ich die RandomForestClassifier in sklearn für die Bestimmung der wichtigsten Funktionen in meinem dataset. Wie bin ich in der Lage, zurückzukehren, die eigentliche feature-Namen (meine Variablen sind mit x1, x2, x3, etc.) eher als relative Namen

feature-selection python random-forest scikit-learn

Wie ist scikit-learn cross_val_predict Genauigkeit score berechnet?

4 Antworten

Macht die cross_val_predict (siehe doc, v0.18) mit k-Falten-Methode, wie im code gezeigt unten Genauigkeit berechnen für jede Falte und Durchschnitt Sie endlich oder nicht? cv = KFold(len(labels), n_folds=20) clf = SVC() ypred = cross_val_predict(clf, td, labels, cv=cv)

cross-validation python scikit-learn

Wie finden Sie die features, die Namen der Koeffizienten mit scikit lineare regression?

4 Antworten

#training the model model_1_features = ['sqft_living', 'bathrooms', 'bedrooms', 'lat', 'long'] model_2_features = model_1_features + ['bed_bath_rooms'] model_3_features = model_2_features + ['bedrooms_squared', 'log_sqft_living', 'lat_plus_long'] model_1 = linear_model.LinearRegression() model_1.fit(train_data[model_1_features], train_data['price']) model_2 = linear_model.LinearRegression() model_2.fit(train_data[model_2_features], train_data['price']) model_3 = linear_model.LinearRegression() model_3.fit(train_data[model_3_features], train_data['price'])

linear-regression machine-learning python scikit-learn

TypeError: sparse matrix Länge ist zweideutig; verwenden getnnz() oder shape[0], während mit RF-Klassifikator?

2 Antworten

Lerne ich über random forests in scikit lernen und als ein Beispiel möchte ich nutzen, Random forest Klassifikator für text-Klassifikation, mit meiner eigenen Datensatz. Also erstmal ich vektorisierter text mit tfidf und für die Einstufung: from sklearn.ensemble

machine-learning nlp numpy python scikit-learn

Immer PyCharm zu importieren sklearn

5 Antworten

Anfänger hier. Ich versuche zu verwenden sklearn im pycharm. Beim importieren sklearn bekomme ich eine Fehlermeldung, die lautet: "Import error: No module named sklearn" Das Projekt Dolmetscher in pycharm eingestellt ist 2.7.10 (/anaconda/bin/python.app), das sollte die richtige

anaconda python python-import scikit-learn

Stratified Sampling in Pandas

3 Antworten

Habe ich mir angeschaut, die Sklearn stratified sampling-docs sowie die pandas-docs und auch Geschichtete Stichproben von Pandas und sklearn geschichtete Stichprobe basierend auf einer Spalte aber das tun Sie nicht, dieses Problem anzugehen. Im-suchen nach einer schnellen

numpy pandas python scikit-learn

plot ein Dokument tfidf 2D-Grafik

2 Antworten

Ich würde gerne ein 2d-plot Graphen mit der x-Achse als Begriff-und y-Achse als TFIDF-score (oder Dokument-id) für meine Liste von Sätzen. Ich verwendet scikit lernen ist fit_transform (), um die scipy-matrix, aber ich weiß nicht, wie Sie

k-means numpy python scikit-learn scipy

So erhöhen Sie die Genauigkeit der Modelle der logistischen regression in Scikit python?

1 Antworten

Ich versuche, vorherzusagen, die zugeben, variable Prädiktoren wie gre,gpa und Reihen.Aber die Vorhersage-Genauigkeit ist sehr weniger(0.66).Das dataset wird unten gegeben. https://gist.github.com/abyalias/3de80ab7fb93dcecc565cee21bd9501a Bitte einen der folgenden codes: In[73]: data.head(20) Out[73]: admit gre gpa rank_2 rank_3 rank_4 0 0

logistic-regression machine-learning python regression scikit-learn

Scikit-learn χ2 (chi-Quadrat) - Statistik und entsprechende Kontingenz-Tabelle

2 Antworten

In der Dokumentation für den chi-Quadrat-univariate Funktion Auswahl der Funktion scikit-learn http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html, heißt es Diese Kerbe kann benutzt werden, um wählen Sie die n_features features mit die höchsten Werte für das χ2 (chi-Quadrat) Statistik von X, die

machine-learning numpy python scikit-learn statistics

LInearSVC vs. SVC(kernel='linear'): Widersprüchliche Argumente?

2 Antworten

Aus meiner Forschung, fand ich drei widersprüchliche Ergebnisse: SVC(kernel="linear") ist besser LinearSVC ist besser Egal Kann mir jemand erklären, Wann LinearSVC vs. SVC(kernel="linear")? Wie es scheint, LinearSVC ist geringfügig besser als SVC und ist in der Regel

machine-learning scikit-learn svm

Kann jemand mir erklären StandardScaler?

7 Antworten

Ich bin nicht in der Lage zu verstehen, die Seite der StandardScaler in der Dokumentation von sklearn. Kann mir jemand erklären, dies für mich in einfachen Worten? könnten Sie bitte akzeptieren jemand die Antwort, wenn Ihre Frage

machine-learning python scaling scikit-learn standardized

sklearn: wie man die Koeffizienten der Polynom-Funktionen

2 Antworten

Ich weiß, dass es möglich ist, um die Polynom-Funktionen, wie zahlen per: polynomial_features.transform(X). Nach der Handbuch, für einen Grad von zwei der features sind: [1, a, b, a^2, ab, b^2]. Aber wie bekomme ich eine Beschreibung der

python scikit-learn

ImportError: No module named sklearn (Python)

3 Antworten

Ich verwenden möchte, scikit-learn. Ich habe eingegeben pip install -U scikit-learn pip3 install sklearn um es zu installieren; aber wenn ich $ Python >>> import sklearn gibt es ImportError: No module named sklearn Folgte ich andere tutorials,

macos python scikit-learn

Keras - How zur Durchführung einer Vorhersage unter Verwendung KerasRegressor?

3 Antworten

Ich bin neu auf der Maschine lernen, und ich bin versucht zu behandeln Keras zum durchführen von regression-Aufgaben. Ich habe Erfahrung in diesem code, basierend auf diese Beispiel. X = df[['full_sq','floor','build_year','num_room','sub_area_2','sub_area_3','state_2.0','state_3.0','state_4.0']] y = df['price_doc'] X = np.asarray(X)

keras machine-learning neural-network regression scikit-learn

Wie zu tun Diskretisierung von kontinuierlichen Attributen in sklearn?

4 Antworten

Meine Daten bestehen aus einem mix aus kontinuierlichen und kategorischen Eigenschaften. Unten ist ein kleines snippet, wie meine Daten Aussehen in das csv-format (Betrachten Sie es als Daten, die durch ein super-store-Kette, betreibt Filialen in verschiedenen Städten)

discretization scikit-learn

sklearn GridSearchCV mit Pipeline

2 Antworten

Ich bin neu sklearn's Pipeline und GridSearchCV Funktionen. Ich bin versucht, bauen eine pipeline, die erste hat RandomizedPCA auf mein training Daten und dann passt ein ridge-regression-Modell. Hier ist mein code: pca = RandomizedPCA(1000, whiten=True) rgn =

python scikit-learn

Wie ist der R2-Wert in Scikit erfahren Sie berechnet?

2 Antworten

R^2-Wert zurückgegeben scikit lernen (metrics.r2_score()) kann negativ sein. Die docs sagen: "Im Gegensatz zu den meisten anderen erzielt, R2-score negativ werden kann (es müssen nicht eigentlich ist das Quadrat einer Menge R)." Jedoch die wikipedia-Artikel auf R^2

machine-learning python scikit-learn statistics

sklearn selectKbest: die Variablen wurden gewählt?

3 Antworten

Ich versuche sklearn, wählen Sie die beste k Variablen (zum Beispiel k=1) für eine lineare regression. Dies funktioniert und ich kann die R-Quadrat, aber es tut mir nicht sagen, welche Variablen die besten waren. Wie kann ich

python scikit-learn

hinzufügen Wortstamm Unterstützung CountVectorizer (sklearn)

3 Antworten

Ich versuche, fügen Sie Wortstamm zu meiner pipeline in NLP mit sklearn. from nltk.stem.snowball import FrenchStemmer stop = stopwords.words('french') stemmer = FrenchStemmer() class StemmedCountVectorizer(CountVectorizer): def __init__(self, stemmer): super(StemmedCountVectorizer, self).__init__() self.stemmer = stemmer def build_analyzer(self): analyzer = super(StemmedCountVectorizer,

nlp python scikit-learn

ValueError: Einstellung der ein array-element mit einer Sequenz. während der Verwendung von SVM in scikit-learn

3 Antworten

Ich habe auf scikit-learn SVMs für eine binäre Klassifikation problem. Ich habe berechnet, die Funktionen von audio-Dateien und schrieb Sie in eine CSV-Datei. Dies ist, wie jede Zeile in einer CSV-Datei sieht wie folgt aus: "13_10 The

arrays csv python-2.7 scikit-learn svm

label-encoder-Kodierung fehlende Werte

8 Antworten

Ich bin mit label-encoder zum konvertieren von kategorischen Daten in numerische Werte. Wie funktioniert LabelEncoder behandelt fehlende Werte? from sklearn.preprocessing import LabelEncoder import pandas as pd import numpy as np a = pd.DataFrame(['A','B','C',np.nan,'D','A']) le = LabelEncoder() le.fit_transform(a)

pandas python scikit-learn

Wie codieren Sie eine kategoriale variable in sklearn?

3 Antworten

Ich versuche, die Auto-Auswertung Datensatz aus dem UCI-repository, und ich Frage mich, ob es ist ein bequemer Weg, um beispielsweise binarisieren kategorischen Variablen in sklearn. Ein Ansatz wäre, um die DictVectorizer von LabelBinarizer aber hier bin ich

machine-learning python scikit-learn

Missing value imputation in python mittels KNN

2 Antworten

Ich habe einen Datensatz, der wie folgt aussieht 1908 January 5.0 -1.4 1908 February 7.3 1.9 1908 March 6.2 0.3 1908 April NaN 2.1 1908 May NaN 7.7 1908 June 17.7 8.7 1908 July NaN 11.0 1908

knn python scikit-learn

Werten Sie mehrere Werte auf sklearn cross_val_score

2 Antworten

Ich versuche zu bewerten, multiple machine-learning-algorithmen mit sklearn für ein paar Metriken (accuracy, recall, Präzision und vielleicht auch mehr). Für das, was ich verstanden habe aus den Unterlagen, die hier und aus dem Quellcode(ich bin mit sklearn

machine-learning python scikit-learn

Vorbereiten der Daten für die text-Klassifizierung mit Scikit Lernen SVM

1 Antworten

Ich versuche zu gelten SVM von Scikit lernen zu klassifizieren, die tweets, die ich gesammelt. Also, es gibt zwei Kategorien, nennen Sie A und B. Jetzt habe ich alle tweets kategorisiert in zwei text-Datei', 'A.txt' und 'B.txt'.

python scikit-learn svm

Mit der predict_proba () - Funktion von RandomForestClassifier in das sichere und richtige Weg

2 Antworten

Ich bin mit Scikit-learn anwenden machine-learning-Algorithmus auf meine datasets. Manchmal muss ich die Wahrscheinlichkeiten von Etiketten/Klassen stiftete der Bezeichnungen/Klassen selbst. Anstatt Spam/Nicht-Spam als Etiketten von E-Mails, ich möchte nur zum Beispiel: 0.78 Wahrscheinlichkeit einer bestimmten E-Mail ist

machine-learning python random-forest scikit-learn

Ist ein countvectorizer das gleiche wie tfidfvectorizer mit use_idf=false?

2 Antworten

Als der Titel besagt: ein countvectorizer das gleiche wie tfidfvectorizer mit use_idf=false ? Wenn nicht, warum nicht ? So bedeutet das auch, dass das hinzufügen der tfidftransformer hier überflüssig ist ? vect = CountVectorizer(min_df=1) tweets_vector = vect.fit_transform(corpus)

python scikit-learn

Was ist die Bedeutung des nu-parameter in Scikit-Learn der SVM Klasse?

2 Antworten

Ich bin nach dem Beispiel, dargestellt in http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html#example-svm-plot-oneclass-py, wo ein one-class-SVM verwendet wird, für die Anomalie-Erkennung. Nun, dies kann eine notation eindeutig zu scikit-learn, aber ich konnte nicht finden eine Erklärung, wie der parameter nu gegeben, um

machine-learning python scikit-learn

Multivariate/Multiple Lineare Regression in Scikit Lernen?

1 Antworten

Ich habe ein dataset (dataTrain.csv & dataTest.csv).csv-Datei mit diesem format: Temperature(K),Pressure(ATM),CompressibilityFactor(Z) 273.1,24.675,0.806677258 313.1,24.675,0.888394713 ...,...,... Bauen regression-Modell und die Vorhersage mit diesem code: import pandas as pd from sklearn import linear_model dataTrain = pd.read_csv("dataTrain.csv") dataTest = pd.read_csv("dataTest.csv") #

pandas python scikit-learn sklearn-pandas

Deprecation Warnungen von sklearn

2 Antworten

Ich bin mit cross_validation aus sklearn, from sklearn.cross_validation import train_test_split Ich bekomme die folgende Warnung: cross_validation.py:44: DeprecationWarning: Dieses Modul wurde als veraltet markiert in der version 0.18 Gunsten der model_selection Modul, in dem alle die umgestalteten Klassen

cross-validation scikit-learn

Was ist das python äquivalent zu R NA?

3 Antworten

Was ist das python äquivalent R die NA? Um genauer zu sein: R NaN, NA, NULL, - Inf und -Inf. NA ist in der Regel verwendet, wenn Daten fehlende. Was ist das python äquivalent? Wie Bibliotheken wie

data-scrubbing numpy pandas python scikit-learn

Regression trees Random oder Wald regressor mit kategorischen Eingänge

2 Antworten

Ich habe versucht, einen kategorischen inpust in eine regression Baum (oder Random Forest Regressor) aber sklearn hält Fehler zurückgeben und bitten für numerische Eingaben. import sklearn as sk MODEL = sk.ensemble.RandomForestRegressor(n_estimators=100) MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4]) # does not work

python regression scikit-learn