Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Multidimensionale Skalierung Einbau in Numpy, Pandas und Sklearn (ValueError)

Anzahl der Antworten 2 Antworten
Ich versuche multidimensionale Skalierung mit sklearn, pandas und numpy. Die Daten-Datei Im mit 10 Spalten mit numerischen und keine fehlenden Werte. Ich bin versucht, diesem zehn-dimensionale Daten und visualisiert Sie in 2 Dimensionen mit sklearn.vielfältigen multidimensionalen Skalierung

Wie die geteilten Daten auf einem ausgewogenen Trainings-set und test-set auf sklearn

Anzahl der Antworten 4 Antworten
Ich bin mit sklearn für multi-Klassifizierung Aufgabe. Ich brauche split alldata in train_set und test_set. Ich will, dass der zufällig die gleiche sample-Anzahl pro Klasse. Eigentlich habe ich amüsant diese Funktion X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data,

Scikit-learn: Wie zum ausführen von KMeans auf ein ein-dimensionales array?

Anzahl der Antworten 2 Antworten
Ich habe ein array von 13.876(13,876) Werte zwischen 0 und 1. Ich möchte sklearn.cluster.KMeans nur für diesen Vektor zu finden, die verschiedenen Clustern, in denen die Werte gruppiert sind. Es scheint jedoch, KMeans arbeitet mit einem mehrdimensionalen

Was bedeutet "sample_weight" do-der Weg, ein `DecisionTreeClassifier " funktioniert in der sklearn?

Anzahl der Antworten 2 Antworten
Gelesen habe ich von diese Dokumentation: "Class balancing getan werden kann, durch Stichproben die gleiche Anzahl von Proben aus jeder Klasse, oder vorzugsweise durch die Normalisierung der Summe der Stichprobe zu gewichten (sample_weight) für jede Klasse den

TypeError: get_params() fehlt 1 erforderliche positionelle argument: "selbst"

Anzahl der Antworten 2 Antworten
Ich versuchte zu verwenden scikit-learn Paket mit python-3.4 zu tun, ein grid-search, from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model.logistic import LogisticRegression from sklearn.pipeline import Pipeline from sklearn.grid_search import GridSearchCV import pandas as pd from sklearn.cross_validation import train_test_split from

Machine Learning (tensorflow / sklearn) in Django?

Anzahl der Antworten 2 Antworten
Habe ich eine django-form, die das sammeln von Benutzer-Reaktion. Ich habe auch ein tensorflow Sätze Klassifizierung Modell. Was ist die beste/standard-Weg, um diese beiden zusammen. Details: tensorflow Modell wurde ausgebildet an der Film-Kritik-Daten von Rotten Tomatoes. Jedesmal,

Was ist ein guter Wertebereich für den svm.SVC() hyperparameters, erkundet zu werden über GridSearchCV()?

Anzahl der Antworten 2 Antworten
Habe ich das problem, dass die hyperparameters meiner svm.SVC() sind zu breit, so dass die GridSearchCV() wird nie fertig! Eine Idee ist die Verwendung RandomizedSearchCV() statt. Aber wieder, mein Datensatz ist relativ groß, so dass 500 Iterationen

Wie schreibt man einen custom-Schätzer in sklearn und cross-validation?

Anzahl der Antworten 1 Antworten
Möchte ich überprüfen die Vorhersage-Fehler der neuen Methode Trog cross-Validierung. Ich würde gerne wissen, ob ich Vorbeigehen kann meine Methode der cross-Validierung Funktion sklearn und bei wie. Ich würde gerne so etwas wie sklearn.cross_validation(cv=10).mymethod. Muss ich auch

Regression mit multi-dimensionale Ziele

Anzahl der Antworten 2 Antworten
Ich bin mit scikit-learn zu tun regression und mein problem ist Folgendes. Ich brauche regression auf mehrere Parameter (Vektoren). Dies funktioniert gut, mit einigen regression Ansätze wie ensemble.ExtraTreesRegressor und ensemble.RandomForestRegressor. In der Tat, man kann einen Vektor

Wie bekomme ich word Frequenz in einem Korpus mit Scikit Lernen CountVectorizer?

Anzahl der Antworten 2 Antworten
Ich versuche zu berechnen, eine einfache Wort-Frequenz mit scikit-learn ist CountVectorizer. import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer texts=["dog cat fish","dog cat cat","fish bird","bird"] cv = CountVectorizer() cv_fit=cv.fit_transform(texts) print cv.vocabulary_ {u'bird': 0,

Wie erstelle ich eine sklearn.datasets.base.Haufen Objekt in scikit-learn, die aus meinen eigenen Daten?

Anzahl der Antworten 3 Antworten
In den meisten der Scikit-learn-algorithmen, die Daten müssen geladen werden, als ein Bündel Objekt. Für viele Beispiel im tutorial load_files() oder anderen Funktionen verwendet, zum Auffüllen der Haufen Objekt. Funktionen wie load_files() erwarten, dass Daten in einem

Wird scikit-learn nutzen GPU?

Anzahl der Antworten 1 Antworten
Lesung Umsetzung von scikit-learn in tensroflow : http://learningtensorflow.com/lesson6/ und scikit-learn : http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html ich bin kämpfen, um zu entscheiden, welche Implementierung zu verwenden ist. scikit-learn ist installiert, wie Teil des tensorflow docker container, so kann entweder die Umsetzung.

Der einfachste Weg für eine erste feature-Namen nach dem ausführen SelectKBest in Scikit Lernen

Anzahl der Antworten 4 Antworten
Ich würde gerne machen das betreute lernen. Ich bis jetzt weiss, wie das betreute lernen für alle Funktionen. Allerdings würde ich gerne auch die Durchführung von experiment mit den K besten features. Ich die Dokumentation gelesen und

Lineare Regression auf Pandas DataFrame mit Sci-kit Lernen

Anzahl der Antworten 3 Antworten
Ich bin neu in Python und versuchen, führen Sie die lineare regression durch Verwendung sklearn auf ein pandas dataframe. Dies ist, was ich getan habe: data = pd.read_csv('xxxx.csv') Danach bekam ich einen DataFrame mit zwei Spalten, nennen

nicht verwenden kann, scikit-learn - "AttributeError: 'module' Objekt hat kein Attribut ..."

Anzahl der Antworten 7 Antworten
Ich versuche zu Folgen dieses tutorial von scikit-learn (lineare regression). Habe ich installiert scikit durch pip install -U scikit-learn ich verwende python 2.7 und Ubuntu 13.04 Wenn ich versuche zu laufen, die ersten Zeilen code dort bekomme

Was ist der einfachste Weg, um tfidf mit pandas dataframe?

Anzahl der Antworten 1 Antworten
Möchte ich berechne tf-idf aus den Dokumenten weiter unten. Ich bin mit python und pandas. import pandas as pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['This is the first sentence','This is the second sentence', 'This is the third

Wie ist die TFIDFVectorizer in scikit-learn funktionieren soll?

Anzahl der Antworten 4 Antworten
Ich versuche, Worte die Besonderheiten bestimmter Dokumente über die TfIDFVectorizer Klasse in scikit-learn. Es entsteht ein tfidf-matrix mit all den Worten, und Ihre Werte in alle Unterlagen, aber dann scheint es zu zählen, häufige Wörter, wie gut.

Scikit-learn cross-Validierung die Bewertung für die regression

Anzahl der Antworten 2 Antworten
Wie kann man cross_val_score für regression? Das Standard scoring, das scheint zu sein, die Genauigkeit, die ist nicht sehr aussagekräftig für die regression. Angeblich würde ich gerne verwenden, mean squared error, ist es möglich zu bestimmen, dass

Python scikit-learn SVM Classifier “ValueError: Gefunden-array mit dim 3. Erwartet <= 2"

Anzahl der Antworten 2 Antworten
Bin ich versucht zu implementieren SVM Klassifizierer über MNIST Datensatz. Als meine Parameter sind 3-dimensionale Ihre werfen die folgende Fehlermeldung: ValueError: Found array with dim 3. Expected <= 2 Folgendes ist mein code-snippet: import mnist from sklearn

Ist es möglich, drucken Sie die Entscheidung Baum in scikit-learn?

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit zum drucken eines trainierten Entscheidungsbaum in scikit-learn? Ich will Zug ein Entscheidungsbaum für meine Diplomarbeit und ich sollen das Bild des Baumes in der Diplomarbeit. Ist das möglich? InformationsquelleAutor Jack Twain | 2014-08-12

Feature-Auswahl mit scikit-learn

Anzahl der Antworten 1 Antworten
Ich bin neue in machine learning. Bereite ich meine Daten für die Einstufung verwenden Scikit Lernen SVM. Um die Auswahl der besten Funktionen, die ich haben verwendet die folgende Methode: SelectKBest(chi2, k=10).fit_transform(A1, A2) Da mein Datensatz besteht

Python scikit lernen pca.explained_variance_ratio_ cutoff

Anzahl der Antworten 2 Antworten
Guru, Bei der Wahl der Anzahl der Hauptkomponenten (k) wählen wir k der kleinste Wert, so dass zum Beispiel 99% der Varianz, beibehalten wird. Jedoch in der Python-Scikit lernen, ich bin mir nicht 100% sicher, dass die

Wie plot scikit lernen klassifizierungsbericht?

Anzahl der Antworten 6 Antworten
Ist es möglich, in den plot mit matplotlib scikit-learn Klassifizierung-report?. Nehmen wir an, ich Druck die Einstufung Bericht so: print '\n*Classification Report:\n', classification_report(y_test, predictions) confusion_matrix_graph = confusion_matrix(y_test, predictions) und ich bekomme: Clasification Report: precision recall f1-score support

scikit-learn: Random forest class_weight und sample_weight Parameter

Anzahl der Antworten 1 Antworten
Habe ich eine Klasse Ungleichgewicht problem und experimentiert mit einem gewichteten Random Forest mit der Implementierung in scikit-learn (>= 0.16). Habe ich bemerkt, dass die Umsetzung dauert class_weight parameter im Konstruktor Baum und sample_weight parameter in den

So behalten Sie die Spaltenüberschriften von Daten, Bild nach der Vorverarbeitung in scikit-learn

Anzahl der Antworten 2 Antworten
Habe ich ein Pandabären-Daten-frame mit Zeilen und Spalten. Jede Spalte hat einen Titel. Nun, so lange wie ich halten Sie tun Datenmanipulation Operationen in pandas, meine variable Header beibehalten werden. Aber wenn ich versuche einige Daten pre-processing,

Das Verständnis der " ngram_range` argument in einer CountVectorizer in sklearn

Anzahl der Antworten 1 Antworten
Ich bin ein wenig verwirrt darüber, wie zu verwenden ngrams in der scikit-learn Bibliothek in Python, insbesondere, wie das ngram_range argument funktioniert in einem CountVectorizer. Dieser code ausgeführt: from sklearn.feature_extraction.text import CountVectorizer vocabulary = ['hi ', 'bye',

Scikit-learn ist die Rückkehr Bestimmtheitsmaß (R^2) Werte kleiner als -1

Anzahl der Antworten 4 Antworten
Mache ich eine einfache lineare Modell. Ich habe fire = load_data() regr = linear_model.LinearRegression() scores = cross_validation.cross_val_score(regr, fire.data, fire.target, cv=10, scoring='r2') print scores ergibt [ 0.00000000e+00 0.00000000e+00 -8.27299054e+02 -5.80431382e+00 -1.04444147e-01 -1.19367785e+00 -1.24843536e+00 -3.39950443e-01 1.95018287e-02 -9.73940970e-02] Wie ist

predict_proba für ein cross-Modell validiert

Anzahl der Antworten 4 Antworten
Ich möchte, um vorherzusagen, die Wahrscheinlichkeit von Logistic Regression-Modell mit cross-Validierung. Ich weiß, Sie können Holen Sie sich die cross-Validierung erzielt, aber ist es möglich die Rückkehr der Werte aus predict_proba anstelle der Noten? # imports from

scikit-learn SVM.SVC() ist extrem langsam

Anzahl der Antworten 1 Antworten
Ich versuche mit SVM-Klassifikator zu trainieren, Daten mit über 100k samples, aber ich fand es extrem langsam und auch nach zwei Stunden gab es keine Antwort. Wenn das dataset hat rund 1k samples, ich kann das Ergebnis

Wie graph-raster erreicht souverän aus GridSearchCV?

Anzahl der Antworten 4 Antworten
Ich bin auf der Suche nach einem Weg, um Graphen grid_scores_ von GridSearchCV in sklearn. In diesem Beispiel versuche ich Netz Suche für die beste gamma-und C-Parameter für eine SVR-Algorithmus. Mein code sieht wie folgt aus: C_range

k-fold stratified cross-validation mit unausgewogenen Klassen

Anzahl der Antworten 2 Antworten
Habe ich die Daten mit 4 Klassen und ich bin versucht, erstellen Sie eine benutzerdefinierte klassifizierungsfunktion. Ich habe ~1000 Vektoren für eine Klasse, ~10^4 für andere, ~10^5 für das Dritte und ~10^6 für die vierte. Ich hatte

Mit DictVectorizer mit sklearn DecisionTreeClassifier

Anzahl der Antworten 2 Antworten
Ich versuche zu starten, einen Entscheidungsbaum mit python und sklearn. Arbeiten Ansatz war so: import pandas as pd from sklearn import tree for col in set(train.columns): if train[col].dtype == np.dtype('object'): s = np.unique(train[col].values) mapping = pd.Series([x[0] for

Genauigkeit Punktzahl : ValueError: nicht Verarbeiten Kann mischen binäre und kontinuierliche

Anzahl der Antworten 5 Antworten
Ich bin mit linear_model.LinearRegression von scikit-learn als ein prädiktives Modell aus. Es funktioniert und es ist perfekt. Ich habe ein problem, zu bewerten, die prognostizierten Ergebnisse mit der accuracy_score Metrik. Dies ist meine wahre Daten : array([1,

Wie erstellen/anpassen eines eigenen scorer-Funktion in scikit-learn?

Anzahl der Antworten 2 Antworten
Ich bin mit Support-Vektor-Regression als Schätzer in GridSearchCV. Aber ich will ändern Sie die error-Funktion: anstelle des Standard - (R-squared: Bestimmtheitsmaß), würde ich mag, um zu definieren, meine eigenen error-Funktion. Habe ich versucht zu machen, eine mit

Scikit-learn : Fehler im fitting-Modell - Eingabe enthält NaN, infinity oder ein Wert zu groß für float64

Anzahl der Antworten 1 Antworten
Ich bin mit Python scikit-learn zur einfachen linearen regression, die auf Daten aus der csv-Datei. reader = pandas.io.parsers.read_csv("data/all-stocks-cleaned.csv") stock = np.array(reader) openingPrice = stock[:, 1] closingPrice = stock[:, 5] print((np.min(openingPrice))) print((np.min(closingPrice))) print((np.max(openingPrice))) print((np.max(closingPrice))) peningPriceTrain, openingPriceTest, closingPriceTrain, closingPriceTest

Wie reverse sklearn.OneHotEncoder-Transformation original Daten?

Anzahl der Antworten 5 Antworten
I kodiert mein kategoriale Daten mit sklearn.OneHotEncoder gefüttert und Sie zu einem random forest Klassifikator. Alles scheint zu funktionieren und ich habe meine vorhergesagten Ausgang zurück. Gibt es eine Möglichkeit zur Umkehrung der Codierung und konvertieren Sie

XGBoost XGBClassifier Standardmäßig in Python

Anzahl der Antworten 3 Antworten
Ich bin versucht, XGBoosts Klassifizierer klassifizieren einige binäre Daten. Wenn ich die einfachste Sache und verwenden Sie die Standardeinstellungen (wie folgt) clf = xgb.XGBClassifier() metLearn=CalibratedClassifierCV(clf, method='isotonic', cv=2) metLearn.fit(train, trainTarget) testPredictions = metLearn.predict(test) Bekomme ich Recht gute klassifikationsergebnisse.

UndefinedMetricWarning: F-score ist schlecht definiert und wird auf 0.0 gesetzt in Etiketten mit no vorhergesagt Proben

Anzahl der Antworten 2 Antworten
Ich bin immer diese komischen Fehler classification.py:1113: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples. 'precision', 'predicted', average, warn_for) aber dann druckt auch der f-score das erste mal, dass ich

Vorhersage der fehlenden Werte mit scikit-learn ist Imputer Modul

Anzahl der Antworten 2 Antworten
Schreibe ich ein sehr einfaches Programm, um vorherzusagen, fehlende Werte in einem Datensatz unter Verwendung scikit-learn ist Imputer Klasse. Ich habe ein NumPy-array, erstellt eine Imputer Objekt mit Strategie='mean' und durchgeführt fit_transform() auf der NumPy-array. Wenn ich

Mit GridSearchCV mit AdaBoost und DecisionTreeClassifier

Anzahl der Antworten 1 Antworten
Ich bin versucht zu tunen eines AdaBoost-Klassifizierer ("ABT") mit einem DecisionTreeClassifier ("DTC") als base_estimator. Ich würde gerne tunen beide ABT und DTC-Parameter gleichzeitig, bin mir aber nicht sicher, wie dies zu tun - pipeline nicht funktionieren sollte,

LabelEncoder: TypeError: '>' wird nicht unterstützt zwischen Instanzen von 'float' und 'str'

Anzahl der Antworten 3 Antworten
Ich bin vor diesem Fehler für mehrere Variablen, auch die Behandlung von fehlenden Werten. Zum Beispiel: le = preprocessing.LabelEncoder() categorical = list(df.select_dtypes(include=['object']).columns.values) for cat in categorical: print(cat) df[cat].fillna('UNK', inplace=True) df[cat] = le.fit_transform(df[cat]) # print(le.classes_) # print(le.transform(le.classes_)) ---------------------------------------------------------------------------

Wie zu verwenden sklearn fit_transform mit pandas und zurück dataframe statt numpy-array?

Anzahl der Antworten 1 Antworten
Ich möchte Skalierung (mit StandardScaler() von sklearn.preprocessing), um ein pandas dataframe. Der folgende code gibt ein numpy-array, so dass ich verlieren alle Spaltennamen und indeces. Dies ist nicht das, was ich will. features = df[["col1", "col2", "col3",

ValueError: Daten sind nicht Binär-und pos_label nicht angegeben

Anzahl der Antworten 1 Antworten
Ich versuche zu berechnen roc_auc_scoreaber ich bin immer folgende Fehlermeldung. "ValueError: Data is not binary and pos_label is not specified" Mein code-snippet wie folgt: import numpy as np from sklearn.metrics import roc_auc_score y_scores=np.array([ 0.63, 0.53, 0.36, 0.02,

Ein Fortschrittsbalken für scikit-learn?

Anzahl der Antworten 2 Antworten
Gibt es eine Möglichkeit zu haben, eine Fortschritt-bar auf die fit-Methode in scikit-learn ? Ist es möglich, eine benutzerdefinierte mit so etwas wie Pyprind ? InformationsquelleAutor der Frage | 2015-12-13

die wichtigsten Merkmale für die Klassifizierung

Anzahl der Antworten 1 Antworten
Ich versuche zu klassifizieren, einige EEG-Daten mit einem logistischen Regressionsmodell (das scheint das beste zu geben Klassifikation der meine Daten). Die Daten habe ich aus einer Multikanal-EEG-setup so im wesentlichen ich habe eine matrix von 63 x

was ist der Unterschied zwischen 'transformieren' und 'fit_transform' in sklearn

Anzahl der Antworten 3 Antworten
In der sklearn-python-toolbox, gibt es zwei Funktionen transform und fit_transform über sklearn.decomposition.RandomizedPCA. Die Beschreibung der beiden Funktionen sind wie folgt Aber was ist der Unterschied zwischen Ihnen ? InformationsquelleAutor der Frage tqjustc | 2014-05-23

Wie löse ich overfitting in random forest von Python sklearn?

Anzahl der Antworten 1 Antworten
Ich bin mit RandomForestClassifier in python implementiert sklearn Paket zu bauen, eine binäre Klassifikation-Modell. Das ist unten die Ergebnisse der cross-Validierungen: Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 Fold 2 :

Wie, um Vorhersagen, Zeitreihen in scikit-learn?

Anzahl der Antworten 2 Antworten
Scikit-learn nutzt eine sehr praktischen Ansatz, basierend auf fit und predict Methoden. Ich habe Zeit-Serien-Daten in das format, geeignet für fit und predict. Ich habe zum Beispiel den folgenden Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ...,

Problem mit OneHotEncoder für kategoriale Merkmale

Anzahl der Antworten 5 Antworten
Will ich Kodieren 3 kategorische Merkmale von 10 Funktionen in meinen Datensätzen. Ich benutze preprocessing aus sklearn.Vorverarbeitung so tun, als die folgende: from sklearn import preprocessing cat_features = ['color', 'director_name', 'actor_2_name'] enc = preprocessing.OneHotEncoder(categorical_features=cat_features) enc.fit(dataset.values) Allerdings konnte

RuntimeWarning: numpy.dtype Größe verändert wird, kann auf binäre Inkompatibilität

Anzahl der Antworten 8 Antworten
Habe ich diesen Fehler für den Versuch zum laden eines gespeicherten SVM-Modell. Ich habe versucht zu deinstallieren sklearn, NumPy und SciPy installieren der neuesten Versionen aller-wieder zusammen (mit pip). Ich bin noch immer dieser Fehler. Warum? In