Tag: scikit-learn

scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).

Multidimensionale Skalierung Einbau in Numpy, Pandas und Sklearn (ValueError)

2 Antworten

Ich versuche multidimensionale Skalierung mit sklearn, pandas und numpy. Die Daten-Datei Im mit 10 Spalten mit numerischen und keine fehlenden Werte. Ich bin versucht, diesem zehn-dimensionale Daten und visualisiert Sie in 2 Dimensionen mit sklearn.vielfältigen multidimensionalen Skalierung

Wie die geteilten Daten auf einem ausgewogenen Trainings-set und test-set auf sklearn

4 Antworten

Ich bin mit sklearn für multi-Klassifizierung Aufgabe. Ich brauche split alldata in train_set und test_set. Ich will, dass der zufällig die gleiche sample-Anzahl pro Klasse. Eigentlich habe ich amüsant diese Funktion X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data,

cross-validation machine-learning scikit-learn svm

Scikit-learn: Wie zum ausführen von KMeans auf ein ein-dimensionales array?

2 Antworten

Ich habe ein array von 13.876(13,876) Werte zwischen 0 und 1. Ich möchte sklearn.cluster.KMeans nur für diesen Vektor zu finden, die verschiedenen Clustern, in denen die Werte gruppiert sind. Es scheint jedoch, KMeans arbeitet mit einem mehrdimensionalen

data-mining k-means python scikit-learn

Was bedeutet "sample_weight" do-der Weg, ein `DecisionTreeClassifier " funktioniert in der sklearn?

2 Antworten

Gelesen habe ich von diese Dokumentation: "Class balancing getan werden kann, durch Stichproben die gleiche Anzahl von Proben aus jeder Klasse, oder vorzugsweise durch die Normalisierung der Summe der Stichprobe zu gewichten (sample_weight) für jede Klasse den

decision-tree random-forest scikit-learn

TypeError: get_params() fehlt 1 erforderliche positionelle argument: "selbst"

2 Antworten

Ich versuchte zu verwenden scikit-learn Paket mit python-3.4 zu tun, ein grid-search, from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model.logistic import LogisticRegression from sklearn.pipeline import Pipeline from sklearn.grid_search import GridSearchCV import pandas as pd from sklearn.cross_validation import train_test_split from

python scikit-learn

Machine Learning (tensorflow / sklearn) in Django?

2 Antworten

Habe ich eine django-form, die das sammeln von Benutzer-Reaktion. Ich habe auch ein tensorflow Sätze Klassifizierung Modell. Was ist die beste/standard-Weg, um diese beiden zusammen. Details: tensorflow Modell wurde ausgebildet an der Film-Kritik-Daten von Rotten Tomatoes. Jedesmal,

django machine-learning scikit-learn sentiment-analysis tensorflow

Was ist ein guter Wertebereich für den svm.SVC() hyperparameters, erkundet zu werden über GridSearchCV()?

2 Antworten

Habe ich das problem, dass die hyperparameters meiner svm.SVC() sind zu breit, so dass die GridSearchCV() wird nie fertig! Eine Idee ist die Verwendung RandomizedSearchCV() statt. Aber wieder, mein Datensatz ist relativ groß, so dass 500 Iterationen

hyperparameters machine-learning scikit-learn svm

Wie schreibt man einen custom-Schätzer in sklearn und cross-validation?

1 Antworten

Möchte ich überprüfen die Vorhersage-Fehler der neuen Methode Trog cross-Validierung. Ich würde gerne wissen, ob ich Vorbeigehen kann meine Methode der cross-Validierung Funktion sklearn und bei wie. Ich würde gerne so etwas wie sklearn.cross_validation(cv=10).mymethod. Muss ich auch

python scikit-learn

Regression mit multi-dimensionale Ziele

2 Antworten

Ich bin mit scikit-learn zu tun regression und mein problem ist Folgendes. Ich brauche regression auf mehrere Parameter (Vektoren). Dies funktioniert gut, mit einigen regression Ansätze wie ensemble.ExtraTreesRegressor und ensemble.RandomForestRegressor. In der Tat, man kann einen Vektor

python scikit-learn

Wie bekomme ich word Frequenz in einem Korpus mit Scikit Lernen CountVectorizer?

2 Antworten

Ich versuche zu berechnen, eine einfache Wort-Frequenz mit scikit-learn ist CountVectorizer. import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer texts=["dog cat fish","dog cat cat","fish bird","bird"] cv = CountVectorizer() cv_fit=cv.fit_transform(texts) print cv.vocabulary_ {u'bird': 0,

python scikit-learn

Wie erstelle ich eine sklearn.datasets.base.Haufen Objekt in scikit-learn, die aus meinen eigenen Daten?

3 Antworten

In den meisten der Scikit-learn-algorithmen, die Daten müssen geladen werden, als ein Bündel Objekt. Für viele Beispiel im tutorial load_files() oder anderen Funktionen verwendet, zum Auffüllen der Haufen Objekt. Funktionen wie load_files() erwarten, dass Daten in einem

scikit-learn scikits

Wird scikit-learn nutzen GPU?

1 Antworten

Lesung Umsetzung von scikit-learn in tensroflow : http://learningtensorflow.com/lesson6/ und scikit-learn : http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html ich bin kämpfen, um zu entscheiden, welche Implementierung zu verwenden ist. scikit-learn ist installiert, wie Teil des tensorflow docker container, so kann entweder die Umsetzung.

k-means python scikit-learn tensorflow

Der einfachste Weg für eine erste feature-Namen nach dem ausführen SelectKBest in Scikit Lernen

4 Antworten

Ich würde gerne machen das betreute lernen. Ich bis jetzt weiss, wie das betreute lernen für alle Funktionen. Allerdings würde ich gerne auch die Durchführung von experiment mit den K besten features. Ich die Dokumentation gelesen und

feature-selection pandas python scikit-learn

Lineare Regression auf Pandas DataFrame mit Sci-kit Lernen

3 Antworten

Ich bin neu in Python und versuchen, führen Sie die lineare regression durch Verwendung sklearn auf ein pandas dataframe. Dies ist, was ich getan habe: data = pd.read_csv('xxxx.csv') Danach bekam ich einen DataFrame mit zwei Spalten, nennen

dataframe linear-regression pandas python scikit-learn

nicht verwenden kann, scikit-learn - "AttributeError: 'module' Objekt hat kein Attribut ..."

7 Antworten

Ich versuche zu Folgen dieses tutorial von scikit-learn (lineare regression). Habe ich installiert scikit durch pip install -U scikit-learn ich verwende python 2.7 und Ubuntu 13.04 Wenn ich versuche zu laufen, die ersten Zeilen code dort bekomme

python-2.7 scikit-learn

Was ist der einfachste Weg, um tfidf mit pandas dataframe?

1 Antworten

Möchte ich berechne tf-idf aus den Dokumenten weiter unten. Ich bin mit python und pandas. import pandas as pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['This is the first sentence','This is the second sentence', 'This is the third

gensim pandas python scikit-learn tf-idf

Wie ist die TFIDFVectorizer in scikit-learn funktionieren soll?

4 Antworten

Ich versuche, Worte die Besonderheiten bestimmter Dokumente über die TfIDFVectorizer Klasse in scikit-learn. Es entsteht ein tfidf-matrix mit all den Worten, und Ihre Werte in alle Unterlagen, aber dann scheint es zu zählen, häufige Wörter, wie gut.

nlp python scikit-learn

Scikit-learn cross-Validierung die Bewertung für die regression

2 Antworten

Wie kann man cross_val_score für regression? Das Standard scoring, das scheint zu sein, die Genauigkeit, die ist nicht sehr aussagekräftig für die regression. Angeblich würde ich gerne verwenden, mean squared error, ist es möglich zu bestimmen, dass

python regression scikit-learn

Python scikit-learn SVM Classifier “ValueError: Gefunden-array mit dim 3. Erwartet <= 2"

2 Antworten

Bin ich versucht zu implementieren SVM Klassifizierer über MNIST Datensatz. Als meine Parameter sind 3-dimensionale Ihre werfen die folgende Fehlermeldung: ValueError: Found array with dim 3. Expected <= 2 Folgendes ist mein code-snippet: import mnist from sklearn

python scikit-learn svm

Ist es möglich, drucken Sie die Entscheidung Baum in scikit-learn?

2 Antworten

Gibt es eine Möglichkeit zum drucken eines trainierten Entscheidungsbaum in scikit-learn? Ich will Zug ein Entscheidungsbaum für meine Diplomarbeit und ich sollen das Bild des Baumes in der Diplomarbeit. Ist das möglich? InformationsquelleAutor Jack Twain | 2014-08-12

python scikit-learn

Feature-Auswahl mit scikit-learn

1 Antworten

Ich bin neue in machine learning. Bereite ich meine Daten für die Einstufung verwenden Scikit Lernen SVM. Um die Auswahl der besten Funktionen, die ich haben verwendet die folgende Methode: SelectKBest(chi2, k=10).fit_transform(A1, A2) Da mein Datensatz besteht

chi-squared feature-selection machine-learning python scikit-learn

Python scikit lernen pca.explained_variance_ratio_ cutoff

2 Antworten

Guru, Bei der Wahl der Anzahl der Hauptkomponenten (k) wählen wir k der kleinste Wert, so dass zum Beispiel 99% der Varianz, beibehalten wird. Jedoch in der Python-Scikit lernen, ich bin mir nicht 100% sicher, dass die

pca python scikit-learn

Wie plot scikit lernen klassifizierungsbericht?

6 Antworten

Ist es möglich, in den plot mit matplotlib scikit-learn Klassifizierung-report?. Nehmen wir an, ich Druck die Einstufung Bericht so: print '\n*Classification Report:\n', classification_report(y_test, predictions) confusion_matrix_graph = confusion_matrix(y_test, predictions) und ich bekomme: Clasification Report: precision recall f1-score support

matplotlib numpy python scikit-learn

scikit-learn: Random forest class_weight und sample_weight Parameter

1 Antworten

Habe ich eine Klasse Ungleichgewicht problem und experimentiert mit einem gewichteten Random Forest mit der Implementierung in scikit-learn (>= 0.16). Habe ich bemerkt, dass die Umsetzung dauert class_weight parameter im Konstruktor Baum und sample_weight parameter in den

python scikit-learn

So behalten Sie die Spaltenüberschriften von Daten, Bild nach der Vorverarbeitung in scikit-learn

2 Antworten

Habe ich ein Pandabären-Daten-frame mit Zeilen und Spalten. Jede Spalte hat einen Titel. Nun, so lange wie ich halten Sie tun Datenmanipulation Operationen in pandas, meine variable Header beibehalten werden. Aber wenn ich versuche einige Daten pre-processing,

numpy pandas python scikit-learn

Das Verständnis der " ngram_range` argument in einer CountVectorizer in sklearn

1 Antworten

Ich bin ein wenig verwirrt darüber, wie zu verwenden ngrams in der scikit-learn Bibliothek in Python, insbesondere, wie das ngram_range argument funktioniert in einem CountVectorizer. Dieser code ausgeführt: from sklearn.feature_extraction.text import CountVectorizer vocabulary = ['hi ', 'bye',

feature-selection n-gram python scikit-learn

Scikit-learn ist die Rückkehr Bestimmtheitsmaß (R^2) Werte kleiner als -1

4 Antworten

Mache ich eine einfache lineare Modell. Ich habe fire = load_data() regr = linear_model.LinearRegression() scores = cross_validation.cross_val_score(regr, fire.data, fire.target, cv=10, scoring='r2') print scores ergibt [ 0.00000000e+00 0.00000000e+00 -8.27299054e+02 -5.80431382e+00 -1.04444147e-01 -1.19367785e+00 -1.24843536e+00 -3.39950443e-01 1.95018287e-02 -9.73940970e-02] Wie ist

python scikit-learn statistics

predict_proba für ein cross-Modell validiert

4 Antworten

Ich möchte, um vorherzusagen, die Wahrscheinlichkeit von Logistic Regression-Modell mit cross-Validierung. Ich weiß, Sie können Holen Sie sich die cross-Validierung erzielt, aber ist es möglich die Rückkehr der Werte aus predict_proba anstelle der Noten? # imports from

cross-validation logistic-regression scikit-learn

scikit-learn SVM.SVC() ist extrem langsam

1 Antworten

Ich versuche mit SVM-Klassifikator zu trainieren, Daten mit über 100k samples, aber ich fand es extrem langsam und auch nach zwei Stunden gab es keine Antwort. Wenn das dataset hat rund 1k samples, ich kann das Ergebnis

python scikit-learn svm

Wie graph-raster erreicht souverän aus GridSearchCV?

4 Antworten

Ich bin auf der Suche nach einem Weg, um Graphen grid_scores_ von GridSearchCV in sklearn. In diesem Beispiel versuche ich Netz Suche für die beste gamma-und C-Parameter für eine SVR-Algorithmus. Mein code sieht wie folgt aus: C_range

grid-search machine-learning python scikit-learn

k-fold stratified cross-validation mit unausgewogenen Klassen

2 Antworten

Habe ich die Daten mit 4 Klassen und ich bin versucht, erstellen Sie eine benutzerdefinierte klassifizierungsfunktion. Ich habe ~1000 Vektoren für eine Klasse, ~10^4 für andere, ~10^5 für das Dritte und ~10^6 für die vierte. Ich hatte

machine-learning python scikit-learn

Mit DictVectorizer mit sklearn DecisionTreeClassifier

2 Antworten

Ich versuche zu starten, einen Entscheidungsbaum mit python und sklearn. Arbeiten Ansatz war so: import pandas as pd from sklearn import tree for col in set(train.columns): if train[col].dtype == np.dtype('object'): s = np.unique(train[col].values) mapping = pd.Series([x[0] for

machine-learning python scikit-learn

Genauigkeit Punktzahl : ValueError: nicht Verarbeiten Kann mischen binäre und kontinuierliche

5 Antworten

Ich bin mit linear_model.LinearRegression von scikit-learn als ein prädiktives Modell aus. Es funktioniert und es ist perfekt. Ich habe ein problem, zu bewerten, die prognostizierten Ergebnisse mit der accuracy_score Metrik. Dies ist meine wahre Daten : array([1,

linear-regression numpy prediction python scikit-learn

Wie erstellen/anpassen eines eigenen scorer-Funktion in scikit-learn?

2 Antworten

Ich bin mit Support-Vektor-Regression als Schätzer in GridSearchCV. Aber ich will ändern Sie die error-Funktion: anstelle des Standard - (R-squared: Bestimmtheitsmaß), würde ich mag, um zu definieren, meine eigenen error-Funktion. Habe ich versucht zu machen, eine mit

python scikit-learn

Scikit-learn : Fehler im fitting-Modell - Eingabe enthält NaN, infinity oder ein Wert zu groß für float64

1 Antworten

Ich bin mit Python scikit-learn zur einfachen linearen regression, die auf Daten aus der csv-Datei. reader = pandas.io.parsers.read_csv("data/all-stocks-cleaned.csv") stock = np.array(reader) openingPrice = stock[:, 1] closingPrice = stock[:, 5] print((np.min(openingPrice))) print((np.min(closingPrice))) print((np.max(openingPrice))) print((np.max(closingPrice))) peningPriceTrain, openingPriceTest, closingPriceTrain, closingPriceTest

machine-learning numpy python scikit-learn

Wie reverse sklearn.OneHotEncoder-Transformation original Daten?

5 Antworten

I kodiert mein kategoriale Daten mit sklearn.OneHotEncoder gefüttert und Sie zu einem random forest Klassifikator. Alles scheint zu funktionieren und ich habe meine vorhergesagten Ausgang zurück. Gibt es eine Möglichkeit zur Umkehrung der Codierung und konvertieren Sie

machine-learning python scikit-learn scipy

XGBoost XGBClassifier Standardmäßig in Python

3 Antworten

Ich bin versucht, XGBoosts Klassifizierer klassifizieren einige binäre Daten. Wenn ich die einfachste Sache und verwenden Sie die Standardeinstellungen (wie folgt) clf = xgb.XGBClassifier() metLearn=CalibratedClassifierCV(clf, method='isotonic', cv=2) metLearn.fit(train, trainTarget) testPredictions = metLearn.predict(test) Bekomme ich Recht gute klassifikationsergebnisse.

analytics classification python scikit-learn xgboost

UndefinedMetricWarning: F-score ist schlecht definiert und wird auf 0.0 gesetzt in Etiketten mit no vorhergesagt Proben

2 Antworten

Ich bin immer diese komischen Fehler classification.py:1113: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples. 'precision', 'predicted', average, warn_for) aber dann druckt auch der f-score das erste mal, dass ich

python scikit-learn

Vorhersage der fehlenden Werte mit scikit-learn ist Imputer Modul

2 Antworten

Schreibe ich ein sehr einfaches Programm, um vorherzusagen, fehlende Werte in einem Datensatz unter Verwendung scikit-learn ist Imputer Klasse. Ich habe ein NumPy-array, erstellt eine Imputer Objekt mit Strategie='mean' und durchgeführt fit_transform() auf der NumPy-array. Wenn ich

imputation numpy prediction python scikit-learn

Mit GridSearchCV mit AdaBoost und DecisionTreeClassifier

1 Antworten

Ich bin versucht zu tunen eines AdaBoost-Klassifizierer ("ABT") mit einem DecisionTreeClassifier ("DTC") als base_estimator. Ich würde gerne tunen beide ABT und DTC-Parameter gleichzeitig, bin mir aber nicht sicher, wie dies zu tun - pipeline nicht funktionieren sollte,

adaboost decision-tree grid-search python scikit-learn

LabelEncoder: TypeError: '>' wird nicht unterstützt zwischen Instanzen von 'float' und 'str'

3 Antworten

Ich bin vor diesem Fehler für mehrere Variablen, auch die Behandlung von fehlenden Werten. Zum Beispiel: le = preprocessing.LabelEncoder() categorical = list(df.select_dtypes(include=['object']).columns.values) for cat in categorical: print(cat) df[cat].fillna('UNK', inplace=True) df[cat] = le.fit_transform(df[cat]) # print(le.classes_) # print(le.transform(le.classes_)) ---------------------------------------------------------------------------

pandas python scikit-learn

Wie zu verwenden sklearn fit_transform mit pandas und zurück dataframe statt numpy-array?

1 Antworten

Ich möchte Skalierung (mit StandardScaler() von sklearn.preprocessing), um ein pandas dataframe. Der folgende code gibt ein numpy-array, so dass ich verlieren alle Spaltennamen und indeces. Dies ist nicht das, was ich will. features = df[["col1", "col2", "col3",

numpy pandas python scikit-learn

ValueError: Daten sind nicht Binär-und pos_label nicht angegeben

1 Antworten

Ich versuche zu berechnen roc_auc_scoreaber ich bin immer folgende Fehlermeldung. "ValueError: Data is not binary and pos_label is not specified" Mein code-snippet wie folgt: import numpy as np from sklearn.metrics import roc_auc_score y_scores=np.array([ 0.63, 0.53, 0.36, 0.02,

python roc scikit-learn

Ein Fortschrittsbalken für scikit-learn?

2 Antworten

Gibt es eine Möglichkeit zu haben, eine Fortschritt-bar auf die fit-Methode in scikit-learn ? Ist es möglich, eine benutzerdefinierte mit so etwas wie Pyprind ? InformationsquelleAutor der Frage | 2015-12-13

scikit-learn

die wichtigsten Merkmale für die Klassifizierung

1 Antworten

Ich versuche zu klassifizieren, einige EEG-Daten mit einem logistischen Regressionsmodell (das scheint das beste zu geben Klassifikation der meine Daten). Die Daten habe ich aus einer Multikanal-EEG-setup so im wesentlichen ich habe eine matrix von 63 x

feature-selection scikit-learn

was ist der Unterschied zwischen 'transformieren' und 'fit_transform' in sklearn

3 Antworten

In der sklearn-python-toolbox, gibt es zwei Funktionen transform und fit_transform über sklearn.decomposition.RandomizedPCA. Die Beschreibung der beiden Funktionen sind wie folgt Aber was ist der Unterschied zwischen Ihnen ? InformationsquelleAutor der Frage tqjustc | 2014-05-23

python python-2.7 scikit-learn

Wie löse ich overfitting in random forest von Python sklearn?

1 Antworten

Ich bin mit RandomForestClassifier in python implementiert sklearn Paket zu bauen, eine binäre Klassifikation-Modell. Das ist unten die Ergebnisse der cross-Validierungen: Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 Fold 2 :

decision-tree machine-learning python random-forest scikit-learn

Wie, um Vorhersagen, Zeitreihen in scikit-learn?

2 Antworten

Scikit-learn nutzt eine sehr praktischen Ansatz, basierend auf fit und predict Methoden. Ich habe Zeit-Serien-Daten in das format, geeignet für fit und predict. Ich habe zum Beispiel den folgenden Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ...,

machine-learning python scikit-learn time-series

Problem mit OneHotEncoder für kategoriale Merkmale

5 Antworten

Will ich Kodieren 3 kategorische Merkmale von 10 Funktionen in meinen Datensätzen. Ich benutze preprocessing aus sklearn.Vorverarbeitung so tun, als die folgende: from sklearn import preprocessing cat_features = ['color', 'director_name', 'actor_2_name'] enc = preprocessing.OneHotEncoder(categorical_features=cat_features) enc.fit(dataset.values) Allerdings konnte

categorical-data feature-extraction scikit-learn

RuntimeWarning: numpy.dtype Größe verändert wird, kann auf binäre Inkompatibilität

8 Antworten

Habe ich diesen Fehler für den Versuch zum laden eines gespeicherten SVM-Modell. Ich habe versucht zu deinstallieren sklearn, NumPy und SciPy installieren der neuesten Versionen aller-wieder zusammen (mit pip). Ich bin noch immer dieser Fehler. Warum? In

numpy python scikit-learn