Tag: scikit-learn
scikit-learn ist eine Maschine-learning-Bibliothek für Python, die einfache und effiziente Werkzeuge für die Datenanalyse und data mining, mit einem Fokus auf machine learning. Es ist für jedermann zugänglich und wiederverwendbar, in verschiedenen Kontexten. Es ist gebaut auf NumPy und SciPy. Das Projekt ist open-source und kommerziell verwendbar (BSD-Lizenz).
2
Antworten
Ich versuche multidimensionale Skalierung mit sklearn, pandas und numpy. Die Daten-Datei Im mit 10 Spalten mit numerischen und keine fehlenden Werte. Ich bin versucht, diesem zehn-dimensionale Daten und visualisiert Sie in 2 Dimensionen mit sklearn.vielfältigen multidimensionalen Skalierung
4
Antworten
Ich bin mit sklearn für multi-Klassifizierung Aufgabe. Ich brauche split alldata in train_set und test_set. Ich will, dass der zufällig die gleiche sample-Anzahl pro Klasse. Eigentlich habe ich amüsant diese Funktion X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data,
2
Antworten
Ich habe ein array von 13.876(13,876) Werte zwischen 0 und 1. Ich möchte sklearn.cluster.KMeans nur für diesen Vektor zu finden, die verschiedenen Clustern, in denen die Werte gruppiert sind. Es scheint jedoch, KMeans arbeitet mit einem mehrdimensionalen
2
Antworten
Gelesen habe ich von diese Dokumentation: "Class balancing getan werden kann, durch Stichproben die gleiche Anzahl von Proben aus jeder Klasse, oder vorzugsweise durch die Normalisierung der Summe der Stichprobe zu gewichten (sample_weight) für jede Klasse den
2
Antworten
Ich versuchte zu verwenden scikit-learn Paket mit python-3.4 zu tun, ein grid-search, from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model.logistic import LogisticRegression from sklearn.pipeline import Pipeline from sklearn.grid_search import GridSearchCV import pandas as pd from sklearn.cross_validation import train_test_split from
2
Antworten
Habe ich eine django-form, die das sammeln von Benutzer-Reaktion. Ich habe auch ein tensorflow Sätze Klassifizierung Modell. Was ist die beste/standard-Weg, um diese beiden zusammen. Details: tensorflow Modell wurde ausgebildet an der Film-Kritik-Daten von Rotten Tomatoes. Jedesmal,
2
Antworten
Habe ich das problem, dass die hyperparameters meiner svm.SVC() sind zu breit, so dass die GridSearchCV() wird nie fertig! Eine Idee ist die Verwendung RandomizedSearchCV() statt. Aber wieder, mein Datensatz ist relativ groß, so dass 500 Iterationen
1
Antworten
Möchte ich überprüfen die Vorhersage-Fehler der neuen Methode Trog cross-Validierung. Ich würde gerne wissen, ob ich Vorbeigehen kann meine Methode der cross-Validierung Funktion sklearn und bei wie. Ich würde gerne so etwas wie sklearn.cross_validation(cv=10).mymethod. Muss ich auch
2
Antworten
Ich bin mit scikit-learn zu tun regression und mein problem ist Folgendes. Ich brauche regression auf mehrere Parameter (Vektoren). Dies funktioniert gut, mit einigen regression Ansätze wie ensemble.ExtraTreesRegressor und ensemble.RandomForestRegressor. In der Tat, man kann einen Vektor
2
Antworten
Ich versuche zu berechnen, eine einfache Wort-Frequenz mit scikit-learn ist CountVectorizer. import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer texts=["dog cat fish","dog cat cat","fish bird","bird"] cv = CountVectorizer() cv_fit=cv.fit_transform(texts) print cv.vocabulary_ {u'bird': 0,
3
Antworten
In den meisten der Scikit-learn-algorithmen, die Daten müssen geladen werden, als ein Bündel Objekt. Für viele Beispiel im tutorial load_files() oder anderen Funktionen verwendet, zum Auffüllen der Haufen Objekt. Funktionen wie load_files() erwarten, dass Daten in einem
1
Antworten
Lesung Umsetzung von scikit-learn in tensroflow : http://learningtensorflow.com/lesson6/ und scikit-learn : http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html ich bin kämpfen, um zu entscheiden, welche Implementierung zu verwenden ist. scikit-learn ist installiert, wie Teil des tensorflow docker container, so kann entweder die Umsetzung.
4
Antworten
Ich würde gerne machen das betreute lernen. Ich bis jetzt weiss, wie das betreute lernen für alle Funktionen. Allerdings würde ich gerne auch die Durchführung von experiment mit den K besten features. Ich die Dokumentation gelesen und
3
Antworten
Ich bin neu in Python und versuchen, führen Sie die lineare regression durch Verwendung sklearn auf ein pandas dataframe. Dies ist, was ich getan habe: data = pd.read_csv('xxxx.csv') Danach bekam ich einen DataFrame mit zwei Spalten, nennen
7
Antworten
Ich versuche zu Folgen dieses tutorial von scikit-learn (lineare regression). Habe ich installiert scikit durch pip install -U scikit-learn ich verwende python 2.7 und Ubuntu 13.04 Wenn ich versuche zu laufen, die ersten Zeilen code dort bekomme
1
Antworten
Möchte ich berechne tf-idf aus den Dokumenten weiter unten. Ich bin mit python und pandas. import pandas as pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['This is the first sentence','This is the second sentence', 'This is the third
4
Antworten
Ich versuche, Worte die Besonderheiten bestimmter Dokumente über die TfIDFVectorizer Klasse in scikit-learn. Es entsteht ein tfidf-matrix mit all den Worten, und Ihre Werte in alle Unterlagen, aber dann scheint es zu zählen, häufige Wörter, wie gut.
2
Antworten
Wie kann man cross_val_score für regression? Das Standard scoring, das scheint zu sein, die Genauigkeit, die ist nicht sehr aussagekräftig für die regression. Angeblich würde ich gerne verwenden, mean squared error, ist es möglich zu bestimmen, dass
2
Antworten
Bin ich versucht zu implementieren SVM Klassifizierer über MNIST Datensatz. Als meine Parameter sind 3-dimensionale Ihre werfen die folgende Fehlermeldung: ValueError: Found array with dim 3. Expected <= 2 Folgendes ist mein code-snippet: import mnist from sklearn
2
Antworten
Gibt es eine Möglichkeit zum drucken eines trainierten Entscheidungsbaum in scikit-learn? Ich will Zug ein Entscheidungsbaum für meine Diplomarbeit und ich sollen das Bild des Baumes in der Diplomarbeit. Ist das möglich? InformationsquelleAutor Jack Twain | 2014-08-12
1
Antworten
Ich bin neue in machine learning. Bereite ich meine Daten für die Einstufung verwenden Scikit Lernen SVM. Um die Auswahl der besten Funktionen, die ich haben verwendet die folgende Methode: SelectKBest(chi2, k=10).fit_transform(A1, A2) Da mein Datensatz besteht
2
Antworten
Guru, Bei der Wahl der Anzahl der Hauptkomponenten (k) wählen wir k der kleinste Wert, so dass zum Beispiel 99% der Varianz, beibehalten wird. Jedoch in der Python-Scikit lernen, ich bin mir nicht 100% sicher, dass die
6
Antworten
Ist es möglich, in den plot mit matplotlib scikit-learn Klassifizierung-report?. Nehmen wir an, ich Druck die Einstufung Bericht so: print '\n*Classification Report:\n', classification_report(y_test, predictions) confusion_matrix_graph = confusion_matrix(y_test, predictions) und ich bekomme: Clasification Report: precision recall f1-score support
1
Antworten
Habe ich eine Klasse Ungleichgewicht problem und experimentiert mit einem gewichteten Random Forest mit der Implementierung in scikit-learn (>= 0.16). Habe ich bemerkt, dass die Umsetzung dauert class_weight parameter im Konstruktor Baum und sample_weight parameter in den
2
Antworten
Habe ich ein Pandabären-Daten-frame mit Zeilen und Spalten. Jede Spalte hat einen Titel. Nun, so lange wie ich halten Sie tun Datenmanipulation Operationen in pandas, meine variable Header beibehalten werden. Aber wenn ich versuche einige Daten pre-processing,
1
Antworten
Ich bin ein wenig verwirrt darüber, wie zu verwenden ngrams in der scikit-learn Bibliothek in Python, insbesondere, wie das ngram_range argument funktioniert in einem CountVectorizer. Dieser code ausgeführt: from sklearn.feature_extraction.text import CountVectorizer vocabulary = ['hi ', 'bye',
4
Antworten
Mache ich eine einfache lineare Modell. Ich habe fire = load_data() regr = linear_model.LinearRegression() scores = cross_validation.cross_val_score(regr, fire.data, fire.target, cv=10, scoring='r2') print scores ergibt [ 0.00000000e+00 0.00000000e+00 -8.27299054e+02 -5.80431382e+00 -1.04444147e-01 -1.19367785e+00 -1.24843536e+00 -3.39950443e-01 1.95018287e-02 -9.73940970e-02] Wie ist
4
Antworten
Ich möchte, um vorherzusagen, die Wahrscheinlichkeit von Logistic Regression-Modell mit cross-Validierung. Ich weiß, Sie können Holen Sie sich die cross-Validierung erzielt, aber ist es möglich die Rückkehr der Werte aus predict_proba anstelle der Noten? # imports from
1
Antworten
Ich versuche mit SVM-Klassifikator zu trainieren, Daten mit über 100k samples, aber ich fand es extrem langsam und auch nach zwei Stunden gab es keine Antwort. Wenn das dataset hat rund 1k samples, ich kann das Ergebnis
4
Antworten
Ich bin auf der Suche nach einem Weg, um Graphen grid_scores_ von GridSearchCV in sklearn. In diesem Beispiel versuche ich Netz Suche für die beste gamma-und C-Parameter für eine SVR-Algorithmus. Mein code sieht wie folgt aus: C_range
2
Antworten
Habe ich die Daten mit 4 Klassen und ich bin versucht, erstellen Sie eine benutzerdefinierte klassifizierungsfunktion. Ich habe ~1000 Vektoren für eine Klasse, ~10^4 für andere, ~10^5 für das Dritte und ~10^6 für die vierte. Ich hatte
2
Antworten
Ich versuche zu starten, einen Entscheidungsbaum mit python und sklearn. Arbeiten Ansatz war so: import pandas as pd from sklearn import tree for col in set(train.columns): if train[col].dtype == np.dtype('object'): s = np.unique(train[col].values) mapping = pd.Series([x[0] for
5
Antworten
Ich bin mit linear_model.LinearRegression von scikit-learn als ein prädiktives Modell aus. Es funktioniert und es ist perfekt. Ich habe ein problem, zu bewerten, die prognostizierten Ergebnisse mit der accuracy_score Metrik. Dies ist meine wahre Daten : array([1,
2
Antworten
Ich bin mit Support-Vektor-Regression als Schätzer in GridSearchCV. Aber ich will ändern Sie die error-Funktion: anstelle des Standard - (R-squared: Bestimmtheitsmaß), würde ich mag, um zu definieren, meine eigenen error-Funktion. Habe ich versucht zu machen, eine mit
1
Antworten
Ich bin mit Python scikit-learn zur einfachen linearen regression, die auf Daten aus der csv-Datei. reader = pandas.io.parsers.read_csv("data/all-stocks-cleaned.csv") stock = np.array(reader) openingPrice = stock[:, 1] closingPrice = stock[:, 5] print((np.min(openingPrice))) print((np.min(closingPrice))) print((np.max(openingPrice))) print((np.max(closingPrice))) peningPriceTrain, openingPriceTest, closingPriceTrain, closingPriceTest
5
Antworten
I kodiert mein kategoriale Daten mit sklearn.OneHotEncoder gefüttert und Sie zu einem random forest Klassifikator. Alles scheint zu funktionieren und ich habe meine vorhergesagten Ausgang zurück. Gibt es eine Möglichkeit zur Umkehrung der Codierung und konvertieren Sie
3
Antworten
Ich bin versucht, XGBoosts Klassifizierer klassifizieren einige binäre Daten. Wenn ich die einfachste Sache und verwenden Sie die Standardeinstellungen (wie folgt) clf = xgb.XGBClassifier() metLearn=CalibratedClassifierCV(clf, method='isotonic', cv=2) metLearn.fit(train, trainTarget) testPredictions = metLearn.predict(test) Bekomme ich Recht gute klassifikationsergebnisse.
2
Antworten
Ich bin immer diese komischen Fehler classification.py:1113: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples. 'precision', 'predicted', average, warn_for) aber dann druckt auch der f-score das erste mal, dass ich
2
Antworten
Schreibe ich ein sehr einfaches Programm, um vorherzusagen, fehlende Werte in einem Datensatz unter Verwendung scikit-learn ist Imputer Klasse. Ich habe ein NumPy-array, erstellt eine Imputer Objekt mit Strategie='mean' und durchgeführt fit_transform() auf der NumPy-array. Wenn ich
1
Antworten
Ich bin versucht zu tunen eines AdaBoost-Klassifizierer ("ABT") mit einem DecisionTreeClassifier ("DTC") als base_estimator. Ich würde gerne tunen beide ABT und DTC-Parameter gleichzeitig, bin mir aber nicht sicher, wie dies zu tun - pipeline nicht funktionieren sollte,
3
Antworten
Ich bin vor diesem Fehler für mehrere Variablen, auch die Behandlung von fehlenden Werten. Zum Beispiel: le = preprocessing.LabelEncoder() categorical = list(df.select_dtypes(include=['object']).columns.values) for cat in categorical: print(cat) df[cat].fillna('UNK', inplace=True) df[cat] = le.fit_transform(df[cat]) # print(le.classes_) # print(le.transform(le.classes_)) ---------------------------------------------------------------------------
1
Antworten
Ich möchte Skalierung (mit StandardScaler() von sklearn.preprocessing), um ein pandas dataframe. Der folgende code gibt ein numpy-array, so dass ich verlieren alle Spaltennamen und indeces. Dies ist nicht das, was ich will. features = df[["col1", "col2", "col3",
1
Antworten
Ich versuche zu berechnen roc_auc_scoreaber ich bin immer folgende Fehlermeldung. "ValueError: Data is not binary and pos_label is not specified" Mein code-snippet wie folgt: import numpy as np from sklearn.metrics import roc_auc_score y_scores=np.array([ 0.63, 0.53, 0.36, 0.02,
2
Antworten
Gibt es eine Möglichkeit zu haben, eine Fortschritt-bar auf die fit-Methode in scikit-learn ? Ist es möglich, eine benutzerdefinierte mit so etwas wie Pyprind ? InformationsquelleAutor der Frage | 2015-12-13
1
Antworten
Ich versuche zu klassifizieren, einige EEG-Daten mit einem logistischen Regressionsmodell (das scheint das beste zu geben Klassifikation der meine Daten). Die Daten habe ich aus einer Multikanal-EEG-setup so im wesentlichen ich habe eine matrix von 63 x
3
Antworten
In der sklearn-python-toolbox, gibt es zwei Funktionen transform und fit_transform über sklearn.decomposition.RandomizedPCA. Die Beschreibung der beiden Funktionen sind wie folgt Aber was ist der Unterschied zwischen Ihnen ? InformationsquelleAutor der Frage tqjustc | 2014-05-23
1
Antworten
Ich bin mit RandomForestClassifier in python implementiert sklearn Paket zu bauen, eine binäre Klassifikation-Modell. Das ist unten die Ergebnisse der cross-Validierungen: Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 Fold 2 :
2
Antworten
Scikit-learn nutzt eine sehr praktischen Ansatz, basierend auf fit und predict Methoden. Ich habe Zeit-Serien-Daten in das format, geeignet für fit und predict. Ich habe zum Beispiel den folgenden Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ...,
5
Antworten
Will ich Kodieren 3 kategorische Merkmale von 10 Funktionen in meinen Datensätzen. Ich benutze preprocessing aus sklearn.Vorverarbeitung so tun, als die folgende: from sklearn import preprocessing cat_features = ['color', 'director_name', 'actor_2_name'] enc = preprocessing.OneHotEncoder(categorical_features=cat_features) enc.fit(dataset.values) Allerdings konnte
8
Antworten
Habe ich diesen Fehler für den Versuch zum laden eines gespeicherten SVM-Modell. Ich habe versucht zu deinstallieren sklearn, NumPy und SciPy installieren der neuesten Versionen aller-wieder zusammen (mit pip). Ich bin noch immer dieser Fehler. Warum? In