Tag: cross-validation
Cross-Validation ist eine Methode der Bewertung und der Vergleich der prädiktiven Systemen in der Statistik und dem maschinellen lernen.
2
Antworten
Ich bin neu in python und ich bin versucht, libsvm. Ich bin versucht zu tun, cross-Validierung mit Hilfe von grid.py. Ich bekomme meine Daten aus einer Datenbank, damit Ihr nicht in spärlicher form. Gibt es eine Möglichkeit,
1
Antworten
Mache ich eine regression mit Verallgemeinerten Linearen Modell.Ich bin gefangen offguard mit der crossVal Funktion. Meine Implementierung so weit; x = 'Some dataset, containing the input and the output' X = x(:,1:7); Y = x(:,8); cvpart =
3
Antworten
Habe ich Passform eine Pipeline Objekt mit RandomizedSearchCV pipe_sgd = Pipeline([('scl', StandardScaler()), ('clf', SGDClassifier(n_jobs=-1))]) param_dist_sgd = {'clf__loss': ['log'], 'clf__penalty': [None, 'l1', 'l2', 'elasticnet'], 'clf__alpha': np.linspace(0.15, 0.35), 'clf__n_iter': [3, 5, 7]} sgd_randomized_pipe = RandomizedSearchCV(estimator = pipe_sgd, param_distributions=param_dist_sgd, cv=3,
2
Antworten
Ähnlich Custom cross validation split sklearn ich definieren will meine eigenen splits für GridSearchCV, für die ich mich anpassen zu müssen, die eingebaute cross-Validierung iterator. Ich will meinen eigenen Zug-test Indizes für die cross-Validierung, um die GridSearch
1
Antworten
In meinem Klassifikationsschema, gibt es mehrere Schritte, einschließlich: SCHLUG (Synthetische Minderheit Über-sampling-Technik) Fisher Kriterien für die Funktionsauswahl Standardisierung (Z-score Normalisierung) SVC (Support Vector Classifier) Die wichtigsten Parameter abgestimmt werden, im Schema oben sind die % - Perzentil
3
Antworten
Habe ich ein lineares Modell, in R. set.seed(1234) x <- rnorm(100) z <- rnorm(100) y <- rnorm(100, x+z) mydata <- data.frame(x,y,z) fit <- lm(y ~ x + z, mydata) Ich würde gerne um eine Schätzung zu erhalten,
3
Antworten
Ich dachte, zu versuchen, wählen Sie " hyper-Parameter (wie Regulation zum Beispiel) mit Kreuz-Validierung oder vielleicht Zug mehrere Initialisierungen der Modelle und wählen Sie dann das Modell mit der höchsten cross validation accuracy. Umsetzung k-fache oder CV
3
Antworten
Ich bin verwirrt über den Unterschied zwischen der cross_val_score scoring-Metrik "roc_auc' und die roc_auc_score, dass kann ich einfach importieren und direkt aufrufen. In der Dokumentation (http://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter) zeigt an, dass die Angabe scoring='roc_auc' verwenden die sklearn.Metriken.roc_auc_score. Wenn ich
2
Antworten
Ich versuche zu machen ein k-fold CV für mehrere Klassifikationsverfahren/hiperparameters mit den zur Verfügung stehenden Daten bei http://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data. Dieses set besteht aus 208 Zeilen, die jeweils mit 60 Parametern. Ich lese es in eine Daten.Rahmen mit dem
1
Antworten
Zur Verbesserung der Support-Vector-Machine-Ergebnisse habe ich Netz Suche für die Suche nach besseren Parametern und cross-Validierung. Ich bin mir nicht sicher, wie Sie Sie kombinieren Sie in scikit-learn. Raster Suche die besten Parameter (http://scikit-learn.org/stable/modules/grid_search.html) und Kreuzvalidierung vermeiden
1
Antworten
Ich habe eine matrix mit 20 Spalten. Die Letzte Spalte 0/1 labels. Den link zu den Daten ist hier. Ich versuche zu laufen random forest auf das dataset, mit cross validation. Ich verwende zwei Methoden, dies zu
5
Antworten
In einfachen Worten, was ist der Unterschied zwischen Kreuz-Validierung und der grid-search? Wie funktioniert der grid-search arbeiten? Sollte ich zuerst tun eine cross-validation und dann eine Netz Suche? InformationsquelleAutor Linda | 2013-10-12
6
Antworten
Bin ich basteln mit einigen cross-Validierung code aus dem PySpark Dokumentation, und zu versuchen, PySpark, um mir zu sagen, welches Modell gewählt wurde: from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning
1
Antworten
Möchte ich verwenden, cross-Validierung, test - /Zug meinen Daten und bewerten Sie die Leistung der logistischen regression über den gesamten Datensatz und nicht nur auf dem test-set (z.B. 25%). Diese Begriffe sind mir völlig neu und bin
4
Antworten
Ich versuche zu splitten, mein dataset in Trainings-und Test-Datensatz sein, aber ich bin immer diese Fehlermeldung: X_train,X_test,Y_train,Y_test = sklearn.cross_validation.train_test_split(X,df1['ENTRIESn_hourly']) AttributeError Traceback (most recent call last) <ipython-input-53-5445dab94861> in <module>() ----> 1 X_train,X_test,Y_train,Y_test = sklearn.cross_validation.train_test_split(X,df1['ENTRIESn_hourly']) AttributeError: module 'sklearn' has
2
Antworten
Möchte ich zur Bewertung einer regression Modell erstellen, mit scikitlearn mit der Kreuzvalidierung und immer verwirrt, welche der beiden Funktionen cross_val_score und cross_val_predict ich verwenden soll. Eine Möglichkeit wäre : cvs = DecisionTreeRegressor(max_depth = depth) scores =
2
Antworten
Ich habe eine matrix (ich denke, in MatLab-Sie nennen es eine struct) oder Daten-Struktur: data: [150x4 double] labels: [150x1 double] hier ist meine matrix.Daten aussieht, nehme ich das laden meiner Datei mit dem Namen der matrix: 5.1000
2
Antworten
Dies kann eine dumme Frage sein, aber ich kann es einfach nicht finden, ein Paket, das zu tun...ich weiß, ich kann schreiben, einige der codes zu bekommen, was ich will, aber es wäre schön, eine Funktion, um
1
Antworten
Im mit Xgboost Umsetzung auf sklearn für eine kaggle-Wettbewerb. Aber im bekommen diese 'Warnung' Nachricht : $ python Script1.py /home/sky/private/virtualenv15.0.1 dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516: Warnung: Das am wenigsten besiedelte Klasse y hat nur 1 Mitglieder, was zu wenig ist. Die
2
Antworten
Ich versuche zur Optimierung eines logistischen Regressions-Funktion in scikit-learn mit Hilfe des cross-validiert raster-parameter zu suchen, aber ich kann nicht scheinen, um es zu implementieren. Er sagt, dass die Logistische Regression nicht implementieren eine get_params (), sondern
4
Antworten
Lassen Sie s sagen ich ' ve Lesen in eine Textdatei mit einem TextLineReader. Gibt es eine Möglichkeit, aufgeteilt in Zug-und test-sets im Tensorflow? So etwas wie: def read_my_file_format(filename_queue): reader = tf.TextLineReader() key, record_string = reader.read(filename_queue) raw_features,
2
Antworten
Arbeite ich an einem Projekt, das zeigen würde, den potenziellen Einfluss einer Gruppe von Ereignissen auf ein Ergebnis. Ich bin mit dem glmnet () - Paket, speziell mit Hilfe der Poisson-Funktion. Hier ist mein code: # de
2
Antworten
Ich versuche, vorherzusagen, eine Reihe von Etiketten mit Logistische Regression von SciKit. Meine Daten wirklich unausgewogen (es gibt viele weitere '0' als '1' - labels), so muss ich das F1-score metric während der cross-Validierung Schritt, um die
2
Antworten
Ich habe einen Datensatz, bestehend aus je dichotome variable (Y) und 12 unabhängige Variablen (X1 zu X12) gespeichert in einer csv-Datei. Hier sind die ersten 5 Zeilen der Daten: Y,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12 0,9,3.86,111,126,14,13,1,7,7,0,M,46-50 1,7074,3.88,232,4654,143,349,2,27,18,6,M,25-30 1,5120,27.45,97,2924,298,324,3,56,21,0,M,31-35 1,18656,79.32,408,1648,303,8730,286,294,62,28,M,25-30 0,3869,21.23,260,2164,550,320,3,42,203,3,F,18-24 Konstruierte ich
2
Antworten
Wie aus dem Titel Frage ich mich, was ist der Unterschied zwischen StratifiedKFold mit dem parameter shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) und StratifiedShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) und was ist der Vorteil der Verwendung StratifiedShuffleSplit Die
1
Antworten
Ich freue mich auf dieses tutorial: https://www.dataquest.io/mission/74/getting-started-with-kaggle Hab ich Teil 9, Vorhersagen. Dort gibt es einige Daten in einem dataframe namens titanic, das ist dann aufgeteilt in Falten Verwendung: # Generate cross validation folds for the titanic
3
Antworten
Lassen Sie mich beginnen, indem ich sagte, ich habe viele Beiträge gelesen über die Cross-Validierung, und es scheint, gibt es viel Verwirrung gibt. Mein Verständnis, es ist einfach so: Durchführen k-fold Cross-Validation, d.h. 10 Falten zu verstehen,
1
Antworten
Versuch, erstellen Sie einen Entscheidungsbaum mit cross-Validierung mit sklearn und panads. Meine Frage ist in dem code unten, wird die Kreuzvalidierung teilt die Daten, die ich dann verwenden für training und Prüfung. Ich werde versuchen zu finden,
4
Antworten
Macht die cross_val_predict (siehe doc, v0.18) mit k-Falten-Methode, wie im code gezeigt unten Genauigkeit berechnen für jede Falte und Durchschnitt Sie endlich oder nicht? cv = KFold(len(labels), n_folds=20) clf = SVC() ypred = cross_val_predict(clf, td, labels, cv=cv)
4
Antworten
Ich würde gerne die xgboost cv-Funktion zu finden, die besten Parameter für meinen Trainings-Daten-set. Ich bin verwirrt durch die api. Wie finde ich die besten parameter? Ist dies ähnlich zu der sklearn grid_search cross-validation-Funktion? Wie kann ich
2
Antworten
In einer Zuordnung, sind wir aufgefordert, zu der Durchführung einer cross-Validierung auf ein WARENKORB-Modell. Ich habe versucht mit der cvFit Funktion von cvTools bekam aber eine komische Fehlermeldung. Hier ist ein minimal-Beispiel: library(rpart) library(cvTools) data(iris) cvFit(rpart(formula=Species~., data=iris))
2
Antworten
Ich bin mit cross_validation aus sklearn, from sklearn.cross_validation import train_test_split Ich bekomme die folgende Warnung: cross_validation.py:44: DeprecationWarning: Dieses Modul wurde als veraltet markiert in der version 0.18 Gunsten der model_selection Modul, in dem alle die umgestalteten Klassen
4
Antworten
Ich bin mit sklearn für multi-Klassifizierung Aufgabe. Ich brauche split alldata in train_set und test_set. Ich will, dass der zufällig die gleiche sample-Anzahl pro Klasse. Eigentlich habe ich amüsant diese Funktion X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data,
2
Antworten
Ich bin nach die IRIS Beispiel tensorflow. Meinem Fall jetzt habe ich alle Daten in einer einzigen CSV-Datei, nicht getrennt, und ich möchte die k-fold-cross-validation der Daten. Habe ich data_set = tf.contrib.learn.datasets.base.load_csv(filename="mydata.csv", target_dtype=np.int) Wie kann ich k-fold
4
Antworten
Ich möchte, um vorherzusagen, die Wahrscheinlichkeit von Logistic Regression-Modell mit cross-Validierung. Ich weiß, Sie können Holen Sie sich die cross-Validierung erzielt, aber ist es möglich die Rückkehr der Werte aus predict_proba anstelle der Noten? # imports from
2
Antworten
Ich versuche zu tun, eine 10-fold-cross-validation für einige glm-Modelle, die ich gebaut habe früher in R. ich bin ein wenig verwirrt über die cv.glm() Funktion in der boot Paket, obwohl ich gelesen habe, viel Hilfe-Dateien. Wenn ich
3
Antworten
Ich bin nicht in der Lage zu finden, eine Art und Weise der Durchführung cross-validation auf einer random forest regression-Modell, die ich versuche zu produzieren. Also ich habe einen Datensatz mit 1664 erklärenden Variablen (mit unterschiedlichen chemischen
1
Antworten
Wenn ich den folgenden code mit Data-matrix - X Größe (952,144) und output Vektor y Größe (952), mean_squared_error Metrik gibt negative Werte, was ist unerwartet. Haben Sie eine Idee? from sklearn.svm import SVR from sklearn import cross_validation
5
Antworten
Ich habe ein kleines corpus und ich möchte, um die Richtigkeit der Berechnung der naive Bayes-Klassifikator mit 10-fold cross validation, wie Sie es tun können. InformationsquelleAutor der Frage user2284345 | 2013-05-04
2
Antworten
Ich bin mit GridSearch Lebenslauf zu optimieren, den Parameter der Klassifikatoren in scikit. Sobald ich damit fertig bin, würde ich gerne wissen, welche Parameter gewählt wurden als die besten. Immer wenn ich, so bekomme ich einen AttributeError:
2
Antworten
Möchte ich bewerten, ein random forest ausgebildet, auf einige Daten. Gibt es eine utility, die in Apache Spark, das gleiche zu tun oder habe ich zu erledigen-Kreuzvalidierung manuell? InformationsquelleAutor der Frage ashishsjsu | 2015-09-24
2
Antworten
Ich bin clustering von Dokumenten mit Thema Modellierung. Ich brauche zu kommen mit dem optimalen Thema zahlen. So, ich entschied mich für ten-fold cross validation mit Themen 10, 20, ...60. Ich teilte meinen Körper in zehn Chargen
3
Antworten
Gibt es jemanden, der erklären kann mich in wirklich einfachen Worten, was ist der Unterschied zwischen cross-Validierung und grid-search? Wie funktioniert das und muss ich als erstes tun eine Kreuzvalidierung und dann eine Netz Suche? Meine Frage