Erstellen der Daten-partition in R
Mit caret
- Paket bei der Erstellung der Daten-partition zu 75% training und 25% test verwenden wir:
inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE)
Hinweis: dataset namens spam
- und target-variable namens type
Meine Frage ist, was ist der Zweck, einschließlich y=spam$type
argument?
Ist nicht der Zweck der Schaffung von Daten-Partitionen einfach zu split der gesamte Datensatz basierend auf dem Anteil, den Sie benötigen für die Ausbildung der vs-Prüfung? Warum gibt es die Notwendigkeit, dieses argument im code?
nicht 100%, aber ich glaube, das ist nur zu sagen, dass der Befehl von dem, was Variablen, die Sie partitionieren der Daten. Ich bin nicht sicher, es ist von Wichtigkeit, außer da, um zu klären, wie partition - einfacher für den computer zu verstehen
Wo hast du die Funktion 'createDataPartition'? Was bedeutet " str(inTrain)' Ausgabe?
Was meinst du mit "zu sagen.. was Variablen, die Sie partitionieren der Daten"? Mein Verständnis von der Partitionierung ist einfach, das aufsplitten der gesamten Daten. Warum sollten wir bringen die Tatsache, dass "Typ" ist mein Ziel-variable in dieser Phase? Bin ich konzeptionell Missverständnis der Idee von Daten-Partitionierung?
Nein, Sie sind richtig, aber die software kann nicht verstehen, wie intuitiv, wie Sie. Dieser Befehl ermöglicht es, die Stichprobe, die von dieser Klasse.
Li Auch ich habe die Dokumentation gelesen, aber es nicht geben mir Klarheit über dieses Problem. Warum sollte man davon ausgehen, dass ich das noch nicht getan? Der Grund, warum meine Frage macht keinen Sinn, Sie ist, weil wir kommen aus unterschiedlichen Lernwege, aber das ist okay, ich habe meine Antwort von Imran Ali unten. Trotzdem vielen Dank.
Wo hast du die Funktion 'createDataPartition'? Was bedeutet " str(inTrain)' Ausgabe?
Was meinst du mit "zu sagen.. was Variablen, die Sie partitionieren der Daten"? Mein Verständnis von der Partitionierung ist einfach, das aufsplitten der gesamten Daten. Warum sollten wir bringen die Tatsache, dass "Typ" ist mein Ziel-variable in dieser Phase? Bin ich konzeptionell Missverständnis der Idee von Daten-Partitionierung?
Nein, Sie sind richtig, aber die software kann nicht verstehen, wie intuitiv, wie Sie. Dieser Befehl ermöglicht es, die Stichprobe, die von dieser Klasse.
Li Auch ich habe die Dokumentation gelesen, aber es nicht geben mir Klarheit über dieses Problem. Warum sollte man davon ausgehen, dass ich das noch nicht getan? Der Grund, warum meine Frage macht keinen Sinn, Sie ist, weil wir kommen aus unterschiedlichen Lernwege, aber das ist okay, ich habe meine Antwort von Imran Ali unten. Trotzdem vielen Dank.
InformationsquelleAutor Aiden | 2016-07-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ich davon ausgegangen, dass die
createDataPartition()
in Frage bezieht sich auf die caret-Paket.Wenn
sample$type
argument ist ein Faktor, der in der Regel der Fall ist, die Stichprobenziehung erfolgt innerhalb der jeweiligen Klasse.Etwas mehr Erklärung: Zum Beispiel, wenn wir die partition
iris
Daten in den gleichen Proportionen wie in deiner Frage.Hinweis die Nummern vor den einzelnen Arten. Jetzt mit dem folgenden Befehl:
inTrain würde ungefähr 75% Zeilen aus einzelnen Arten, die überprüft werden können, indem Sie den folgenden Befehl ausgeben:
Gibt es 50 Arten in jeder Kategorie, und 38 (etwa 75%)wurden zufällig ausgewählt für den Trainings-Daten-set.
Ich habe eine weitere Erklärung für die Antwort. Können Sie verstehen, einfach durch die Auswahl verschiedener Wert
p
z.B. 0,5 und prüft, wie viele Zeilen ausgewählt sind, die für die Ausbildung eingestellt.InformationsquelleAutor Imran Ali
df <- iris
überprüfen der Anteil der Verteilung der abhängigen Variablen-Klassen im ursprünglichen dataset
prop.table(table(iris$Species))
R Ausgabe:
erstellen der split:
split <- createDataPartition(iris$Species, p = .30, list = F)
Anwendung der split erzeugt eine geschichtete Zufallsstichprobe
Beweis:
prop.table(table(iris$Species[split]))
R Ausgabe:
InformationsquelleAutor Abhilash Ponnam