Erstellen der Daten-partition in R

Mit caret - Paket bei der Erstellung der Daten-partition zu 75% training und 25% test verwenden wir:

inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE)

Hinweis: dataset namens spam - und target-variable namens type

Meine Frage ist, was ist der Zweck, einschließlich y=spam$type argument?

Ist nicht der Zweck der Schaffung von Daten-Partitionen einfach zu split der gesamte Datensatz basierend auf dem Anteil, den Sie benötigen für die Ausbildung der vs-Prüfung? Warum gibt es die Notwendigkeit, dieses argument im code?

nicht 100%, aber ich glaube, das ist nur zu sagen, dass der Befehl von dem, was Variablen, die Sie partitionieren der Daten. Ich bin nicht sicher, es ist von Wichtigkeit, außer da, um zu klären, wie partition - einfacher für den computer zu verstehen
Wo hast du die Funktion 'createDataPartition'? Was bedeutet " str(inTrain)' Ausgabe?
Was meinst du mit "zu sagen.. was Variablen, die Sie partitionieren der Daten"? Mein Verständnis von der Partitionierung ist einfach, das aufsplitten der gesamten Daten. Warum sollten wir bringen die Tatsache, dass "Typ" ist mein Ziel-variable in dieser Phase? Bin ich konzeptionell Missverständnis der Idee von Daten-Partitionierung?
Nein, Sie sind richtig, aber die software kann nicht verstehen, wie intuitiv, wie Sie. Dieser Befehl ermöglicht es, die Stichprobe, die von dieser Klasse.
Li Auch ich habe die Dokumentation gelesen, aber es nicht geben mir Klarheit über dieses Problem. Warum sollte man davon ausgehen, dass ich das noch nicht getan? Der Grund, warum meine Frage macht keinen Sinn, Sie ist, weil wir kommen aus unterschiedlichen Lernwege, aber das ist okay, ich habe meine Antwort von Imran Ali unten. Trotzdem vielen Dank.

InformationsquelleAutor Aiden | 2016-07-20

data-partitioning partitioning r r-caret

7

Ich davon ausgegangen, dass die createDataPartition() in Frage bezieht sich auf die caret-Paket.

Wenn sample$type argument ist ein Faktor, der in der Regel der Fall ist, die Stichprobenziehung erfolgt innerhalb der jeweiligen Klasse.

Etwas mehr Erklärung: Zum Beispiel, wenn wir die partition iris Daten in den gleichen Proportionen wie in deiner Frage.
```
attach(iris)
summary(iris)
```
Hinweis die Nummern vor den einzelnen Arten. Jetzt mit dem folgenden Befehl:
```
library(caret)
inTrain <- createDataPartition(y=Species, p=0.75, list=FALSE)  
```
inTrain würde ungefähr 75% Zeilen aus einzelnen Arten, die überprüft werden können, indem Sie den folgenden Befehl ausgeben:
```
summary(iris[inTrain,])
```
Gibt es 50 Arten in jeder Kategorie, und 38 (etwa 75%)wurden zufällig ausgewählt für den Trainings-Daten-set.

Ja, ich beziehe mich auf das caret-Paket. Beispiel$type ist die target-variable, die ich möchte, um vorherzusagen, später nach der Erstellung eines linearen Modells. Was meinst du mit "random sampling erfolgt innerhalb der jeweiligen Klasse."?
Ich habe eine weitere Erklärung für die Antwort. Können Sie verstehen, einfach durch die Auswahl verschiedener Wert p z.B. 0,5 und prüft, wie viele Zeilen ausgewählt sind, die für die Ausbildung eingestellt.

InformationsquelleAutor Imran Ali
-1

df <- iris

überprüfen der Anteil der Verteilung der abhängigen Variablen-Klassen im ursprünglichen dataset

prop.table(table(iris$Species))

R Ausgabe:
```
 setosa     versicolor  virginica 
 0.3333333  0.3333333  0.3333333 
```
erstellen der split:

split <- createDataPartition(iris$Species, p = .30, list = F)

Anwendung der split erzeugt eine geschichtete Zufallsstichprobe

Beweis:

prop.table(table(iris$Species[split]))

R Ausgabe:
```
 setosa     versicolor virginica 
 0.3333333  0.3333333  0.3333333 
```
Aus der Beurteilung: Bitte lernen Sie, wie Sie formatieren Sie Ihre Antwort richtig. Siehe: Beantworten

InformationsquelleAutor Abhilash Ponnam

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.