Abgleich von zwei Spalten in R

Ich habe einen großen Datensatz df (354903 Zeilen) mit zwei Spalten namens df$ColumnName und df$ColumnName.1

head(df)
       CompleteName       CompleteName.1
1   Lefebvre Arnaud Lefebvre Schuhl Anne
1.1 Lefebvre Arnaud              Abe Lyu
1.2 Lefebvre Arnaud              Abe Lyu
1.3 Lefebvre Arnaud       Louvet Nicolas
1.4 Lefebvre Arnaud   Muller Jean Michel
1.5 Lefebvre Arnaud  De Dinechin Florent

Ich versuche, um Etiketten zu erstellen, um zu sehen, Wetter wird der name der gleiche ist oder nicht.
Wenn ich versuche, einen kleinen Teil es funktioniert [1, wenn Sie gleich sind, 0 wenn nicht]:

> match(df$CompleteName[1], df$CompleteName.1[1], nomatch = 0)
[1] 0
> match(df$CompleteName[1:10], df$CompleteName.1[1:10], nomatch = 0)
[1] 0 0 0 0 0 0 0 0 0 0

Aber sobald ich schmeiße die kompletten Spalten, es gibt mir komplett andere Werte, die scheinen Unsinn zu mir:

> match(df$CompleteName, df$CompleteName.1, nomatch = 0)
[1] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101
[23] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101
[45] 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101

Sollte ich sapply? Ich habe nicht herausgefunden, ich habe versucht, diese mit einem Fehler:

 sapply(df, function(x) match(x$CompleteName, x$CompleteName.1, nomatch = 0))

Bitte um Hilfe!!!!

Sie wollen wahrscheinlich nicht passen - es gibt die passenden Werte bilden die zweite Spalte, nicht ob Sie gleich sind. Wenn Sie Zeichenfolgen verwenden, könnten Sie wahrscheinlich verwenden Sie einfach as.numeric(df$CompleteName == df$CompleteName.1)
nutzen Sie auch stringsAsFactors = FALSE im Bau Ihrer Daten.Rahmen
wie andere haben darauf hingewiesen, match funktioniert hier nicht. mein Kommentar gemeint war, hinzufügen @jeremycg 's
Es gibt auch keine Hinweise, dass diese als Faktor Spalten sowieso, oder?
Das ist nicht das, was ich meinte. Ich meine, wir haben keine Ahnung, ob diese OP hat Faktor Spalten oder nicht. Es gibt keine Beweise in der Frage, die uns sagt, ob Sie Faktor oder Charakter. Es ist keine große Sache, obwohl. Dies ist ein Grund, warum dput() ist bevorzugt, wenn die Buchungsdaten in eine Frage.

InformationsquelleAutor Saul Garcia | 2016-04-01

Schreibe einen Kommentar