Wie kann ich mit fuzzy-match-strings aus zwei datasets?

Habe ich gearbeitet, auf eine Weise zu verbinden zwei Datensätze basiert auf einem unvollkommenen string, wie ein name einer Firma. In der Vergangenheit musste ich mit zwei sehr schmutzig Listen, eine Liste hatte, Namen und finanziellen Informationen, die andere Liste hatte Namen und Adresse. Weder hatte eindeutige IDs, die entsprechend auf! DAVON AUSGEHEN, DASS DIE REINIGUNG BEREITS ANGEWENDET WURDE UND ES VIELLEICHT TIPPFEHLER UND EINFÜGUNGEN.

Bisher AGREP ist das nächste tool, das ich gefunden habe, die funktionieren könnte. Ich kann verwenden Sie die levenshtein-Distanzen in den AGREP-Paket, das Messen der Anzahl von Deletionen, Insertionen und Substitutionen zwischen zwei Zeichenketten. AGREP zurückkehren wird der string mit dem kleinsten Abstand (den meisten ähnlich).

Aber ich habe schon Schwierigkeiten haben, drehen Sie diesen Befehl auf einen einzelnen Wert anwenden, um einen ganzen Daten-frame. Ich habe grob verwendet eine for-Schleife zu wiederholen, AGREP-Funktion, aber es muss einen einfacheren Weg.

Finden Sie den folgenden code:

a<-data.frame(name=c('Ace Co','Bayes', 'asd', 'Bcy', 'Baes', 'Bays'),price=c(10,13,2,1,15,1))
b<-data.frame(name=c('Ace Co.','Bayes Inc.','asdf'),qty=c(9,99,10))

for (i in 1:6){
    a$x[i] = agrep(a$name[i], b$name, value = TRUE, max = list(del = 0.2, ins = 0.3, sub = 0.4))
    a$Y[i] = agrep(a$name[i], b$name, value = FALSE, max = list(del = 0.2, ins = 0.3, sub = 0.4))
}

Basierend auf alle feedback und einige stochern von mir, ich habe eine Funktion, die lösen mein problem genauer. Code kann hier gefunden werden: github.com/Adamishere/Fuzzymatching/blob/master/...
danke, dass Sie diese Funktion. Dies ist ganz nützlich. Jedoch bin ich nicht in der Lage, meine Spalte in string1, string2 und id2. Meine Daten werden in Daten.Tabelle also nicht sicher, wie soll ich Ihnen übergeben, wenn Sie die Funktion aufrufen. Könnten Sie bitte vorschlagen. Sorry, wenn meine Frage sehr basic, ich habe angefangen zu lernen, dass R und noch einen langen Weg zu gehen
Ich würde nur die Daten verwenden.Rahmen(), dann einmal das Spiel fertig ist, konvertieren Sie die Daten.Tabelle()
die fuzzyjoin-Paket könnte helfen - siehe Antwort unten mit fuzzyjoin::stringdist_left_join

InformationsquelleAutor A L | 2014-10-16

fuzzy-comparison fuzzy-search r string-matching

13

Die Lösung hängt von der gewünschten Kardinalität von Ihr passendes a zu b. Wenn es eins-zu-eins, erhalten Sie die nächsten drei Spiele oben. Wenn es viele-zu-eins, Sie erhalten sechs.

Eins-zu-eins-Fall (erfordert Zuordnung Algorithmus):

Wenn ich habe, um dies zu tun, bevor ich es zu behandeln, als eine Abtretung problem mit einer Distanz-matrix und eine Zuordnung Heuristik (greedy-Zuordnung unten). Wenn Sie möchten, eine "optimale" Lösung, Sie wären besser dran mit optim.

Nicht vertraut mit AGREP aber hier ist Beispiel mit stringdist für Ihre Distanz-matrix.
```
library(stringdist)
d <- expand.grid(a$name,b$name) # Distance matrix in long form
names(d) <- c("a_name","b_name")
d$dist <- stringdist(d$a_name,d$b_name, method="jw") # String edit distance (use your favorite function here)

# Greedy assignment heuristic (Your favorite heuristic here)
greedyAssign <- function(a,b,d){
  x <- numeric(length(a)) # assgn variable: 0 for unassigned but assignable, 
  # 1 for already assigned, -1 for unassigned and unassignable
  while(any(x==0)){
    min_d <- min(d[x==0]) # identify closest pair, arbitrarily selecting 1st if multiple pairs
    a_sel <- a[d==min_d & x==0][1] 
    b_sel <- b[d==min_d & a == a_sel & x==0][1] 
    x[a==a_sel & b == b_sel] <- 1
    x[x==0 & (a==a_sel|b==b_sel)] <- -1
  }
  cbind(a=a[x==1],b=b[x==1],d=d[x==1])
}
data.frame(greedyAssign(as.character(d$a_name),as.character(d$b_name),d$dist))
```
Produziert die Zuordnung:
```
       a          b       d
1 Ace Co    Ace Co. 0.04762
2  Bayes Bayes Inc. 0.16667
3    asd       asdf 0.08333
```
Ich bin sicher, es gibt eine viel elegantere Art und Weise zu tun, die gierig Zuordnung Heuristik, aber die oben genannten arbeiten für mich.

Viele-zu-eins-Fall (keine Zuordnung-problem):
```
do.call(rbind, unname(by(d, d$a_name, function(x) x[x$dist == min(x$dist),])))
```
Erzeugt das Ergebnis:
```
   a_name     b_name    dist
1  Ace Co    Ace Co. 0.04762
11   Baes Bayes Inc. 0.20000
8   Bayes Bayes Inc. 0.16667
12   Bays Bayes Inc. 0.20000
10    Bcy Bayes Inc. 0.37778
15    asd       asdf 0.08333
```
Edit: verwenden method="jw" zu produzieren gewünschten Ergebnisse. Sehen help("stringdist-package")
- Danke! Das ist sehr hilfreich. Ich bin zwar neugierig, in der viele-zu-eins-Fall, die Ergebnisse scheinen nicht korrekt, da Sie nicht wieder die besten Spiele, nach der ersten Zeile.
- Lee, hängt davon ab, wie definieren Sie "am besten" entspricht. Sehen ?stringdist oder ?adist mehr auf die Standard-Distanz-Metriken. Durch die Verwendung dieser Funktionen mit default-Argumenten "Bayes" ist ein Bearbeiten näher an "asdf" als es ist "Bayes-Inc."
- Lee versuchen es so bearbeitet...
- Ah ich sehe! Danke, so war es eine Frage der Distanz-Metrik verwendet, die verursacht, dass. Das ist wieder sehr hilfreich!!!
- Ich war auf der Suche nach einige Vorschläge auf, wie wir bekommen können die Daten für bestimmte entsprechende Spalte des Spiels ab dem 2. Datensatz. Ich habe die Frage gepostet an - stackoverflow.com/questions/42749447/..., Es wäre eine große Hilfe, wenn Sie können etwas vorschlagen
- Das war sehr hilfreich - vielen Dank. Ich fand diesen Waagen viel weiter, wenn Sie filter d$dist vor dem Aufruf der greedyAssign Funktion, z.B. d <- d[d$dist < 0.2,] . Nach der Ausführung den code von oben (ohne filter) für eine Probe, können Sie in der Regel wählen Sie eine rohe cutoff-Punkt, jenseits dessen die vorgeschlagenen Spiele sind unwahrscheinlich, nützlich zu sein.
- In die erweitern.raster(), ich brauche, um meine ID-Spalten neben der fuzzy-matches (a_name) und die ID von b neben b_name. Ist das möglich hier? Ich werde es wirklich schätzen.
InformationsquelleAutor C8H10N4O2

Hier ist eine Lösung mit der fuzzyjoin Paket. Es nutzt dplyr-wie syntax und stringdist als eine der möglichen Arten von fuzzy-matching.

Als vorgeschlagen von C8H10N4O2, die stringdist method="jw" schafft die besten Spiele für dein Beispiel.

Als vorgeschlagen von dgrtwo, die Entwickler von fuzzyjoin, habe ich eine große max_dist und dann dplyr::group_by und dplyr::top_n bekommen nur die beste übereinstimmung mit minimalem Abstand.

a <- data.frame(name = c('Ace Co', 'Bayes', 'asd', 'Bcy', 'Baes', 'Bays'),
                price = c(10, 13, 2, 1, 15, 1))
b <- data.frame(name = c('Ace Co.', 'Bayes Inc.', 'asdf'),
                qty = c(9, 99, 10))

library(fuzzyjoin); library(dplyr);

stringdist_join(a, b, 
                by = "name",
                mode = "left",
                ignore_case = FALSE, 
                method = "jw", 
                max_dist = 99, 
                distance_col = "dist") %>%
  group_by(name.x) %>%
  top_n(1, -dist)

#> # A tibble: 6 x 5
#> # Groups:   name.x [6]
#>   name.x price     name.y   qty       dist
#>   <fctr> <dbl>     <fctr> <dbl>      <dbl>
#> 1 Ace Co    10    Ace Co.     9 0.04761905
#> 2  Bayes    13 Bayes Inc.    99 0.16666667
#> 3    asd     2       asdf    10 0.08333333
#> 4    Bcy     1 Bayes Inc.    99 0.37777778
#> 5   Baes    15 Bayes Inc.    99 0.20000000
#> 6   Bays     1 Bayes Inc.    99 0.20000000

InformationsquelleAutor Arthur Yip

Ich bin nicht sicher, ob dies eine sinnvolle Richtung für Sie, John Andrews, aber es gibt Ihnen ein weiteres tool (von der RecordLinkage - Paket) und helfen könnte.

install.packages("ipred")
install.packages("evd")
install.packages("RSQLite")
install.packages("ff")
install.packages("ffbase")
install.packages("ada")
install.packages("~/RecordLinkage_0.4-1.tar.gz", repos = NULL, type = "source")

require(RecordLinkage) # it is not on CRAN so you must load source from Github, and there are 7 dependent packages, as per above

compareJW <- function(string, vec, cutoff) {
  require(RecordLinkage)
  jarowinkler(string, vec) > cutoff
}

a<-data.frame(name=c('Ace Co','Bayes', 'asd', 'Bcy', 'Baes', 'Bays'),price=c(10,13,2,1,15,1))
b<-data.frame(name=c('Ace Co.','Bayes Inc.','asdf'),qty=c(9,99,10))
a$name <- as.character(a$name)
b$name <- as.character(b$name)

test <- compareJW(string = a$name, vec = b$name, cutoff = 0.8)  # pick your level of cutoff, of course
data.frame(name = a$name, price = a$price, test = test)

> data.frame(name = a$name, price = a$price, test = test)
    name price  test
1 Ace Co    10  TRUE
2  Bayes    13  TRUE
3    asd     2  TRUE
4    Bcy     1 FALSE
5   Baes    15  TRUE
6   Bays     1 FALSE

RecordLinkage wieder auf CRAN 2015: cran.r-project.org/web/packages/RecordLinkage/index.html

InformationsquelleAutor lawyeR

Vereinbart mit den oben Antwort "Nicht vertraut mit AGREP aber hier ist Beispiel mit stringdist für Ihre Distanz-matrix." aber add-on die Signatur-Funktion, wie unten aus Das Zusammenführen von Daten-Sets, Basierend auf Teilweise Übereinstimmenden Daten-Elemente wird genauer sein, da die Berechnung der LV basiert auf position/Ergänzung/Löschung

##Here's where the algorithm starts...
##I'm going to generate a signature from country names to reduce some of the minor differences between strings
##In this case, convert all characters to lower case, sort the words alphabetically, and then concatenate them with no spaces.
##So for example, United Kingdom would become kingdomunited
##We might also remove stopwords such as 'the' and 'of'.
signature=function(x){
  sig=paste(sort(unlist(strsplit(tolower(x)," "))),collapse='')
  return(sig)
}

InformationsquelleAutor YummyLin Yang

Benutze ich lapply für jene Umstände:

yournewvector: lapply(yourvector$yourvariable, agrep, yourothervector$yourothervariable, max.distance=0.01),

dann schreiben Sie es als csv-es ist nicht so einfach:

write.csv(matrix(yournewvector, ncol=1), file="yournewvector.csv", row.names=FALSE)

InformationsquelleAutor user3909910

-1

Hier ist was ich für immer, wie viele Male ein Unternehmen wird in einer Liste, obwohl die Firma Namen sind ungenau Spiele,

Schritt.1 Installieren phonics-Paket

Schritt.2 erstellen Sie eine neue Spalte namens "soundexcodes" in "mylistofcompanynames"

Schritt.3 Verwenden soundex-Funktion zurück soundex-codes der Firmennamen in "soundexcodes"

Schritt.4 Kopieren Sie den Firmennamen UND die entsprechenden soundex-code in eine neue Datei (2 Spalten namens "companynames" und "soundexcode"), genannt "companysoundexcodestrainingfile"

Schritt.5 Entfernen Sie Duplikate von soundexcodes in "companysoundexcodestrainingfile"

Schritt.6 Gehen Sie durch die Liste der übrigen Firmennamen und die Namen ändern, wie Sie wollen es erscheinen in Ihrer ursprünglichen Firma

Beispiel:
Amazon Inc A625 kann Amazon A625
Accenture Limited A455 werden kann Accenture A455

Schritt.6 Führen Sie eine left_join oder (einfache SVERWEIS) zwischen companysoundexcodestrainingfile$soundexcodes und mylistofcompanynames$soundexcodes von "soundexcodes"

Schritt.7 Das Ergebnis sollte die ursprüngliche Liste mit der neuen Spalte mit der Bezeichnung "co.y", die den Namen des Unternehmens, die Art und Weise Sie es verlassen haben, in der Trainings-Datei.

Schritt.8 Art "co.y" und prüfen, ob die meisten den Namen des Unternehmens abgestimmt sind richtig,wenn ja, ersetzen Sie den alten Firmennamen mit den neuen gegeben durch SVERWEIS-von der soundex-code.

InformationsquelleAutor Nikhil Muthukrishnan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.