Tag: fuzzy-comparison

Fuzzy-Vergleich ist der umgangssprachliche name für die Ungefähre String-matching, die Technik der Suche nach Zeichenfolgen, die einem Muster entsprechen ungefähr (ziemlich genau).

Vergleichen (ähnliche) Bilder mit Python/PIL

Anzahl der Antworten 2 Antworten
Ich versuche zu berechnen, die ähnlichkeit (Lesen: die Levenshtein-Distanz) der beiden Bilder, die mit Python 2.6 PIL -. Ich planen, uns e die python-levenshtein - Bibliothek für den schnellen Vergleich. Wichtigste Frage: Was ist eine gute Strategie

Wie kann ich mit fuzzy-match-strings aus zwei datasets?

Anzahl der Antworten 6 Antworten
Habe ich gearbeitet, auf eine Weise zu verbinden zwei Datensätze basiert auf einem unvollkommenen string, wie ein name einer Firma. In der Vergangenheit musste ich mit zwei sehr schmutzig Listen, eine Liste hatte, Namen und finanziellen Informationen,

Wie wendet maschinelles lernen an fuzzy-matching

Anzahl der Antworten 2 Antworten
Sagen, dass ich ein MDM-system (Master Data Management), deren primäre Anwendung ist zu erkennen und zu verhindern, dass die Vervielfältigung von Aufzeichnungen. Jedes mal, wenn ein Vertriebsmitarbeiter betritt ein neuer Kunde in das system, meine MDM-Plattform führt

Fuzzy-String-Vergleich

Anzahl der Antworten 4 Antworten
Was ich bin darum bemüht, zu vervollständigen ist ein Programm, das liest die in einer Datei, und vergleichen Sie jeden Satz nach dem ursprünglichen Satz. Der Satz ist eine perfekte Ergänzung zu den originalen erhalten eine Punktzahl

Fuzzy Reguläre Ausdrücke

Anzahl der Antworten 6 Antworten
In meiner Arbeit habe ich mit sehr guten Ergebnissen eingesetzt Ungefähre string-matching-algorithmen wie Damerau–Levenshtein-Distanz, um meinen code weniger anfällig für Schreibfehler. Nun ich habe ein Bedürfnis zu entsprechen Saiten gegen einfache reguläre Ausdrücke wie TV Schedule for

Techniken zum Auffinden von nahezu doppelten Datensätzen

Anzahl der Antworten 4 Antworten
Ich bin versucht zu bereinigen, eine Datenbank, die im Laufe der Jahre erworben hatte viele doppelte Datensätze, mit leicht unterschiedlichen Namen. Zum Beispiel, in der Tabelle Unternehmen, es gibt Namen wie "Company Limited" und "SOME COMPANY LTD!".