Wie wendet maschinelles lernen an fuzzy-matching

Sagen, dass ich ein MDM-system (Master Data Management), deren primäre Anwendung ist zu erkennen und zu verhindern, dass die Vervielfältigung von Aufzeichnungen.

Jedes mal, wenn ein Vertriebsmitarbeiter betritt ein neuer Kunde in das system, meine MDM-Plattform führt eine Prüfung auf vorhandene Datensätze, berechnet die Levenshtein-oder Jaccard-oder XYZ-Abstand zwischen paar Worte oder Sätze oder Attribute, die Auffassung Gewichtungen und Koeffizienten und gibt eine ähnlichkeits -, und so weiter.

Ihre typische fuzzy-matching-Szenario.

Ich würde gerne wissen, ob es überhaupt Sinn macht sich zu bewerben machine learning-Techniken zur Optimierung der matching-Ausgang, d.h. Duplikate mit maximaler Genauigkeit.

Und wo genau es am meisten Sinn macht.

  • die Optimierung der GEWICHTE der Attribute?
  • Erhöhung der Algorithmus Vertrauen durch die Vorhersage der Ausgang des Spiels?
  • lernen Sie die matching-Regeln, sonst würde ich das konfigurieren in den Algorithmus?
  • etwas anderes?

Gibt es auch diese hervorragende Antwort über das Thema, aber ich wusste nicht so Recht, ob der Kerl tatsächlich Gebrauch gemacht, ML ist oder nicht.

Auch mein Verständnis ist, dass die gewichtete fuzzy-matching ist bereits eine ausreichend gute Lösung, die wahrscheinlich auch aus finanzieller Sicht, denn Wann immer Sie bereitstellen, wie ein MDM-system haben Sie zu tun einige Analyse und Vorverarbeitung sowieso, werden Sie entweder manuell die Codierung der matching-Regeln oder die Ausbildung einer ML-Algorithmus.

So, ich bin mir nicht sicher, dass die Zugabe von ML würde damit einen signifikanten Wertbeitrag.

Irgendwelche Gedanken sind geschätzt.

  • Meine intuition ist, dass die inkrementelle gewinnen, die Sie erzielen würde, würden es aber nicht rechtfertigen den Aufwand. Was auch interessant wäre, ist die Verwendung natürlicher Sprache zu verarbeiten/zu verstehen, um zusätzlichen Kontext bei der Suche nach möglichen Duplikate, aber es wäre kein kleines Projekt!
  • Wenn Sie verfolgen dieses Projekt ein, was zu beobachten sein wird, die im wesentlichen binären Ergebnis der Aufgabe (übereinstimmung vs. nicht-übereinstimmung), kombiniert mit potenziell unausgeglichenen Datensatz (mehr nicht-übereinstimmungen als Treffer). Sie könnten am Ende mit einer Maschine, die sieht sehr genau, aber ist eigentlich nur zu sagen, was Sie ohnehin schon wissen.
  • Du redest von overfitting die Ausbildung eingestellt, denke ich. Das ist eines der möglichen Probleme, die machen mich vorsichtig bei der Einführung ML in ein solches system.
  • Frage mich, wenn Sie könnten Deduplizierung anstelle von das brand-new record-linkage. Scheint das gleiche Konzept.
  • Es scheint mir, dass die meisten Fragen getaggt mit Deduplizierung zum entfernen von exakten übereinstimmungen. die Techniken, die Sie verwenden für, die sind ziemlich anders als die probabilistische Ansätze im Zusammenhang mit record linkage
InformationsquelleAutor TXV | 2017-04-12
Schreibe einen Kommentar