Wie wendet maschinelles lernen an fuzzy-matching
Sagen, dass ich ein MDM-system (Master Data Management), deren primäre Anwendung ist zu erkennen und zu verhindern, dass die Vervielfältigung von Aufzeichnungen.
Jedes mal, wenn ein Vertriebsmitarbeiter betritt ein neuer Kunde in das system, meine MDM-Plattform führt eine Prüfung auf vorhandene Datensätze, berechnet die Levenshtein-oder Jaccard-oder XYZ-Abstand zwischen paar Worte oder Sätze oder Attribute, die Auffassung Gewichtungen und Koeffizienten und gibt eine ähnlichkeits -, und so weiter.
Ihre typische fuzzy-matching-Szenario.
Ich würde gerne wissen, ob es überhaupt Sinn macht sich zu bewerben machine learning-Techniken zur Optimierung der matching-Ausgang, d.h. Duplikate mit maximaler Genauigkeit.
Und wo genau es am meisten Sinn macht.
- die Optimierung der GEWICHTE der Attribute?
- Erhöhung der Algorithmus Vertrauen durch die Vorhersage der Ausgang des Spiels?
- lernen Sie die matching-Regeln, sonst würde ich das konfigurieren in den Algorithmus?
- etwas anderes?
Gibt es auch diese hervorragende Antwort über das Thema, aber ich wusste nicht so Recht, ob der Kerl tatsächlich Gebrauch gemacht, ML ist oder nicht.
Auch mein Verständnis ist, dass die gewichtete fuzzy-matching ist bereits eine ausreichend gute Lösung, die wahrscheinlich auch aus finanzieller Sicht, denn Wann immer Sie bereitstellen, wie ein MDM-system haben Sie zu tun einige Analyse und Vorverarbeitung sowieso, werden Sie entweder manuell die Codierung der matching-Regeln oder die Ausbildung einer ML-Algorithmus.
So, ich bin mir nicht sicher, dass die Zugabe von ML würde damit einen signifikanten Wertbeitrag.
Irgendwelche Gedanken sind geschätzt.
- Meine intuition ist, dass die inkrementelle gewinnen, die Sie erzielen würde, würden es aber nicht rechtfertigen den Aufwand. Was auch interessant wäre, ist die Verwendung natürlicher Sprache zu verarbeiten/zu verstehen, um zusätzlichen Kontext bei der Suche nach möglichen Duplikate, aber es wäre kein kleines Projekt!
- Wenn Sie verfolgen dieses Projekt ein, was zu beobachten sein wird, die im wesentlichen binären Ergebnis der Aufgabe (übereinstimmung vs. nicht-übereinstimmung), kombiniert mit potenziell unausgeglichenen Datensatz (mehr nicht-übereinstimmungen als Treffer). Sie könnten am Ende mit einer Maschine, die sieht sehr genau, aber ist eigentlich nur zu sagen, was Sie ohnehin schon wissen.
- Du redest von overfitting die Ausbildung eingestellt, denke ich. Das ist eines der möglichen Probleme, die machen mich vorsichtig bei der Einführung ML in ein solches system.
- Frage mich, wenn Sie könnten Deduplizierung anstelle von das brand-new record-linkage. Scheint das gleiche Konzept.
- Es scheint mir, dass die meisten Fragen getaggt mit Deduplizierung zum entfernen von exakten übereinstimmungen. die Techniken, die Sie verwenden für, die sind ziemlich anders als die probabilistische Ansätze im Zusammenhang mit record linkage
Du musst angemeldet sein, um einen Kommentar abzugeben.
Der Hauptvorteil der Verwendung von machine learning ist die Zeitersparnis.
Ist es sehr wahrscheinlich, dass, genügend Zeit, könnten Sie hand Melodie GEWICHTE und kommen mit passenden Regeln, die sich sehr gut für Ihre bestimmten Datensatz. Ein machine-learning-Ansatz könnte eine harte Zeit haben, über Ihre hand-made-system speziell für ein bestimmtes dataset.
Jedoch, dies wird wahrscheinlich Tage dauern, um ein gutes matching-system von hand. Wenn Sie ein vorhandenes ML für matching-tool, wie Deduplizierung, dann gute GEWICHTE und Regeln gelernt werden kann in einer Stunde (inklusive Einrichtungszeit).
So, wenn Sie bereits gebaut-matching-system, das gut auf Ihre Daten, kann es nicht Wert sein, zu untersuchen ML. Aber, wenn dies ein neues Daten-Projekt, dann ist es fast sicher.
Traditionell, fuzzy-record-matching-software leiden erfordern immense Einbeziehung der Nutzer in Projekt-Parametrisierung und sachliche Kritik. Der Benutzer ist entweder erforderlich, um die verschiedenen input-Parameter und Schwellenwerte, entweder um Beispiele von übereinstimmungen und nicht-übereinstimmungen für maschinelles lernen. In beiden Fällen erhebliche user-Engagement und die Sachkenntnis ist Voraussetzung für eine erfolgreiche Analyse.
Der wichtigste Wert bei der Verwendung von unüberwachten maschinellen Lernens ist, lassen Sie die software, die figur eout die Lösung automatisch, ohne Beteiligung des Benutzers.
Es gibt mindestens einen fuzzy-match-software unter Verwendung des maschinellen Lernens, genannt "ReMaDDer": http://remaddersoft.wixsite.com/remadder