Information retrieval (IR) vs data mining vs Machine Learning (ML)
Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen.
Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Dies ist nur die Sicht einer person (formal ausgebildet in ML); andere sehen die Dinge ganz anders.
Machine Learning ist wahrscheinlich die homogene von diesen drei Bedingungen, und die meisten konsequent angewendet-es ist beschränkt auf die pattern-Extraktion (oder pattern-matching) algorithmen selbst.
Der Begriffe, die Sie erwähnt, "maschinelles Lernen" ist die, die am häufigsten von den Wissenschaftlichen Abteilungen zu beschreiben, Ihre Lehrpläne, Ihre wissenschaftlichen Abteilungen und Ihre Forschungsprogramme, sowie die Laufzeit, die in den meisten wissenschaftlichen Zeitschriften und Konferenzen-proceedings. ML ist eindeutig die geringsten Zusammenhang-abhängig von den Bedingungen, die Sie erwähnt.
Information Retrieval und Data Mining sind viel näher zu beschreiben kompletten kaufmännischen Prozessen--d.h., vom Benutzer Abfrage auf Abruf/Lieferung von relevanten Ergebnissen. ML-algorithmen könnte irgendwo in diesem Prozess fließen, und in der mehr anspruchsvolle Anwendungen, die Häufig sind, aber das ist nicht eine formale Voraussetzung. Außerdem ist der Begriff Data Mining scheint in der Regel verweisen die Anwendung einiger Ablauf auf big data (ich.e, > 2BG) und daher in der Regel umfasst eine verteilte Verarbeitung (map-reduce) - Komponente in der Nähe der Vorderseite des Workflows.
Also Information Retrieval (IR) und Data Mining (DM) sind im Zusammenhang mit dem maschinellen Lernen (ML) in einem Infrastruktur-Algorithmus Art und Weise. In anderen Worten, maschinelles Lernen ist eine Quelle von tools, die verwendet werden, um Probleme zu lösen in Information Retrieval. Aber es ist nur eine Quelle von tools. Aber IR nicht davon abhängig, ML-zum Beispiel einen bestimmten IR-Projekt sein könnte, Speicherung und schnelle wiederauffindbarkeit die voll-indizierte Daten zu reagieren, um einem Benutzer die Suche-Abfrage-IR,, der springende Punkt ist die Optimierung der Leistung des Datenflusses, D. H., die round-trip von Abfrage liefert die Suchergebnisse an den Benutzer. Vorhersage-oder pattern-matching-vielleicht nicht hier ganz nützlich sein. Ebenso ein DM-Projekt verwenden könnte, eine ML-Algorithmus zur prädiktiven Motor, noch ein DM-Projekt ist mehr wahrscheinlich auch mit der gesamten Abwicklung fließen-zum Beispiel, parallel computation Techniken für die effiziente Eingabe von enormer Datenmengen (TB vielleicht) das liefert eine proto-Ergebnis, um eine Verarbeitungs-engine für die Berechnung von deskriptiven Statistiken (Mittelwert, Standardabweichung, Verteilung, etc.. auf die Variablen (Spalten).
Schließlich betrachten Sie die Netflix-Preis. Dieser Wettbewerb richtete sich ausschließlich an Machine Learning--lag der Fokus auf der Vorhersage-Algorithmus, wie durch die Tatsache belegt, dass es eine einzige Erfolgskriterium: Genauigkeit der Vorhersagen zurück durch den Algorithmus. Stell dir vor, wenn dem "Netflix Prize" wurden umbenannt, wie ein Data Mining-Wettbewerb. Die Erfolgskriterien würde fast zweifellos erweitert werden, um genauer den Zugang des Algorithmus die Leistung in der eigentlichen kommerziellen Umfeld-so zum Beispiel die Allgemeine Ausführung Drehzahl (wie schnell werden die Empfehlungen dem Benutzer bereitgestellt) würde wahrscheinlich betrachtet werden, zusammen mit der Genauigkeit.
Den Begriffen "Information Retrieval" und "Data Mining" sind jetzt in die mainstream-Nutzung, aber für ein, während ich nur sah, wie diese Begriffe in meinem job Beschreibung oder in Hersteller-Literatur (in der Regel neben dem Wort "Lösung".) Bei meinem Arbeitgeber, wir haben vor kurzem engagiert ein "Data Mining" - analyst. Ich weiß nicht, was er genau macht, aber er trägt eine Krawatte zur Arbeit jeden Tag.
Ich würde versuchen, die Linie zu zeichnen wie folgt:
Information retrieval ist über die Suche nach etwas, das bereits ist Teil Ihrer Daten, so schnell wie möglich.
Machine learning sind Techniken zu verallgemeinern vorhandenes wissen zu neue Daten, so genau wie möglich.
Data mining ist vor allem über die Entdeckung von etwas versteckt in Ihren Daten, dass Sie ihn nicht wissen, bevor Sie, als "neu" wie möglich.
Sie sich überschneiden und oft mit Techniken des anderen. DM und IR-sowohl über index-Strukturen zur Beschleunigung von Prozessen. DM verwendet eine Menge von ML-Techniken, zum Beispiel ein Muster in den Daten einstellen, die nützlich für die Verallgemeinerung, die vielleicht eine neue Erkenntnis.
Sind Sie oft schwer zu trennen. Tun Sie sich selbst einen gefallen und nicht nur für die Schlagworte. Meiner Meinung nach die beste Art und Weise zu unterscheiden, Sie ist durch Ihre Absicht, wie oben angegeben: Daten finden, verallgemeinern und auf neue Daten, neue Eigenschaften von vorhandenen Daten.
Können Sie auch hinzufügen, Mustererkennung und (rechnerische?) Statistik noch ein paar Bereiche, überschneiden sich mit den drei, die Sie erwähnt.
Ich würde sagen, es gibt keine klar definierte Linie zwischen Ihnen. Was Sie trennt, ist Ihre Geschichte und Ihre Schwerpunkte. Die Statistik unterstreicht die mathematische strenge, data mining, betont Skalierung auf große Datenmengen, ML ist irgendwo dazwischen.
Data-mining wird über die Entdeckung verborgener Muster oder unbekanntem wissen, welche verwendet werden kann
für die Entscheidungsfindung von Menschen.
Maschinelles lernen über das lernen eines Modells zu klassifizieren, neue Objekte.