Information retrieval (IR) vs data mining vs Machine Learning (ML)

Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen.

Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen?

InformationsquelleAutor Boris Yeltz | 2010-08-05

24

Dies ist nur die Sicht einer person (formal ausgebildet in ML); andere sehen die Dinge ganz anders.

Machine Learning ist wahrscheinlich die homogene von diesen drei Bedingungen, und die meisten konsequent angewendet-es ist beschränkt auf die pattern-Extraktion (oder pattern-matching) algorithmen selbst.

Der Begriffe, die Sie erwähnt, "maschinelles Lernen" ist die, die am häufigsten von den Wissenschaftlichen Abteilungen zu beschreiben, Ihre Lehrpläne, Ihre wissenschaftlichen Abteilungen und Ihre Forschungsprogramme, sowie die Laufzeit, die in den meisten wissenschaftlichen Zeitschriften und Konferenzen-proceedings. ML ist eindeutig die geringsten Zusammenhang-abhängig von den Bedingungen, die Sie erwähnt.

Information Retrieval und Data Mining sind viel näher zu beschreiben kompletten kaufmännischen Prozessen--d.h., vom Benutzer Abfrage auf Abruf/Lieferung von relevanten Ergebnissen. ML-algorithmen könnte irgendwo in diesem Prozess fließen, und in der mehr anspruchsvolle Anwendungen, die Häufig sind, aber das ist nicht eine formale Voraussetzung. Außerdem ist der Begriff Data Mining scheint in der Regel verweisen die Anwendung einiger Ablauf auf big data (ich.e, > 2BG) und daher in der Regel umfasst eine verteilte Verarbeitung (map-reduce) - Komponente in der Nähe der Vorderseite des Workflows.

Also Information Retrieval (IR) und Data Mining (DM) sind im Zusammenhang mit dem maschinellen Lernen (ML) in einem Infrastruktur-Algorithmus Art und Weise. In anderen Worten, maschinelles Lernen ist eine Quelle von tools, die verwendet werden, um Probleme zu lösen in Information Retrieval. Aber es ist nur eine Quelle von tools. Aber IR nicht davon abhängig, ML-zum Beispiel einen bestimmten IR-Projekt sein könnte, Speicherung und schnelle wiederauffindbarkeit die voll-indizierte Daten zu reagieren, um einem Benutzer die Suche-Abfrage-IR,, der springende Punkt ist die Optimierung der Leistung des Datenflusses, D. H., die round-trip von Abfrage liefert die Suchergebnisse an den Benutzer. Vorhersage-oder pattern-matching-vielleicht nicht hier ganz nützlich sein. Ebenso ein DM-Projekt verwenden könnte, eine ML-Algorithmus zur prädiktiven Motor, noch ein DM-Projekt ist mehr wahrscheinlich auch mit der gesamten Abwicklung fließen-zum Beispiel, parallel computation Techniken für die effiziente Eingabe von enormer Datenmengen (TB vielleicht) das liefert eine proto-Ergebnis, um eine Verarbeitungs-engine für die Berechnung von deskriptiven Statistiken (Mittelwert, Standardabweichung, Verteilung, etc.. auf die Variablen (Spalten).

Schließlich betrachten Sie die Netflix-Preis. Dieser Wettbewerb richtete sich ausschließlich an Machine Learning--lag der Fokus auf der Vorhersage-Algorithmus, wie durch die Tatsache belegt, dass es eine einzige Erfolgskriterium: Genauigkeit der Vorhersagen zurück durch den Algorithmus. Stell dir vor, wenn dem "Netflix Prize" wurden umbenannt, wie ein Data Mining-Wettbewerb. Die Erfolgskriterien würde fast zweifellos erweitert werden, um genauer den Zugang des Algorithmus die Leistung in der eigentlichen kommerziellen Umfeld-so zum Beispiel die Allgemeine Ausführung Drehzahl (wie schnell werden die Empfehlungen dem Benutzer bereitgestellt) würde wahrscheinlich betrachtet werden, zusammen mit der Genauigkeit.

Den Begriffen "Information Retrieval" und "Data Mining" sind jetzt in die mainstream-Nutzung, aber für ein, während ich nur sah, wie diese Begriffe in meinem job Beschreibung oder in Hersteller-Literatur (in der Regel neben dem Wort "Lösung".) Bei meinem Arbeitgeber, wir haben vor kurzem engagiert ein "Data Mining" - analyst. Ich weiß nicht, was er genau macht, aber er trägt eine Krawatte zur Arbeit jeden Tag.
- (+1) ich mag auch den Unterschied von Radford Neale: "Viele machine learning-Probleme haben eine große Anzahl von Variablen, die — vielleicht mit 10.000, - oder 100.000, - oder mehr (zB Gene, Pixel). Data-mining-Anwendungen, oft mit sehr großen Zahl von Fällen — manchmal in die Millionen." (sta414, week1).
- Data mining leidet auch unter ein total Modewort. Die heutige Berechnung der Mittelwert von "big data", die Daten bereits als "data mining" von einigen, leider.
- Er trägt eine Krawatte zu arbeiten, nicht wahr. Das gibt mir eine sehr gute Idee von dem, was er tun könnte 🙂
InformationsquelleAutor doug
16

Ich würde versuchen, die Linie zu zeichnen wie folgt:

Information retrieval ist über die Suche nach etwas, das bereits ist Teil Ihrer Daten, so schnell wie möglich.

Machine learning sind Techniken zu verallgemeinern vorhandenes wissen zu neue Daten, so genau wie möglich.

Data mining ist vor allem über die Entdeckung von etwas versteckt in Ihren Daten, dass Sie ihn nicht wissen, bevor Sie, als "neu" wie möglich.

Sie sich überschneiden und oft mit Techniken des anderen. DM und IR-sowohl über index-Strukturen zur Beschleunigung von Prozessen. DM verwendet eine Menge von ML-Techniken, zum Beispiel ein Muster in den Daten einstellen, die nützlich für die Verallgemeinerung, die vielleicht eine neue Erkenntnis.

Sind Sie oft schwer zu trennen. Tun Sie sich selbst einen gefallen und nicht nur für die Schlagworte. Meiner Meinung nach die beste Art und Weise zu unterscheiden, Sie ist durch Ihre Absicht, wie oben angegeben: Daten finden, verallgemeinern und auf neue Daten, neue Eigenschaften von vorhandenen Daten.
- Ich bin nicht einverstanden mit Ihrer Sicht auf die Maschine lernen. Ihre Ansicht ist mehr konzentrierte sich auf das betreute lernen (wie Sie Ihre Aussage wäre richtig). Unüberwachtes lernen ist jedoch über die Suche nach mustern, die man nicht kennen, also mit keine Vorherige vorhandenes wissen.
- Unüberwachtes lernen ist ein oxymoron. Unüberwachte Methoden sind DM, nicht ML. Sie lernen nicht, wie konnte Sie sich also nicht, drücken Sie Sie in der learning-Sicht.
- Ich glaube, Sie beziehen sich auf die Lagerung, die unüberwachten Methoden nicht denken, nachdem Sie ausgeführt haben. Ich bin damit einverstanden, dass die Terminologie ist fehlerhaft in AI, aber so wie es momentan steht, unbeaufsichtigt ist unter machine learning, also ich bin nicht einverstanden mit deinem post noch. Auch DM nicht unbedingt verwenden unüberwachten Lernmethoden (obwohl es meistens tut), so sagen unüberwachtes lernen ist gleich DM ist in der Tat sehr falsch.
- Definieren Sie "lernen" wenn wir wollen, dass man hier überall. Zu mir, "lernen" ist die Verallgemeinerung von Trainingsdaten. Ich sehe nicht ein, dies geschieht z.B. bei clustering - es gibt keine Trainingsdaten.
- Ich persönlich verwende die englische Bedeutung des Wortes, "Den Erwerb von wissen oder Fähigkeiten durch Studium, Erfahrung oder gelehrt werden.". Betreut Bezugnahme auf beigebracht wird, sich über das lernen von Daten und unbeaufsichtigt über Studium/Erfahrung daher, es lernt. Also ich denke, unsere unterschiedlichen Ansichten ergeben sich aus der interpretation des Wortes lernen.
- Um einige zu verlängern. Aber auch, weil ich finde, dass die ML Sicht einfach nicht zu verstehen die meisten unüberwachten Methoden, weil die Besessenheit, mit der Optimierung einer bestimmten Qualität Kriterium. Anstatt den Leuten zu sagen, es ist die "same, but different", es würde den Menschen helfen, eine Menge zu sehen, es ist ein orthogonaler Ansatz: discovery anstatt zu lernen.
InformationsquelleAutor Anony-Mousse
4

Können Sie auch hinzufügen, Mustererkennung und (rechnerische?) Statistik noch ein paar Bereiche, überschneiden sich mit den drei, die Sie erwähnt.

Ich würde sagen, es gibt keine klar definierte Linie zwischen Ihnen. Was Sie trennt, ist Ihre Geschichte und Ihre Schwerpunkte. Die Statistik unterstreicht die mathematische strenge, data mining, betont Skalierung auf große Datenmengen, ML ist irgendwo dazwischen.

InformationsquelleAutor dimatura
0

Data-mining wird über die Entdeckung verborgener Muster oder unbekanntem wissen, welche verwendet werden kann
für die Entscheidungsfindung von Menschen.

Maschinelles lernen über das lernen eines Modells zu klassifizieren, neue Objekte.

InformationsquelleAutor Razan Paul

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.