Nicht-Hadoop-eher ein Netz als ein cluster?
Ich habe gehört, der Begriff "Hadoop-Clusters", aber es scheint zu sein, im Gegensatz zu dem, was mein Verständnis einer "grid" - und "cluster" sind.
Meine Verständnis ist, dass ein grid ist ein verteiltes system, bestehend aus 2+ Computern (Knoten), die alle teilen computing-Ressourcen mit einander zu lösen das gleiche problem. Ergo, wenn Sie versuchten, zu tun, irgendeine Art von heavy-duty-scientific computing, number-crunching, erstellen Sie ein raster mit Maschinen zu arbeiten alle zusammen über das gleiche problem.
Meine Verständnis einer cluster ist, dass es ein verteiltes system, bestehend aus 2+ Computern, die alle arbeiten selbständig zu lösen, verschiedene, kleinere Probleme. Daher werden Sie in der Regel Platz ein cluster hinter einem load-balancer, und lassen Sie jeden Knoten lösen ein kleines problem, wenn der load balancer weist er ein.
So, wenn mein Verständnis richtig ist, dann verwenden Sie raster zu lösen, eine kleine Zahl von gigantischen (rechenintensive) jobs, und Cluster zu lösen, eine hohe Anzahl von kleine (sehr leichte) Arbeitsplätze.
Also erstmal, wenn mein Verständnis von Netzwerken und Clustern ist falsch, bitte beginnen Sie, indem korrigiert wird, wie mir!
Vorausgesetzt, ich bin mehr oder weniger korrekt ist, dann warum haben wir Hadoop Cluster? Wenn der Zweck von Hadoop und ist eine Big-Data-problem (ein rechnerisch-schweres problem) und verwenden viel von commodity-hardware zu erstellen, die viele Knoten in der Lage, die Zusammenarbeit mit anderen zu lösen das gleiche problem, ist das nicht ein grid?
Ist es richtiger zu sagen, dass wir Hadoop Netze? Warum oder warum nicht? Vielen Dank im Voraus!
- Wikipedia hat einige Beispiele für grid-computing, die könnte klar den Unterschied.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Ihrem Verständnis ist teilweise richtig. Ich möchte noch hinzufügen, ein paar Dinge, die würde wohl auch klar etwas Luft. Es ist richtig, dass Hadoop verwendet wird, zu lösen BigData-Probleme. Aber es tut dies durch die Umwandlung von, 1 große Aufgabe in ein Nein. von kleineren Aufgaben, und jede dieser kleineren Aufgaben, die gelöst wird, auf verschiedenen Rechnern(Knoten) in die isolation. Die Knoten kommunizieren nicht mit einander und Sie teilen nicht die Ressource. Jede Maschine hat Ihren eigenen Speicher, der CPU und der Festplatte, die verwendet wird, während der Verarbeitung und hat nichts zu tun mit anderen Maschinen Ressourcen.
So, wenn Sie es zu analysieren mikroskopisch werden Sie feststellen, dass während Sie versuchen, Sie zu lösen "1" großes problem, Sie schließlich am Ende der Verarbeitung "n" kleinere isolierte Probleme als das Gegenteil von grid-computing, wobei alle Knoten, die versuchen, dasselbe problem zu lösen.
Ein weiterer wichtiger Aspekt ist, dass in einem Raster Ihre Interaktion mit dem system als einem ganzen und nicht mit einem beliebigen Knoten(N) in allem was nicht der Fall ist, wenn Sie uns einen job zu hadoop-cluster für die Verarbeitung. Sie senden Ihre Arbeit an der "master" - Knoten und nicht haben, um sorgen über die "Sklaven" oder die task-Verteilung etc. Sobald Ihr Auftrag vorgelegt worden, der master-Knoten es wird automatisch aufgeteilt in "n" kleinere jobs und der Meister kümmert sich um die Einleitung des Prozesses auf "n" unterschiedlichen Systemen automatisiert.
Hadoop stellt tatsächlich das "Distributed Computing" - Paradigma und man könnte es als eine Teilmenge des Grid-Computing.
Eine weitere Sache. Sie haben angegeben, über "load balancing" in deiner Frage. Sie könnte tatsächlich zu visualisieren, während Sie mit hadoop. Wenn Sie mit der Verarbeitung beginnen einen job auf einem hadoop-cluster alle "n" kleiner jobs('coz der Aufgabe aufteilen, wie früher angegeben) verarbeitet in einer ausgewogenen Art und Weise. Symmetrisch bedeutet hier, dass alle slave-Knoten gleich(etwa, wenn auch nicht perfekt) Datenmengen zu verarbeiten, die auf gleich(im Idealfall) eine Menge von Ressourcen.
Hoffe, das beantwortet Ihre Frage.