Verteiltes Web-crawling mit Apache Spark - Ist es Möglich?

Eine interessante Frage von mir, wenn ich an einem interview über web mining. Die Frage war, ist es möglich zu Crawlen Websites mit Apache Spark?

Dachte ich, dass es möglich war, denn es unterstützt die verteilte Rechenleistung von Spark. Nach dem interview habe ich gesucht, aber konnte Sie nicht finden jede interessante Antwort. Geht das mit Spark?

  • Versuchen Nutch. Dies scheint wie eine schlechte Idee übrigens. Spark ist ein compute engine. So etwas wie Akka oder LXD wenn Sie brauchen Container sind besser, wenn Sie zu verteilen an alle. Python ist eine furchtbar langsam, aber sehr gut durchdachte Sprache (ein paradox). Vielleicht sind Sie von dort herkommen. Ich bin die Erreichung von 1.000.000 Seiten pro Tag und pro Quelle mit einem einzigen Knoten laufen meine Ziege Grazer Pakete auf Github. Funke ist gut gebaut für Berechnungen, nicht aber die Vernetzung. github.com/asevans48. Ich Plane API support, Vertrieb; in der Regel schwerer als Scrapy.
InformationsquelleAutor New Man | 2015-04-29
Schreibe einen Kommentar