Verteiltes Web-crawling mit Apache Spark - Ist es Möglich?

Eine interessante Frage von mir, wenn ich an einem interview über web mining. Die Frage war, ist es möglich zu Crawlen Websites mit Apache Spark?

Dachte ich, dass es möglich war, denn es unterstützt die verteilte Rechenleistung von Spark. Nach dem interview habe ich gesucht, aber konnte Sie nicht finden jede interessante Antwort. Geht das mit Spark?

Versuchen Nutch. Dies scheint wie eine schlechte Idee übrigens. Spark ist ein compute engine. So etwas wie Akka oder LXD wenn Sie brauchen Container sind besser, wenn Sie zu verteilen an alle. Python ist eine furchtbar langsam, aber sehr gut durchdachte Sprache (ein paradox). Vielleicht sind Sie von dort herkommen. Ich bin die Erreichung von 1.000.000 Seiten pro Tag und pro Quelle mit einem einzigen Knoten laufen meine Ziege Grazer Pakete auf Github. Funke ist gut gebaut für Berechnungen, nicht aber die Vernetzung. github.com/asevans48. Ich Plane API support, Vertrieb; in der Regel schwerer als Scrapy.

InformationsquelleAutor New Man | 2015-04-29

6

Wie etwa auf diese Weise:

Ihre Anwendung würde eine Reihe von Webseiten-URLs als Eingabe für die crawler, wenn Sie die nur eine normale app, Sie könnte es tun, wie folgt:
1. split alle web-Seiten gecrawlt werden, in eine Liste der separaten Website, jeder Website ist klein genug, um passen in einen einzigen thread gut:
  for example: you have to crawl www.example.com/news from 20150301 to 20150401, split results can be: [www.example.com/news/20150301, www.example.com/news/20150302, ..., www.example.com/news/20150401]
2. weisen Sie jeder Basis-url(www.example.com/news/20150401) zu einem einzigen thread, ist es in den threads, wo die wirklich Daten abrufen passiert
3. speichern Sie das Ergebnis in jedem thread in Dateisystem.
Wenn die Anwendung sich ein Funke ein, gleiche Prozedur passiert, aber Kapseln Zündkerzen Vorstellung: wir können eine CrawlRDD das gleiche tun Personal:
1. Split-Websites: def getPartitions: Array[Partition] ist ein guter Ort, um die split-Aufgabe.
2. Threads zu durchforsten jeden split: def compute(part: Partition, context: TaskContext): Iterator[X] werden an alle verteilt, die Vollzieher Ihrer Anwendung parallel ausgeführt werden.
3. speichern Sie die rdd in HDFS.
Finale Programm sieht wie folgt aus:
```
class CrawlPartition(rddId: Int, idx: Int, val baseURL: String) extends Partition {}

class CrawlRDD(baseURL: String, sc: SparkContext) extends RDD[X](sc, Nil) {

  override protected def getPartitions: Array[CrawlPartition] = {
    val partitions = new ArrayBuffer[CrawlPartition]
    //split baseURL to subsets and populate the partitions
    partitions.toArray
  }

  override def compute(part: Partition, context: TaskContext): Iterator[X] = {
    val p = part.asInstanceOf[CrawlPartition]
    val baseUrl = p.baseURL

    new Iterator[X] {
       var nextURL = _
       override def hasNext: Boolean = {
         //logic to find next url if has one, fill in nextURL and return true
         //else false
       }          

       override def next(): X = {
         //logic to crawl the web page nextURL and return the content in X
       }
    } 
  }
}

object Crawl {
  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setAppName("Crawler")
    val sc = new SparkContext(sparkConf)
    val crdd = new CrawlRDD("baseURL", sc)
    crdd.saveAsTextFile("hdfs://path_here")
    sc.stop()
  }
}
```
- Ich habe keine Vorherige Erfahrung in der Funke, ich möchte anfangen zu Funken, insbesondere mit Java. Die Art und Weise Sie erklärt, korrekt. Es kann viele web-Seiten. Ich brauche, um split-url oder url-Seiten. Können Sie mir empfehlen eine nützliche Ressourcen, um starten Sie Funken in java?? Dann ist deine Antwort besser verstehen können.. Danke für Eure Antworten
- href="http://spark.apache.org/docs/latest/index.html" >Spark-Doc ist ein guter Ort, um zu starten
- hat die Antwort oben funktioniert? Wenn ja, bitte erwägen, akzeptieren Sie es 🙂
- Yijie Shen, ich habe angefangen, Funke aus, dass word count Beispiel in der Funke Beispiel. Ich habe installiert Scala 2.10.4, Hadoop 2.7.0 (localhost:50070/dfshealth.html#tab-übersicht),Funke 1.3.1 (lokal, host:8080).wie verknüpfe ich diese Dinge in stand-alone-Modus?
InformationsquelleAutor yjshen
11

Funke fügt im wesentlichen keinen Wert auf diese Aufgabe.

Sicher, Sie tun können, verteilte Crawlen, aber gut crawling-tools unterstützen bereits diese aus der box. Die Datenstrukturen zur Verfügung gestellt von Spark wie RRDs sind ziemlich nutzlos hier, und nur zum starten von crawl-jobs, könnten Sie nur verwenden, GARN, etc Sofort. direkt bei weniger Aufwand.

Sicher, Sie könnte dies auf Spark. Wie könnten Sie tun, ein Wort-Prozessor auf dem Funken, da ist es turing-vollständige... aber ist es nicht einfacher.
- Kann sein, nehme an, wenn wir brauchen, um zu sammeln Daten, die Sie von riesigen Anzahl von web-Seiten. Also es kann in verteilten Umgebung mit spark mit der Zeit besser... so ist es nützlich??
- So what? Sie brauchen ein großes storage-system, und einige Knoten. Aber Sie brauchen keine Funke für, die. Verwenden HDFS+GARN, oder was auch immer low-level Sie wollen. die Leute haben große crawls, lange bevor Spark.
- So ist Ihr Vorschlag für etwas anderes als Funken. Wenn es aber möglich ist, warum dann nicht, es ist die Letzte richtige?
- Sie verändert. Bis Nächstes Jahr, es wird alles anders. Verwenden Sie etwas, das zuverlässig für ein großes Projekt. Haben Sie überprüft, ob nutch kann einfach auf Hadoop selbst?
- Nein, ich bin gerade erst anfangen, führen Sie eine Probe auf den Funken, der in einem stand-alone-ersten. Ich bin wohl mit Jsoup. Aber nicht mit irgendetwas anderem
- Standalone macht noch weniger Sinn. Halten Sie Ihr Programm schlank und einfach, anstelle von stapeln Schicht ontop der Ebene, bis Sie können nicht Debuggen Sie es nicht mehr.
InformationsquelleAutor Anony-Mousse
3

JA.

Überprüfen Sie heraus die open-source-Projekt: wunderkerze (Funke - crawler) https://github.com/USCDataScience/sparkler

Kasse Sparkler-Interna für ein flow - /pipeline-Diagramm. (Entschuldigung, es ist ein SVG-Bild konnte ich nicht hier posten)

Diesem Projekt war nicht verfügbar, wenn die Frage gepostet wurde, aber als der Dezember 2016 es ist eines der sehr aktive Projekte!.

Ist es möglich zu Crawlen Websites mit Apache Spark?

Die folgenden Stücke kann Ihnen helfen zu verstehen, warum jemand würde eine solche Frage stellen und auch helfen, Sie zu beantworten.
- Den Machern von Spark-framework geschrieben in der bahnbrechenden Arbeit [1], dass RDDs wäre weniger geeignet, für Anwendungen, die asynchrone feinkörniges Aktualisierungen der freigegebenen Zustand, wie einem storage-system
  für eine web-Anwendung oder eine inkrementelle web-crawler
- RDDs sind wichtige Komponenten in der Funke. Sie können jedoch erstellen traditionelle Karte reduzieren Anwendungen (mit wenig oder kein Missbrauch von RDDs)
- Es ist eine weit verbreitete, verteilte web-crawler genannt Nutch [2]. Nutch ist gebaut mit Hadoop, Map-reduce (in der Tat, Hadoop, Map Reduzieren, wurde extrahiert aus dem Nutch codebase)
- Wenn Sie tun können, einige tasks in Hadoop, Map Reduce, kann man es auch mit Apache Spark.
[1] http://dl.acm.org/citation.cfm?id=2228301

[2] http://nutch.apache.org/

PS:
Ich bin ein co-Schöpfer der wunderkerze und ein Committer, PMC für Apache Nutch.

Wenn ich wunderkerze, erstellte ich eine RDD, die ein proxy auf Solr/Lucene-basierte indizierte Speicherung. Es aktiviert unsere crawler-Datenbank-RDD zu asynchrone feinkörniges updates zu gemeinsamen Staat, die sonst nicht möglich nativ.
- es scheint sehr gut! vielen Dank für die
InformationsquelleAutor Thamme Gowda
1

Gibt es ein Projekt, genannt SpookyStuff, die eine

Skalierbare Abfrage-engine für die web-Verschrottung/Daten-mashup/Abnahme QA, powered by Apache Spark

Hoffe, es hilft!

InformationsquelleAutor Aito
0

Ich denke, dass die akzeptierte Antwort ist falsch, in einer grundlegenden Weise; real-life-großen web-Extraktion ist ein pull-Prozess.

Dies ist, weil oft anfordernden HTTP-Inhalten ist weit weniger aufwendig als das erstellen der Antwort. Ich habe gebaut, ein kleines Programm, welches in der Lage ist zu krabbeln 16 Millionen Seiten pro Tag mit vier CPU-Kernen und 3GB RAM, und das war noch nicht mal optimiert, sehr gut. Ähnliche server wie Last (~200 Anfragen pro Sekunde) ist nicht trivial und erfordert in der Regel viele Ebenen der Optimierung.

Echten web-Seiten kann zum Beispiel brechen Ihre cache-system, wenn Sie kriechen Ihnen zu schnell (anstatt beliebtesten Seiten im cache, kann es überflutet mit dem long-tail-Inhalte des Crawls). Also in diesem Sinne, einen guten web-scraper immer respektiert robots.txt etc.

Den wirklichen nutzen der verteilten crawler kommt nicht aus einer Aufteilung der workload einer domain, sondern von der Aufteilung der work load von vielen Domänen zu einer einzelnen verteilten Prozess so, dass der eine Prozess kann sicher erfassen, wie viele Anforderungen das system stellt durch.

Natürlich in einigen Fällen soll der bad boy und Schrauben Sie die Regeln; jedoch, meiner Erfahrung nach, werden solche Produkte nicht lange am Leben bleiben, da der web-Website-Besitzer schützen Ihr Vermögen von Dingen, die Aussehen wie DoS-Attacken.

Golang ist sehr gut für das erstellen von web-scrapern, denn er hat die Kanäle als nativen Datentyp und Sie unterstützen pull-queues sehr gut. Da das HTTP-Protokoll und das kratzen im Allgemeinen langsam ist, können Sie unter anderem die Gewinnung, die Rohrleitungen als Teil des Prozesses, die untere die Menge der zu speichernden Daten in das data warehouse-system. Sie krabbeln kann einen TB mit Ausgaben von weniger als $1 im Wert von Ressourcen und tun es schnell, wenn mit Golang und Google Cloud (wahrscheinlich in der Lage zu tun, mit AWS und Azure auch).

Funke gibt dir keinen Mehrwert. Mit wget als client ist clever, da es automatisch Respekt robots.txt richtig: parallel-domain-specific-pull-queue zu wget ist der Weg zu gehen, wenn Sie arbeiten Professionell.

InformationsquelleAutor Ahti Ahde

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Ist es möglich zu Crawlen Websites mit Apache Spark?