Web-Cralwer-Algorithmus: die Tiefe?

Arbeite ich an einem crawler und müssen genau verstehen, was gemeint ist mit "link-Tiefe". Nehmen nutch zum Beispiel: http://wiki.apache.org/nutch/NutchTutorial

Tiefe an, die link-Tiefe von der root-Seite werden sollte
gecrawlt.

So, sagen, ich habe die domain www.domain.com und wollte das Crawlen einer Tiefe von, sagen wir, 3 - was muss ich tun? Wenn eine Website dargestellt werden können, als einen binären Baum, dann würde es kein problem sein, denke ich.

Sie sagte, einer Website dargestellt werden können, wie ein binärer Baum, aber ich denke, dass es könnte werden als Grafik dargestellt, da links link, um einander mehr als einmal und kreuzen einander. Vielleicht haben Sie sogar am Ende der Sackgasse links, die nie link zu anderen Seiten, aber nur, um es sich selbst. So können wir betrachten die web-site oder sogar das internet als einen Graphen, denke ich.

InformationsquelleAutor StackOverflowNewbie | 2010-12-04

Schreibe einen Kommentar