Wie ist ein aggregator gebaut?
Sagen wir, ich will, um aggregierte Informationen in Bezug auf eine bestimmte Nische aus vielen Quellen (könnte sein, Reisen, Technik, oder was auch immer).
Wie soll ich das tun?
Haben ein spider/crawler, der crawlt das web für die Suche nach den Informationen, die ich brauche (wie Sag ich dem crawler was zu kriechen, weil ich nicht wollen, um die gesamte web?)?
Haben dann ein Indexierungs-system zu indizieren und organisieren die Informationen, die ich durchforstet und auch eine Suchmaschine?
Sind Systeme wie Nutch lucene.apache.org/nutch OK für das, was ich will? Empfehlen Sie etwas anderes?
Oder können Sie empfehlen, einen anderen Ansatz?
Zum Beispiel, wie Techmeme.com gebaut wird? (es ist ein aggregator für Technik-news und es ist vollständig automatisiert - erst kürzlich hat Sie etwas menschliches eingreifen).
Was würde es dauern, um diesen service bauen?
Oder wie Kayak.com aggregieren Sie Ihre Daten? (Es ist ein Reise aggregator service.)
InformationsquelleAutor | 2009-05-29
Du musst angemeldet sein, um einen Kommentar abzugeben.
Dies hängt vom aggregator, die Sie suchen.
Arten:
Typcially ein aggregator ist ein system von sub-Programmen:
InformationsquelleAutor monksy
Für einen basic-look - check out: http://en.wikipedia.org/wiki/Aggregator
Es wird Ihnen eine übersicht der Aggregatoren im Allgemeinen.
In Hinblick darauf, wie man erstellen Sie Ihre eigenen aggregator, wenn Sie suchen etwas aus der box, bekommen Sie Inhalte, die SIE wollen - ich würde vorschlagen, diese: http://dailyme.com/
Wenn Sie auf der Suche nach einer codebase /Architektur, BAUEN Sie Ihre eigenen aggregator-service - - - - ich würde vorschlagen, den Blick auf etwas straight forward - wie: Öffnen von Reddit http://www.reddit.com/
InformationsquelleAutor Gabriel
Müssen Sie definieren, was Ihre Anwendung tun wird. Bauen Sie Ihre eigenen web-crawler ist eine riesige Aufgabe, da Sie dazu neigen, halten das hinzufügen neuer Funktionen wie Sie Sie brauchen... nur zu erschweren, Ihrem design, usw...
Gebäude ein aggregator ist viel anders. In der Erwägung, dass ein crawler ruft einfach Daten um später verarbeitet zu werden, ein aggregator nimmt bereits definierten sets von Daten und stellt Sie zusammen. Wenn Sie ein aggregator, werden Sie wahrscheinlich wollen, zu suchen, die bereits definiert travel feeds, Finanz-feeds, travel Daten, etc... Ein aggregator ist einfacher zu bauen, IMO, aber es ist mehr eingeschränkt.
Wenn Sie stattdessen möchten, um zu bauen ein crawler müssen Sie definieren, beginnend Seiten, definieren, enden Bedingungen (Suchtiefe, Zeit, etc...) und so weiter und dann noch die Verarbeitung der Daten danach (das ist aggregieren, zusammenfassen und so weiter).
InformationsquelleAutor Chad