Wie ist ein aggregator gebaut?

Sagen wir, ich will, um aggregierte Informationen in Bezug auf eine bestimmte Nische aus vielen Quellen (könnte sein, Reisen, Technik, oder was auch immer).
Wie soll ich das tun?

Haben ein spider/crawler, der crawlt das web für die Suche nach den Informationen, die ich brauche (wie Sag ich dem crawler was zu kriechen, weil ich nicht wollen, um die gesamte web?)?
Haben dann ein Indexierungs-system zu indizieren und organisieren die Informationen, die ich durchforstet und auch eine Suchmaschine?

Sind Systeme wie Nutch lucene.apache.org/nutch OK für das, was ich will? Empfehlen Sie etwas anderes?

Oder können Sie empfehlen, einen anderen Ansatz?

Zum Beispiel, wie Techmeme.com gebaut wird? (es ist ein aggregator für Technik-news und es ist vollständig automatisiert - erst kürzlich hat Sie etwas menschliches eingreifen).
Was würde es dauern, um diesen service bauen?

Oder wie Kayak.com aggregieren Sie Ihre Daten? (Es ist ein Reise aggregator service.)

InformationsquelleAutor | 2009-05-29

Schreibe einen Kommentar