Wie ist ein aggregator gebaut?

Sagen wir, ich will, um aggregierte Informationen in Bezug auf eine bestimmte Nische aus vielen Quellen (könnte sein, Reisen, Technik, oder was auch immer).
Wie soll ich das tun?

Haben ein spider/crawler, der crawlt das web für die Suche nach den Informationen, die ich brauche (wie Sag ich dem crawler was zu kriechen, weil ich nicht wollen, um die gesamte web?)?
Haben dann ein Indexierungs-system zu indizieren und organisieren die Informationen, die ich durchforstet und auch eine Suchmaschine?

Sind Systeme wie Nutch lucene.apache.org/nutch OK für das, was ich will? Empfehlen Sie etwas anderes?

Oder können Sie empfehlen, einen anderen Ansatz?

Zum Beispiel, wie Techmeme.com gebaut wird? (es ist ein aggregator für Technik-news und es ist vollständig automatisiert - erst kürzlich hat Sie etwas menschliches eingreifen).
Was würde es dauern, um diesen service bauen?

Oder wie Kayak.com aggregieren Sie Ihre Daten? (Es ist ein Reise aggregator service.)

InformationsquelleAutor | 2009-05-29

8

Dies hängt vom aggregator, die Sie suchen.

Arten:
- Lose definiert - Generially dies erfordert für Sie die datasource-sehr flexibel zu sein, über die Bestimmung der Art von Informationen sammelt (die Antwort auf die Frage ist diese Website/Informationen Zusammenhang mit Reisen? Humor? Business Verwandte? )
- Spezifischen - Das entspannt eine Anforderung, die in die Daten Speicher, der alle Daten specificially Zusammenhang mit Reisen benötigt für die Flüge, hotel Preise, etc.
Typcially ein aggregator ist ein system von sub-Programmen:
1. Grabber, dieser sucht und packt alle Inhalte, die benötigt werden zusammengefasst
2. Summerization - dies erfolgt in der Regel durch Abfragen an die db und kann angepasst werden, basierend auf Benutzer-Einstellungen [über die Programmierung, Logik]
3. Ansicht - diese Formate die Informationen für das, was der Benutzer möchte, um zu sehen und reagieren auf feedback des Benutzers Vorlieben oder Abneigungen des Artikels vorgeschlagen.
InformationsquelleAutor monksy
1

Für einen basic-look - check out: http://en.wikipedia.org/wiki/Aggregator

Es wird Ihnen eine übersicht der Aggregatoren im Allgemeinen.

In Hinblick darauf, wie man erstellen Sie Ihre eigenen aggregator, wenn Sie suchen etwas aus der box, bekommen Sie Inhalte, die SIE wollen - ich würde vorschlagen, diese: http://dailyme.com/

Wenn Sie auf der Suche nach einer codebase /Architektur, BAUEN Sie Ihre eigenen aggregator-service - - - - ich würde vorschlagen, den Blick auf etwas straight forward - wie: Öffnen von Reddit http://www.reddit.com/

Ja, ich möchte meine eigenen aggregator. Reddit ist wie ein Digg-Website, und das bedeutet, dass Benutzer senden-links und Abstimmung über diese (Pligg oder SocialWebCMS sind auch software, über die Sie baute so etwas wie Digg). Was ich will ist mehr wie Techmeme (wo die news werden automatisch erfasst und können die Redakteure Rang oder zeigen Sie Sie auf der Website, wenn nötig).

InformationsquelleAutor Gabriel
1

Müssen Sie definieren, was Ihre Anwendung tun wird. Bauen Sie Ihre eigenen web-crawler ist eine riesige Aufgabe, da Sie dazu neigen, halten das hinzufügen neuer Funktionen wie Sie Sie brauchen... nur zu erschweren, Ihrem design, usw...

Gebäude ein aggregator ist viel anders. In der Erwägung, dass ein crawler ruft einfach Daten um später verarbeitet zu werden, ein aggregator nimmt bereits definierten sets von Daten und stellt Sie zusammen. Wenn Sie ein aggregator, werden Sie wahrscheinlich wollen, zu suchen, die bereits definiert travel feeds, Finanz-feeds, travel Daten, etc... Ein aggregator ist einfacher zu bauen, IMO, aber es ist mehr eingeschränkt.

Wenn Sie stattdessen möchten, um zu bauen ein crawler müssen Sie definieren, beginnend Seiten, definieren, enden Bedingungen (Suchtiefe, Zeit, etc...) und so weiter und dann noch die Verarbeitung der Daten danach (das ist aggregieren, zusammenfassen und so weiter).

InformationsquelleAutor Chad

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Arten:

Typcially ein aggregator ist ein system von sub-Programmen: