Wikipedia Text herunterladen
Ich bin auf der Suche nach download vollständigen Wikipedia-text für meine college-Projekt. Muss ich schreiben, dass meine eigenen spider zu downloaden oder ist es eine öffentliche Datensatz, Wikipedia online verfügbar?
Nur geben Ihnen einige überblick über mein Projekt, ich möchte, um herauszufinden, die interessante Worte, von wenigen Artikeln, die ich mich interessiere. Aber zu finden, diese interessanten Worte, ich bin Planung zu übernehmen tf/idf an, berechnen Begriff Frequenz für jedes Wort und jeden pick diejenigen, die mit hoher Frequenz. Aber zur Berechnung der tf, die ich brauche, um zu wissen, die Gesamtanzahl der vorkommen in der ganzen Wikipedia.
Wie kann das getan werden?
InformationsquelleAutor der Frage Boolean | 2010-04-21
Du musst angemeldet sein, um einen Kommentar abzugeben.
aus der wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database
Wikipedia bietet Kostenlose Kopien der alle verfügbaren Inhalte an Interessierte Nutzer. Diese Datenbanken können verwendet werden, für die spiegelung, die persönliche, informelle backups, offline-Nutzung oder Datenbank-Abfragen (z.B. für Wikipedia:Wartung). Alle text-Inhalte ist multi-lizensiert unter der Creative Commons Attribution-ShareAlike 3.0 Lizenz (CC-BY-SA) und der GNU-Lizenz für Freie Dokumentation (GFDL). Bilder und andere Dateien stehen unter verschiedenen Bedingungen, wie detailliert auf Ihre Seiten Beschreibung. Für unsere Beratung bezüglich der Einhaltung dieser Lizenzen finden Sie unter Wikipedia:Urheberrechte.
Scheint, dass Sie Glück auch. Aus dem dump Abschnitt:
12. März 2010, die neueste komplette dump der englischsprachigen Wikipedia finden Sie unter http://download.wikimedia.org/enwiki/20100130/ Dies ist die erste komplette dump der englischsprachigen Wikipedia angelegt worden seit 2008.
Bitte beachten Sie, dass neuere dumps (wie die 20100312-dump) sind unvollständig.
Also die Daten ist nur 9 Tage alt 🙂
InformationsquelleAutor der Antwort Sam Holder
Wenn Sie eine nur-text-version, nicht eine Mediawiki-XML, dann können Sie es hier herunterladen:
http://kopiwiki.dsd.sztaki.hu/
InformationsquelleAutor der Antwort Máté Pataki
Angesichts der Größe des dump, würden Sie wahrscheinlich besser bedient, mit dem Wort Frequenz in der englischen Sprache, oder verwenden Sie die MediaWiki-API Umfrage Seiten nach dem Zufallsprinzip (oder die meisten konsultiert Seiten). Es gibt frameworks, build-bots auf Basis dieser API (Ruby, C#, ...), die Ihnen helfen können.
InformationsquelleAutor der Antwort Luk
http://en.wikipedia.org/wiki/Wikipedia_database#Latest_complete_dump_of_english_wikipedia
InformationsquelleAutor der Antwort Armand
Sehen http://en.wikipedia.org/wiki/Wikipedia_database
InformationsquelleAutor der Antwort orithena