Was herunterladen um nltk.die tokenisierung.word_tokenize Arbeit?

Werde ich verwenden nltk.tokenize.word_tokenize auf einem cluster, wo mein Konto ist sehr begrenzt durch Speicherplatz-Kontingent. Zu Hause habe ich heruntergeladen alle nltk Ressourcen durch nltk.download() aber, wie ich herausgefunden habe, dauert es ~2,5 GB.

Scheint das ein bisschen übertrieben für mich. Könnten Sie empfehlen, was sind die minimalen (oder fast minimale) Abhängigkeiten für nltk.tokenize.word_tokenize? So weit ich gesehen habe nltk.download('punkt') aber ich bin nicht sicher, ob es ausreichend ist, und was ist die Größe. Was genau soll ich ausführen, damit es funktioniert?

  • Leicht nichts zu tun haben, aber möchten Sie vielleicht zu "Auschecken" spacig als alternative zu NLTK.
InformationsquelleAutor petrbel | 2016-05-08
Schreibe einen Kommentar