Wie trainieren Sie Word2vec auf sehr großen Datenmengen?

Ich denke der Ausbildung word2vec auf riesigen großen Maßstab Daten von mehr als 10 TB+ in der Größe auf web-crawl-dump.

Ich persönlich ausgebildete c-Implementierung GoogleNews-2012-dump (1,5 gb) auf meinen iMac dauerte etwa 3 Stunden zu trainieren und erzeugen von Vektoren (beeindruckt von der Geschwindigkeit). Ich habe nicht versucht python-Implementierung aber 🙁 ich habe irgendwo gelesen, dass die Erzeugung von Vektoren auf wiki-dump (11 GB) von 300 Vektor-Länge dauert etwa 9 Tage zu generieren.

Wie die Geschwindigkeit word2vec? Brauche ich für die Nutzung verteilter Modelle oder welche Art von hardware, die ich brauchen, um es innerhalb von 2-3 Tagen? ich habe iMac mit 8gb ram.
Welche ist schneller? Gensim python-oder C-Implementierung?

Sehe ich, dass word2vec Implementierung unterstützt keine GPU-Ausbildung.

InformationsquelleAutor pbu | 2015-06-01

c machine-learning python word2vec

33

Gibt es eine Reihe von Möglichkeiten, um Word2Vec Modelle im Maßstab. Wie Sie wies darauf hin, Bewerber-Lösungen verteilt werden (und/oder multi-threaded) oder GPU. Dies ist keine erschöpfende Liste, aber hoffentlich erhalten Sie einige Ideen, wie es weitergehen soll.

Distributed /Multi-threading Optionen:
- Gensim verwendet Cython, wo es darauf ankommt, und ist gleich, oder nicht
  viel langsamer als C-Implementierungen. Gensim ist multi-threading funktioniert
  naja, und unter Verwendung einer Maschine mit genügend Arbeitsspeicher und eine große Anzahl von
  Kerne deutlich verringert vector generation Zeit. Sie darf möchten
  untersuchen Sie die Verwendung von Amazon EC2 16-oder 32-core-Instanzen.
- Deepdist nutzen können gensim und Funken zu verteilen gensim-workloads in einem cluster. Deepdist hat auch einige clevere SGD
  Optimierungen, die synchronisieren Verlauf über die Knoten hinweg. Wenn Sie
  multi-core-Maschinen als Knoten, können Sie die Vorteile von beiden
  clustering und multi-threading.
Einer Reihe von Word2Vec GPU-Implementierungen existieren. Angesichts der großen dataset-Größe, und beschränkt GPU-Speicher, die Sie haben können, zu prüfen, eine clustering-Strategie.
- Bidmach ist offenbar sehr schnell (Dokumentation jedoch fehlt, und zugegeben, ich habe gekämpft, um es zu erhalten arbeitend).
- DL4J hat eine Word2Vec Umsetzung, aber das team hat noch zu implementieren cuBLAS gemm und es ist relativ langsam, vs-CPUs.
- Keras ist ein Python-deep learning framework nutzt Theano. Während es nicht implementiert word2vec per se, es tut implementieren eine Einbettung Ebene und kann verwendet werden zum erstellen und Abfragen von Wort-Vektoren.
Gibt es eine Reihe von anderen CUDA-Implementierungen von Word2Vec, in unterschiedlichen Graden der Reife und support:
- https://github.com/whatupbiatch/cuda-word2vec [memory mgmt-sieht gut aus, obwohl nicht vorhandener Dokumentation auf, wie Sie Datensätze erstellen]
- https://github.com/fengChenHPC/word2vec_cbow [super-schnell, aber GPU-Speichers auf große Datenbestände]
Glaube ich, dass die SparkML-team hat vor kurzem bekam er ein Prototyp cuBLAS-basierte Word2Vec Umsetzung. Sie Mai wollen untersuchen, diese.

InformationsquelleAutor danielchalef

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.