Wie trainieren Sie Word2vec auf sehr großen Datenmengen?

Ich denke der Ausbildung word2vec auf riesigen großen Maßstab Daten von mehr als 10 TB+ in der Größe auf web-crawl-dump.

Ich persönlich ausgebildete c-Implementierung GoogleNews-2012-dump (1,5 gb) auf meinen iMac dauerte etwa 3 Stunden zu trainieren und erzeugen von Vektoren (beeindruckt von der Geschwindigkeit). Ich habe nicht versucht python-Implementierung aber 🙁 ich habe irgendwo gelesen, dass die Erzeugung von Vektoren auf wiki-dump (11 GB) von 300 Vektor-Länge dauert etwa 9 Tage zu generieren.

  1. Wie die Geschwindigkeit word2vec? Brauche ich für die Nutzung verteilter Modelle oder welche Art von hardware, die ich brauchen, um es innerhalb von 2-3 Tagen? ich habe iMac mit 8gb ram.

  2. Welche ist schneller? Gensim python-oder C-Implementierung?

Sehe ich, dass word2vec Implementierung unterstützt keine GPU-Ausbildung.

InformationsquelleAutor pbu | 2015-06-01
Schreibe einen Kommentar