Wie trainieren Sie Word2vec auf sehr großen Datenmengen?
Ich denke der Ausbildung word2vec auf riesigen großen Maßstab Daten von mehr als 10 TB+ in der Größe auf web-crawl-dump.
Ich persönlich ausgebildete c-Implementierung GoogleNews-2012-dump (1,5 gb) auf meinen iMac dauerte etwa 3 Stunden zu trainieren und erzeugen von Vektoren (beeindruckt von der Geschwindigkeit). Ich habe nicht versucht python-Implementierung aber 🙁 ich habe irgendwo gelesen, dass die Erzeugung von Vektoren auf wiki-dump (11 GB) von 300 Vektor-Länge dauert etwa 9 Tage zu generieren.
-
Wie die Geschwindigkeit word2vec? Brauche ich für die Nutzung verteilter Modelle oder welche Art von hardware, die ich brauchen, um es innerhalb von 2-3 Tagen? ich habe iMac mit 8gb ram.
-
Welche ist schneller? Gensim python-oder C-Implementierung?
Sehe ich, dass word2vec Implementierung unterstützt keine GPU-Ausbildung.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Gibt es eine Reihe von Möglichkeiten, um Word2Vec Modelle im Maßstab. Wie Sie wies darauf hin, Bewerber-Lösungen verteilt werden (und/oder multi-threaded) oder GPU. Dies ist keine erschöpfende Liste, aber hoffentlich erhalten Sie einige Ideen, wie es weitergehen soll.
Distributed /Multi-threading Optionen:
viel langsamer als C-Implementierungen. Gensim ist multi-threading funktioniert
naja, und unter Verwendung einer Maschine mit genügend Arbeitsspeicher und eine große Anzahl von
Kerne deutlich verringert vector generation Zeit. Sie darf möchten
untersuchen Sie die Verwendung von Amazon EC2 16-oder 32-core-Instanzen.
Optimierungen, die synchronisieren Verlauf über die Knoten hinweg. Wenn Sie
multi-core-Maschinen als Knoten, können Sie die Vorteile von beiden
clustering und multi-threading.
Einer Reihe von Word2Vec GPU-Implementierungen existieren. Angesichts der großen dataset-Größe, und beschränkt GPU-Speicher, die Sie haben können, zu prüfen, eine clustering-Strategie.
Gibt es eine Reihe von anderen CUDA-Implementierungen von Word2Vec, in unterschiedlichen Graden der Reife und support:
Glaube ich, dass die SparkML-team hat vor kurzem bekam er ein Prototyp cuBLAS-basierte Word2Vec Umsetzung. Sie Mai wollen untersuchen, diese.