Laden Von Vordefinierten Vektoren Gensim
Ich bin mit dem Gensim Python-Paket zu lernen, ein neuronales Sprache-Modell, und ich weiß, dass Sie ein Trainingskorpus lernen am Modell. Aber es existieren bereits viele vordefinierte word-Vektoren zur Verfügung, die in text-format (z.B. http://www-nlp.stanford.edu/projects/glove/). Gibt es eine Möglichkeit zum initialisieren einer Gensim Word2Vec Modell, das einfach einiges Voraus berechnete Vektoren, anstatt zu lernen, die Vektoren von Grund auf neu?
Dank!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Können Sie die herunterladen die vor-geschult sind Wort-Vektoren von hier (get in der Datei 'GoogleNews-Vektoren-negative300.bin'):
word2vec
Extrahieren Sie die Datei und laden Sie es in python wie:
BEARBEITEN (Mai 2017):
Wie der obige code ist jetzt veraltet, ist dies, wie würden Sie das laden der Vektoren jetzt:
Handschuh-dump von der Stanford-Website in einem format, das wenig unterscheidet sich von der word2vec-format. Sie können konvertieren Sie die Handschuh-Datei in word2vec-format mit:
Soweit ich weiß, Gensim laden können zwei binäre Formate, word2vec und fastText, und einen generischen nur-text-format kann erstellt werden, indem die meisten word-einbetten von Werkzeugen. Dem generischen nur-text-format sieht wie folgt aus (in diesem Beispiel 20000 ist die Größe des Wortschatzes und die 100 ist die Länge des Vektors)
Chaitanya Shivade hat, erklärte in seiner Antwort hier, wie Sie ein Skript zur Verfügung gestellt von Gensim zu konvertieren, die Handschuh-format (jede Zeile: Wort + Vektor) in das generische format.
Laden die verschiedenen Formate ist einfach, aber es ist auch leicht zu bekommen, Sie Durcheinander:
1) Laden der binären word2vec
2) Be-binary fastText
3) Laden des generischen nur-text-format (die wurde von word2vec)
Wenn Sie nur planen, verwenden Sie die word-Einbettungen und nicht weiter zu fahren, um Sie zu trainieren in Gensim, die Sie verwenden möchten, können Sie die KeyedVector Klasse. Dies reduziert die Menge an Speicher, den Sie laden müssen die Vektoren erheblich (ausführliche Erklärung).
Den folgenden laden wird die binäre word2vec format als keyedvectors: