Aktualisieren Sie das gensim word2vec-Modell

Ich habe eine word2vec Modell im gensim ausgebildete 98892 Dokumente. Für jeden gegebenen Satz, der sich nicht in die Sätze array (d.h. die Menge, über die ich trainierte Modell), die ich brauche um das Modell zu aktualisieren mit diesem Satz, so dass die Abfrage das nächste mal gibt einige Ergebnisse. Ich mache es so:

new_sentence = ['moscow', 'weather', 'cold']
model.train(new_sentence)

und der Druck dieses logs:

2014-03-01 16:46:58,061 : INFO : training model with 1 workers on 98892 vocabulary and 100 features
2014-03-01 16:46:58,211 : INFO : reached the end of input; waiting to finish 1 outstanding jobs
2014-03-01 16:46:58,235 : INFO : training on 10 words took 0.1s, 174 words/s

Nun, wenn ich die Abfrage mit ähnlichen new_sentence für die meisten positiven (wie model.most_similar(positive=new_sentence)) gibt es Fehler:

Traceback (most recent call last):
 File "<pyshell#220>", line 1, in <module>
 model.most_similar(positive=['moscow', 'weather', 'cold'])
 File "/Library/Python/2.7/site-packages/gensim/models/word2vec.py", line 405, in most_similar
 raise KeyError("word '%s' not in vocabulary" % word)
  KeyError: "word 'cold' not in vocabulary"

Gibt an, dass das Wort 'kalt' ist nicht Teil des Vokabulars, über welches ich ausgebildet, das Ding (hab ich Recht)?

Die Frage ist also: Wie um das Modell zu aktualisieren, so dass es gibt alle möglichen ähnlichkeiten für den neuen Satz?

Kommentar zu dem Problem - Öffnen
Hat jemand aktualisiert genism Word2Vec ein online Word2Vec. Wo können Sie aktualisieren Sie Ihre Vokabelliste und neue zu erlernen mit online-lernen. Ich habe es nicht ausprobiert, aber schau es dir mal an: rutumulkar.com/blog/2015/word2vec Kommentarautor: Aziz Alto

InformationsquelleAutor der Frage user2480542 | 2014-03-01

Schreibe einen Kommentar