Einrichten word2vec - KeyError: "Wort" Wort "nicht in den Wortschatz"
Ich versuche es mal mit word2vec, aber es gibt eine Fehlermeldung, wenn Sie versuchen, etwas zu tun mit jedem Wort. Es scheint ein encoding-Problem, hier ist was ich getan habe:
Init word2vec:
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = gensim.models.Word2Vec.load_word2vec_format('freebase-vectors-skipgram1000/knowledge-vectors-skipgram1000.bin', binary=True)
model.init_sims(replace=True)
Testen, es ein wenig:
print(model)
# prints: Word2Vec(vocab=1422903, size=1000, alpha=0.025)
print(model.index2word[0])
# prints: u'/m/0dgps15'
# I would expect a readable word, how to fix that?
Die Fehlermeldung:
print(model.similarity('word', 'sound'))
# An error happen: KeyError: 'word'
Ich habe auch versucht, laden Sie das Modell mit binary=False
, aber das macht ein Fehler beim laden.
- Ich sehe, Sie haben nicht akzeptiert, die Antwort? Sind Sie vor einem Problem?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Es ist nichts falsch mit Ihrem word2vec Nutzung. Datei-format ist Binär (und umgewandelt werden können, um text mit diese schönes Tool).
Die Sie heruntergeladen haben, eine pre-geschulte "Person" Vektor-Datei. Ich werde empfehlen Sie zu verwenden, Wort oder Satz von Vektoren (auch auf word2vec website) von Google News.