Import GoogleNews-Vektoren-negative300.bin

Ich arbeite am code mithilfe des gensim und haben eine harte Zeit der Fehlerbehebung ein ValueError in meinem code. Ich war schließlich in der Lage, zip GoogleNews-vectors-negative300.bin.gz Datei, damit ich es umsetzen in meinem Modell. Ich habe auch versucht, gzip, die die Ergebnisse waren nicht erfolgreich. Der Fehler im code Auftritt in der letzten Zeile. Ich würde gerne wissen, was getan werden kann, um den Fehler zu beheben. Gibt es irgendwelche workarounds? Schließlich gibt es eine website, dass ich könnte, verweisen?

Danke dir respektvoll für Ihre Unterstützung!

import gensim
from keras import backend
from keras.layers import Dense, Input, Lambda, LSTM, TimeDistributed
from keras.layers.merge import concatenate
from keras.layers.embeddings import Embedding
from keras.models import Mode

pretrained_embeddings_path = "GoogleNews-vectors-negative300.bin"
word2vec = 
gensim.models.KeyedVectors.load_word2vec_format(pretrained_embeddings_path, 
binary=True)

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-23bd96c1d6ab> in <module>()
  1 pretrained_embeddings_path = "GoogleNews-vectors-negative300.bin"
----> 2 word2vec = 
gensim.models.KeyedVectors.load_word2vec_format(pretrained_embeddings_path, 
binary=True)

C:\Users\green\Anaconda3\envs\py35\lib\site-
packages\gensim\models\keyedvectors.py in load_word2vec_format(cls, fname, 
fvocab, binary, encoding, unicode_errors, limit, datatype)
244                             word.append(ch)
245                     word = utils.to_unicode(b''.join(word), 
encoding=encoding, errors=unicode_errors)
--> 246                     weights = fromstring(fin.read(binary_len), 
dtype=REAL)
247                     add_word(word, weights)
248             else:

ValueError: string size must be a multiple of element size
  • Ich kann die Ausführung von code ohne Fehler. Haben Sie Sie sicher, Sie haben die neueste version von gensim? Hast du eigentlich die zip-Vektor-Datei (wie du geschrieben hast in deinem post) oder meinst du "entpacken"? Haben Sie versucht, die Einstellung binary=false um zu überprüfen, ob Sie vielleicht die text-Datei anstelle der binären eine?
  • Ich benutzte Winzip um die Datei zu komprimieren. Ich habe auch versucht binary=false. Ich bekomme die gleichen Ergebnisse mit der neuesten version von gensim. Ich bin mit Python 3.6.
  • Ich vermute, dass deine Datei beschädigt ist, oder nicht wirklich den un-Gzip-Binär-Datei. Gensim Lesen kann .gz Datei einfach in Ordnung, so Sie könnten, roh. Versuchen Sie, frische & Gewährleistung der Größe ist wie erwartet. Wenn Sie weiterhin Probleme haben, melden Sie den MD5-hash der Datei, die Sie versuchen, zu vergleichen mit der version, die andere haben.
  • Danke .Ich stolperte über das Paket wget und laden Sie die bin-Datei auf diese Weise. Ich gebe es noch einmal zu versuchen.
InformationsquelleAutor Hello World | 2017-09-26
Schreibe einen Kommentar