Import GoogleNews-Vektoren-negative300.bin
Ich arbeite am code mithilfe des gensim und haben eine harte Zeit der Fehlerbehebung ein ValueError in meinem code. Ich war schließlich in der Lage, zip GoogleNews-vectors-negative300.bin.gz Datei, damit ich es umsetzen in meinem Modell. Ich habe auch versucht, gzip, die die Ergebnisse waren nicht erfolgreich. Der Fehler im code Auftritt in der letzten Zeile. Ich würde gerne wissen, was getan werden kann, um den Fehler zu beheben. Gibt es irgendwelche workarounds? Schließlich gibt es eine website, dass ich könnte, verweisen?
Danke dir respektvoll für Ihre Unterstützung!
import gensim
from keras import backend
from keras.layers import Dense, Input, Lambda, LSTM, TimeDistributed
from keras.layers.merge import concatenate
from keras.layers.embeddings import Embedding
from keras.models import Mode
pretrained_embeddings_path = "GoogleNews-vectors-negative300.bin"
word2vec =
gensim.models.KeyedVectors.load_word2vec_format(pretrained_embeddings_path,
binary=True)
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-3-23bd96c1d6ab> in <module>()
1 pretrained_embeddings_path = "GoogleNews-vectors-negative300.bin"
----> 2 word2vec =
gensim.models.KeyedVectors.load_word2vec_format(pretrained_embeddings_path,
binary=True)
C:\Users\green\Anaconda3\envs\py35\lib\site-
packages\gensim\models\keyedvectors.py in load_word2vec_format(cls, fname,
fvocab, binary, encoding, unicode_errors, limit, datatype)
244 word.append(ch)
245 word = utils.to_unicode(b''.join(word),
encoding=encoding, errors=unicode_errors)
--> 246 weights = fromstring(fin.read(binary_len),
dtype=REAL)
247 add_word(word, weights)
248 else:
ValueError: string size must be a multiple of element size
- Ich kann die Ausführung von code ohne Fehler. Haben Sie Sie sicher, Sie haben die neueste version von gensim? Hast du eigentlich die zip-Vektor-Datei (wie du geschrieben hast in deinem post) oder meinst du "entpacken"? Haben Sie versucht, die Einstellung
binary=false
um zu überprüfen, ob Sie vielleicht die text-Datei anstelle der binären eine? - Ich benutzte Winzip um die Datei zu komprimieren. Ich habe auch versucht binary=false. Ich bekomme die gleichen Ergebnisse mit der neuesten version von gensim. Ich bin mit Python 3.6.
- Ich vermute, dass deine Datei beschädigt ist, oder nicht wirklich den un-Gzip-Binär-Datei. Gensim Lesen kann
.gz
Datei einfach in Ordnung, so Sie könnten, roh. Versuchen Sie, frische & Gewährleistung der Größe ist wie erwartet. Wenn Sie weiterhin Probleme haben, melden Sie den MD5-hash der Datei, die Sie versuchen, zu vergleichen mit der version, die andere haben. - Danke .Ich stolperte über das Paket wget und laden Sie die bin-Datei auf diese Weise. Ich gebe es noch einmal zu versuchen.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Den unter-Befehlen arbeiten.
Anschließend können Sie mit dem nachstehenden Befehl zu bekommen wordVector.
schreiben Sie den vollständigen Pfad.
verwenden Sie diesen Pfad:
https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz