Import GoogleNews-Vektoren-negative300.bin

Ich arbeite am code mithilfe des gensim und haben eine harte Zeit der Fehlerbehebung ein ValueError in meinem code. Ich war schließlich in der Lage, zip GoogleNews-vectors-negative300.bin.gz Datei, damit ich es umsetzen in meinem Modell. Ich habe auch versucht, gzip, die die Ergebnisse waren nicht erfolgreich. Der Fehler im code Auftritt in der letzten Zeile. Ich würde gerne wissen, was getan werden kann, um den Fehler zu beheben. Gibt es irgendwelche workarounds? Schließlich gibt es eine website, dass ich könnte, verweisen?

Danke dir respektvoll für Ihre Unterstützung!

import gensim
from keras import backend
from keras.layers import Dense, Input, Lambda, LSTM, TimeDistributed
from keras.layers.merge import concatenate
from keras.layers.embeddings import Embedding
from keras.models import Mode

pretrained_embeddings_path = "GoogleNews-vectors-negative300.bin"
word2vec = 
gensim.models.KeyedVectors.load_word2vec_format(pretrained_embeddings_path, 
binary=True)

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-23bd96c1d6ab> in <module>()
  1 pretrained_embeddings_path = "GoogleNews-vectors-negative300.bin"
----> 2 word2vec = 
gensim.models.KeyedVectors.load_word2vec_format(pretrained_embeddings_path, 
binary=True)

C:\Users\green\Anaconda3\envs\py35\lib\site-
packages\gensim\models\keyedvectors.py in load_word2vec_format(cls, fname, 
fvocab, binary, encoding, unicode_errors, limit, datatype)
244                             word.append(ch)
245                     word = utils.to_unicode(b''.join(word), 
encoding=encoding, errors=unicode_errors)
--> 246                     weights = fromstring(fin.read(binary_len), 
dtype=REAL)
247                     add_word(word, weights)
248             else:

ValueError: string size must be a multiple of element size

Ich kann die Ausführung von code ohne Fehler. Haben Sie Sie sicher, Sie haben die neueste version von gensim? Hast du eigentlich die zip-Vektor-Datei (wie du geschrieben hast in deinem post) oder meinst du "entpacken"? Haben Sie versucht, die Einstellung binary=false um zu überprüfen, ob Sie vielleicht die text-Datei anstelle der binären eine?
Ich benutzte Winzip um die Datei zu komprimieren. Ich habe auch versucht binary=false. Ich bekomme die gleichen Ergebnisse mit der neuesten version von gensim. Ich bin mit Python 3.6.
Ich vermute, dass deine Datei beschädigt ist, oder nicht wirklich den un-Gzip-Binär-Datei. Gensim Lesen kann .gz Datei einfach in Ordnung, so Sie könnten, roh. Versuchen Sie, frische & Gewährleistung der Größe ist wie erwartet. Wenn Sie weiterhin Probleme haben, melden Sie den MD5-hash der Datei, die Sie versuchen, zu vergleichen mit der version, die andere haben.
Danke .Ich stolperte über das Paket wget und laden Sie die bin-Datei auf diese Weise. Ich gebe es noch einmal zu versuchen.

InformationsquelleAutor Hello World | 2017-09-26

gensim python

Den unter-Befehlen arbeiten.

brew install wget

wget -c "https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz"

Anschließend können Sie mit dem nachstehenden Befehl zu bekommen wordVector.

from gensim import models

w = models.KeyedVectors.load_word2vec_format(
    '../GoogleNews-vectors-negative300.bin', binary=True)

InformationsquelleAutor ohsoifelse

10

schreiben Sie den vollständigen Pfad.

verwenden Sie diesen Pfad:

https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz
- Ein link zu einer Lösung ist willkommen, aber bitte achten Sie darauf Ihre Antwort ist nützlich, ohne ihn: fügen Sie den Kontext um den link so dass Ihre Kolleginnen und Nutzer haben eine Vorstellung davon, was es ist und warum es da ist, dann zitiere den wichtigsten Teil der Seite, die Sie verknüpfen, um im Fall der Ziel-Seite nicht verfügbar ist. Antworten, die wenig mehr als ein link kann gelöscht werden.
- Wir (Skymind) würde es begrüßen, wenn jeder würde benutzen Sie diesen link statt: deeplearning4jblob.blob.core.windows.net/resources/wordvectors/...
- Wir bekommen Rechnungen von ein paar tausend im Monat-hosting, die Datei und es aß alle unsere AWS-credits.
InformationsquelleAutor

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.