Fehler: 'utf8' codec kann nicht decodieren byte 0x80 in position 0: invalid start byte

Ich versuche zu tun, die folgenden kaggle assignmnet. Ich bin mit gensim-Paket zu verwenden word2vec. Ich bin in der Lage, das Modell zu erstellen, und speichern Sie es auf der Festplatte. Aber wenn ich versuche zum laden der Datei zurück, erhalte ich den folgenden Fehler.

    -HP-dx2280-MT-GR541AV:~$ python prog_w2v.py 
Traceback (most recent call last):
  File "prog_w2v.py", line 7, in <module>
    models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
  File "/usr/local/lib/python2.7/dist-packages/gensim/models/word2vec.py", line 579, in load_word2vec_format
    header = utils.to_unicode(fin.readline())
  File "/usr/local/lib/python2.7/dist-packages/gensim/utils.py", line 190, in any2unicode
    return unicode(text, encoding, errors=errors)
  File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

Finde ich ähnliche Frage. Aber ich war nicht in der Lage das problem zu lösen. Meine prog_w2v.py ist als unten.

import gensim
import time
start = time.time()    
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True) 
end = time.time()   
print end-start,"   seconds"

Ich versuche zu generieren, das Modell mit code hier. Das Programm dauert etwa eine halbe Stunde, um das Modell generieren. Daher bin ich nicht in der Lage zu laufen, es viele Male zu Debuggen.

InformationsquelleAutor user168983 | 2014-12-26
Schreibe einen Kommentar