Gensim: TypeError: doc2bow erwartet ein array von unicode-tokens am Eingang, nicht eine einzelne Zeichenfolge

Bin ich angefangen mit einigen python-Aufgabe, ich stehe vor einem problem während der Verwendung von gensim. Ich bin versucht zu laden Dateien von meiner Festplatte und Bearbeiten (splitten und Kleinbuchstaben ())

Den code habe ich unter:

dictionary_arr=[]
for file_path in glob.glob(os.path.join(path, '*.txt')):
    with open (file_path, "r") as myfile:
        text=myfile.read()
        for words in text.lower().split():
            dictionary_arr.append(words)
dictionary = corpora.Dictionary(dictionary_arr)

In der Liste (dictionary_arr) enthält die Liste aller Wörter über alle die Datei, die ich dann verwenden gensim Korpora.Wörterbuch Bearbeiten Sie die Liste. Allerdings ich Gesicht, ein Fehler.

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

Kann ich nicht verstehen, was ein problem, Ein wenig Beratung wäre geschätzt.

InformationsquelleAutor Sam | 2015-10-20

Schreibe einen Kommentar