Gensim: TypeError: doc2bow erwartet ein array von unicode-tokens am Eingang, nicht eine einzelne Zeichenfolge
Bin ich angefangen mit einigen python-Aufgabe, ich stehe vor einem problem während der Verwendung von gensim. Ich bin versucht zu laden Dateien von meiner Festplatte und Bearbeiten (splitten und Kleinbuchstaben ())
Den code habe ich unter:
dictionary_arr=[]
for file_path in glob.glob(os.path.join(path, '*.txt')):
with open (file_path, "r") as myfile:
text=myfile.read()
for words in text.lower().split():
dictionary_arr.append(words)
dictionary = corpora.Dictionary(dictionary_arr)
In der Liste (dictionary_arr) enthält die Liste aller Wörter über alle die Datei, die ich dann verwenden gensim Korpora.Wörterbuch Bearbeiten Sie die Liste. Allerdings ich Gesicht, ein Fehler.
TypeError: doc2bow expects an array of unicode tokens on input, not a single string
Kann ich nicht verstehen, was ein problem, Ein wenig Beratung wäre geschätzt.
InformationsquelleAutor Sam | 2015-10-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
In dictionary.py die initialize-Funktion:
Funktion add_documents Build-Wörterbuch aus einer Sammlung von Dokumenten. Jedes Dokument ist eine Liste
Token:
So ,wenn Sie die initialize-Wörterbuch auf diese Weise, müssen Sie passieren Dokumenten aber keinen einzigen Beleg. Zum Beispiel,
ist OK.
InformationsquelleAutor wyq10
Wörterbuch muss eine Token-strings für seine input:
InformationsquelleAutor Amir