Gensim: TypeError: doc2bow erwartet ein array von unicode-tokens am Eingang, nicht eine einzelne Zeichenfolge

Bin ich angefangen mit einigen python-Aufgabe, ich stehe vor einem problem während der Verwendung von gensim. Ich bin versucht zu laden Dateien von meiner Festplatte und Bearbeiten (splitten und Kleinbuchstaben ())

Den code habe ich unter:

dictionary_arr=[]
for file_path in glob.glob(os.path.join(path, '*.txt')):
    with open (file_path, "r") as myfile:
        text=myfile.read()
        for words in text.lower().split():
            dictionary_arr.append(words)
dictionary = corpora.Dictionary(dictionary_arr)

In der Liste (dictionary_arr) enthält die Liste aller Wörter über alle die Datei, die ich dann verwenden gensim Korpora.Wörterbuch Bearbeiten Sie die Liste. Allerdings ich Gesicht, ein Fehler.

TypeError: doc2bow expects an array of unicode tokens on input, not a single string

Kann ich nicht verstehen, was ein problem, Ein wenig Beratung wäre geschätzt.

InformationsquelleAutor Sam | 2015-10-20

gensim python

In dictionary.py die initialize-Funktion:

def __init__(self, documents=None):
    self.token2id = {} # token -> tokenId
    self.id2token = {} # reverse mapping for token2id; only formed on request, to save memory
    self.dfs = {} # document frequencies: tokenId -> in how many documents this token appeared

    self.num_docs = 0 # number of documents processed
    self.num_pos = 0 # total number of corpus positions
    self.num_nnz = 0 # total number of non-zeroes in the BOW matrix

    if documents is not None:
        self.add_documents(documents)

Funktion add_documents Build-Wörterbuch aus einer Sammlung von Dokumenten. Jedes Dokument ist eine Liste
Token:

def add_documents(self, documents):

    for docno, document in enumerate(documents):
        if docno % 10000 == 0:
            logger.info("adding document #%i to %s" % (docno, self))
        _ = self.doc2bow(document, allow_update=True) # ignore the result, here we only care about updating token ids
    logger.info("built %s from %i documents (total %i corpus positions)" %
                 (self, self.num_docs, self.num_pos))

So ,wenn Sie die initialize-Wörterbuch auf diese Weise, müssen Sie passieren Dokumenten aber keinen einzigen Beleg. Zum Beispiel,

dic = corpora.Dictionary([a.split()])

ist OK.

Hi wyq10, versuchte ich den Ansatz, seine scheint zu arbeiten, aber es gibt ein kleines problem. Die Anzahl(Häufigkeit) aller Token im Wörterbuch bleibt gleich, dh 1, trotz der Häufigkeit für viele Münzen sind mehr als 1

InformationsquelleAutor wyq10

Wörterbuch muss eine Token-strings für seine input:

dataset = ['driving car ',
           'drive car carefully',
           'student and university']

# be sure to split sentence before feed into Dictionary
dataset = [d.split() for d in dataset]

vocab = Dictionary(dataset)

InformationsquelleAutor Amir

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.