Wie extrahieren Sie Texte aus dem Korpus mithilfe von gensim

Zur Vorverarbeitung der corpus war ich der Planung bis zur extarct gemeinsamen Sätze aus dem Korpus, für diese habe ich versucht mit Hilfe Sätze Modell im gensim, versuchte ich folgenden code, aber es ist nicht das geben von mir gewünschten Ausgabe.

Mein code

from gensim.models import Phrases
documents = ["the mayor of new york was there", "machine learning can be useful sometimes"]

sentence_stream = [doc.split(" ") for doc in documents]
bigram = Phrases(sentence_stream)
sent = [u'the', u'mayor', u'of', u'new', u'york', u'was', u'there']
print(bigram[sent])

Ausgabe

[u'the', u'mayor', u'of', u'new', u'york', u'was', u'there']

Aber wie es kommen sollte

[u'the', u'mayor', u'of', u'new_york', u'was', u'there']

Aber wenn ich versuchte, zu drucken, vocab der Zug-Daten, die ich sehen kann, bigram, aber seinen nicht das arbeiten mit test-Daten, wohin ich gehe falsch gemacht?

print bigram.vocab

defaultdict(<type 'int'>, {'useful': 1, 'was_there': 1, 'learning_can': 1, 'learning': 1, 'of_new': 1, 'can_be': 1, 'mayor': 1, 'there': 1, 'machine': 1, 'new': 1, 'was': 1, 'useful_sometimes': 1, 'be': 1, 'mayor_of': 1, 'york_was': 1, 'york': 1, 'machine_learning': 1, 'the_mayor': 1, 'new_york': 1, 'of': 1, 'sometimes': 1, 'can': 1, 'be_useful': 1, 'the': 1}) 

InformationsquelleAutor Prashant Puri | 2016-03-01

Schreibe einen Kommentar