Wie, um Vorhersagen, die Thema einer neuen Abfrage, die einen ausgebildeten LDA-Modell mit gensim?

Ich ausgebildet haben, ein Korpus für die LDA Thema Modellierung mit gensim.

Gehen Sie durch die Anleitung auf der gensim website (ist nicht der ganze code):

question = 'Changelog generation from Github issues?';

temp = question.lower()
for i in range(len(punctuation_string)):
    temp = temp.replace(punctuation_string[i], '')

words = re.findall(r'\w+', temp, flags = re.UNICODE | re.LOCALE)
important_words = []
important_words = filter(lambda x: x not in stoplist, words)
print important_words
dictionary = corpora.Dictionary.load('questions.dict')
ques_vec = []
ques_vec = dictionary.doc2bow(important_words)
print dictionary
print ques_vec
print lda[ques_vec]

Dies ist die Ausgabe, die ich bekomme:

['changelog', 'generation', 'github', 'issues']
Dictionary(15791 unique tokens)
[(514, 1), (3625, 1), (3626, 1), (3627, 1)]
[(4, 0.20400000000000032), (11, 0.20400000000000032), (19, 0.20263215848547525), (29, 0.20536784151452539)]

Ich weiß nicht, wie die Letzte Ausgabe wird mir helfen, das mögliche Thema für die question !!!

Bitte um Hilfe!!

InformationsquelleAutor Animesh Pandey | 2013-04-28

6

Geschrieben haben ich eine Funktion in python, die die möglichen Thema für eine neue Abfrage:
```
def getTopicForQuery (question):
    temp = question.lower()
    for i in range(len(punctuation_string)):
        temp = temp.replace(punctuation_string[i], '')

    words = re.findall(r'\w+', temp, flags = re.UNICODE | re.LOCALE)

    important_words = []
    important_words = filter(lambda x: x not in stoplist, words)

    dictionary = corpora.Dictionary.load('questions.dict')

    ques_vec = []
    ques_vec = dictionary.doc2bow(important_words)

    topic_vec = []
    topic_vec = lda[ques_vec]

    word_count_array = numpy.empty((len(topic_vec), 2), dtype = numpy.object)
    for i in range(len(topic_vec)):
        word_count_array[i, 0] = topic_vec[i][0]
        word_count_array[i, 1] = topic_vec[i][1]

    idx = numpy.argsort(word_count_array[:, 1])
    idx = idx[::-1]
    word_count_array = word_count_array[idx]

    final = []
    final = lda.print_topic(word_count_array[0, 0], 1)

    question_topic = final.split('*') ## as format is like "probability * topic"

    return question_topic[1]
```
Bevor Sie das tun, finden Sie diese link!

In den ersten Teil des Codes, die query wird vorverarbeitet, so dass es sein kann, beraubt, Füllwörter und unnötige Satzzeichen.

Dann das Wörterbuch, das gemacht wurde, mit Hilfe unserer eigenen Datenbank geladen.

Wir, dann setzen wir die Zeichen der neuen Abfrage-Tasche von Wörtern und dann das Thema Wahrscheinlichkeitsverteilung der Abfrage wird berechnet, indem topic_vec = lda[ques_vec] wo lda wird das trainierte Modell wie in dem link oben genannten.

Die Verteilung ist dann sortiert, w.r.t die Wahrscheinlichkeiten der Themen. Das Thema mit der höchsten Wahrscheinlichkeit wird dann angezeigt, indem question_topic[1].
- Ich bekomme das Letzte = ldamodel.print_topic(word_count_array[0, 0], 1) IndexError: der index 0 liegt außerhalb des gültigen Bereichs für Achse 0 mit einer Größe von 0, wenn ich diese Funktion nutzen. Was bedeutet das? sorry für die dumme Frage.
- Warum sind Sie erstellen alle leeren Listen und dann über Sie zu schreiben unmittelbar nach?
- Tut mir Leid, dass. Ich habe diesen code bei mir wurde buchstäblich schlecht bei python. Dies ist eine gute chance zur Umgestaltung dieser Funktion. Ich werde zu aktualisieren, die Funktion.
InformationsquelleAutor Animesh Pandey

Angenommen, wir müssen nur Thema mit höchster Wahrscheinlichkeit folgende code-Schnipsel hilfreich sein können:

def findTopic(testObj, dictionary):
    text_corpus = []
    '''
     For each query ( document in the test file) , tokenize the 
     query, create a feature vector just like how it was done while training
     and create text_corpus
    '''
    for query in testObj:
        temp_doc = tokenize(query.strip())
        current_doc = []

        for word in range(len(temp_doc)):
            if temp_doc[word][0] not in stoplist and temp_doc[word][1] == 'NN':
                current_doc.append(temp_doc[word][0])

        text_corpus.append(current_doc)
    '''
     For each feature vector text, lda[doc_bow] gives the topic
     distribution, which can be sorted in descending order to print the 
     very first topic
    ''' 
    for text in text_corpus:
        doc_bow = dictionary.doc2bow(text)
        print text
        topics = sorted(lda[doc_bow],key=lambda x:x[1],reverse=True)
        print(topics)
        print(topics[0][0])

Die tokenisierung Funktionen entfernt Interpunktion/domain-spezifische Zeichen gefiltert und gibt die Liste von tokens. Hier-Wörterbuch erstellt in der Ausbildung übergeben wird als parameter der Funktion, aber es kann auch aus einer Datei geladen.

InformationsquelleAutor Yogendra Miraje

0

Grundsätzlich Anjmesh Pandey schlug ein gutes Beispiel-code. Aber das erste Wort mit der höchsten Wahrscheinlichkeit in ein Thema kann nicht allein repräsentieren das Thema, weil in einigen Fällen gruppierten Themen haben vielleicht ein paar Themen teilen diese meist geschieht, mit anderen Worten, selbst an der Spitze von Ihnen. Daher Rückgabe des index von einem Thema genug sein würde, die am ehesten in der Nähe der Abfrage.

topic_id = sorted(lda[ques_vec], key=lambda (index, score): -score)

Die transformation von ques_vec gibt Sie pro Thema eine Idee und Sie würden versuchen zu verstehen, was die unbeschrifteten Thema geht es darum, durch die überprüfung einige Worte vor allem einen Beitrag zu dem Thema.

latent_topic_words = map(lambda (score, word):word lda.show_topic(topic_id))

show_topic () - Methode gibt eine Liste von Tupel sortiert nach Punktestand jedes Wort mit einem Beitrag zum Thema in absteigender Reihenfolge, und können wir etwa verstehen, die latent Thema, indem Sie überprüfen diese Worte mit Ihren gewichten.

InformationsquelleAutor Lyle

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.