Wie verwende ich Gensim doc2vec mit vortrainierten Wortvektoren?

Ich kam vor kurzem in die doc2vec neben Gensim. Wie kann ich die vor-geschult sind Wort-Vektoren (z.B. im word2vec original-website) mit doc2vec?

Oder ist doc2vec immer das Wort Vektoren aus dem gleichen Sätze verwendet er für die Absatz-Vektor-Ausbildung?

Dank.

InformationsquelleAutor der Frage Stergios | 2014-12-14

20

Beachten Sie, dass die "DBOW" (dm=0) training-Modus nicht benötigen oder selbst erstellen Wort-Vektoren, die als Teil der Ausbildung. Es bloß lernt Dokument-Vektoren, die gut im Vorhersagen jedes Wort wiederum (ähnlich wie die word2vec skip-Gramm-Trainings-Modus).

(Vor gensim 0.12.0, es war der parameter train_words erwähnt in einem anderen Kommentar, die Dokumentation, die vorgeschlagen wird co-train Worte. Aber ich glaube nicht, dass dies jemals wirklich gearbeitet. Ab gensim 0.12.0, gibt es den parameter dbow_words", die zum überspringen-Gramm-Bahn-Worte gleichzeitig mit DBOW doc-Vektoren. Beachten Sie, dass dadurch die Ausbildung länger dauern – durch einen Faktor in Bezug auf window. Also, wenn Sie nicht brauchen, Wort-Vektoren, können Sie immer noch lassen Sie diese aus.)

In der "DM" - training-Methode (dm=1), Wort-Vektoren sind von Natur aus trainiert während des Prozesses, zusammen mit doc-Vektoren, und sind wahrscheinlich auch auf die Qualität der doc-Vektoren. Es ist theoretisch möglich, pre-initialisieren Sie die Wort-Vektoren aus der vorherigen Daten. Aber ich kenne keine starke theoretische oder experimentelle Grund, zuversichtlich zu sein, dies würde die Verbesserung der doc-Vektoren.

Einer fragmentarischen experiment lief ich entlang dieser Linien vorgeschlagen, die doc-Vektor Ausbildung stieg aus, um einen schnelleren start, bessere prädiktive Qualitäten nach den ersten paar Durchgängen aber dieser Vorteil verblasst mit mehr geht. Ob Sie halten das Wort Vektoren Konstante oder lassen Sie sich weiter anpassen, mit der neuen Ausbildung ist wahrscheinlich auch ein wichtiger Aspekt... aber welche Wahl besser ist, hängt von Ihrer Ziele, Daten-set, und die Qualität/Relevanz der bereits bestehenden Wort-Vektoren.

(Sie wiederholen könnte mein experiment mit der intersect_word2vec_format() Methode zur Verfügung, im gensim 0.12.0, und versuchen, die verschiedenen Stufen der Herstellung-pre-loaded Vektoren beständig-zu-neuen-Ausbildung über die syn0_lockf Werte. Aber denken Sie daran, dies ist experimentelle Gebiet: basic doc2vec Ergebnisse stützen sich nicht auf, oder sogar unbedingt verbessern, wiederverwendet Wort-Vektoren.)

InformationsquelleAutor der Antwort gojomo

Gut, ich bin vor kurzem mit Doc2Vec zu. Und ich dachte, der Verwendung von LDA-Ergebnis als word-Vektor und fixieren Sie diese word-Vektoren zu erhalten, ein Dokument-Vektor. Das Ergebnis ist nicht sehr interessant. Vielleicht ist es nur meine Daten, ist das nicht gut.
Der code ist unten. Doc2Vec speichert word Vektoren und Dokument-Vektoren zusammen im Wörterbuch doc2vecmodel.syn0. Sie können direkten ändern der Vektor-Werte. Das einzige problem könnte sein, dass Sie brauchen, um herauszufinden, welche Positionen in syn0 stellt die word oder das Dokument. Die Vektoren gespeichert sind, in zufälliger Reihenfolge im Wörterbuch syn0.

import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
from gensim import corpora, models, similarities
import gensim
from sklearn import svm, metrics
import numpy

#Read in texts into div_texts(for LDA and Doc2Vec)
div_texts = []
f = open("clean_ad_nonad.txt")
lines = f.readlines()
f.close()
for line in lines:
    div_texts.append(line.strip().split(" "))

#Set up dictionary and MMcorpus
dictionary = corpora.Dictionary(div_texts)
dictionary.save("ad_nonad_lda_deeplearning.dict")
#dictionary = corpora.Dictionary.load("ad_nonad_lda_deeplearning.dict")
print dictionary.token2id["junk"]
corpus = [dictionary.doc2bow(text) for text in div_texts]
corpora.MmCorpus.serialize("ad_nonad_lda_deeplearning.mm", corpus)

#LDA training
id2token = {}
token2id = dictionary.token2id
for onemap in dictionary.token2id:
    id2token[token2id[onemap]] = onemap
#ldamodel = models.LdaModel(corpus, num_topics = 100, passes = 1000, id2word = id2token)
#ldamodel.save("ldamodel1000pass.lda")
#ldamodel = models.LdaModel(corpus, num_topics = 100, id2word = id2token)
ldamodel = models.LdaModel.load("ldamodel1000pass.lda")
ldatopics = ldamodel.show_topics(num_topics = 100, num_words = len(dictionary), formatted = False)
print ldatopics[10][1]
print ldatopics[10][1][1]
ldawordindex = {}
for i in range(len(dictionary)):
    ldawordindex[ldatopics[0][i][1]] = i

#Doc2Vec initialize
sentences = []
for i in range(len(div_texts)):
    string = "SENT_" + str(i)
    sentence = models.doc2vec.LabeledSentence(div_texts[i], labels = [string])
    sentences.append(sentence)
doc2vecmodel = models.Doc2Vec(sentences, size = 100, window = 5, min_count = 0, dm = 1)
print "Initial word vector for word junk:"
print doc2vecmodel["junk"]

#Replace the word vector with word vectors from LDA
print len(doc2vecmodel.syn0)
index2wordcollection = doc2vecmodel.index2word
print index2wordcollection
for i in range(len(doc2vecmodel.syn0)):
    if index2wordcollection[i].startswith("SENT_"):
        continue
    wordindex = ldawordindex[index2wordcollection[i]]
    wordvectorfromlda = [ldatopics[j][wordindex][0] for j in range(100)]
    doc2vecmodel.syn0[i] = wordvectorfromlda
#print doc2vecmodel.index2word[26841]
#doc2vecmodel.syn0[0] = [0 for i in range(100)]
print "Changed word vector for word junk:"
print doc2vecmodel["junk"]

#Train Doc2Vec
doc2vecmodel.train_words = False 
print "Initial doc vector for 1st document"
print doc2vecmodel["SENT_0"]
for i in range(50):
    print "Round: " + str(i)
    doc2vecmodel.train(sentences)
print "Trained doc vector for 1st document"
print doc2vecmodel["SENT_0"]

#Using SVM to do classification
resultlist = []
for i in range(4143):
    string = "SENT_" + str(i)
    resultlist.append(doc2vecmodel[string])
svm_x_train = []
for i in range(1000):
    svm_x_train.append(resultlist[i])
for i in range(2210,3210):
    svm_x_train.append(resultlist[i])
print len(svm_x_train)

svm_x_test = []
for i in range(1000,2210):
    svm_x_test.append(resultlist[i])
for i in range(3210,4143):
    svm_x_test.append(resultlist[i])
print len(svm_x_test)

svm_y_train = numpy.array([0 for i in range(2000)])
for i in range(1000,2000):
    svm_y_train[i] = 1
print svm_y_train

svm_y_test = numpy.array([0 for i in range(2143)])
for i in range(1210,2143):
    svm_y_test[i] = 1
print svm_y_test


svc = svm.SVC(kernel='linear')
svc.fit(svm_x_train, svm_y_train)

expected = svm_y_test
predicted = svc.predict(svm_x_test)

print("Classification report for classifier %s:\n%s\n"
      % (svc, metrics.classification_report(expected, predicted)))
print("Confusion matrix:\n%s" % metrics.confusion_matrix(expected, predicted))

print doc2vecmodel["junk"]

InformationsquelleAutor der Antwort STEVE Guo

8

Diese gegabelten version von gensim ermöglicht das einlegen von bereits ausgebildeten Wort-Vektoren für die Ausbildung doc2vec. Hier haben Sie ein Beispiel, wie man es benutzt. Das Wort Vektoren müssen in der C-word2vec tool-text-format: eine Zeile pro Wort Vektor, wo als erstes kommt ein string, der das Wort und dann durch Leerzeichen getrennte float-Werte, einer für jede dimension der Einbettung.

Diese Arbeit gehört zu einer Papierin dem Sie behaupten, dass die Verwendung von pre-geschult Wort Einbettungen tatsächlich hilft mit beim Aufbau der Dokument-Vektoren. Aber ich bin immer fast die gleichen Ergebnisse, egal, ich lade die vor-geschult sind, Einbettungen oder nicht.

Edit: tatsächlich gibt es eine Bemerkenswerte Differenz in meine Experimente. Wenn ich geladen, die pretrained Einbettungen, die ich ausgebildet doc2vec für die Hälfte der Iterationen zu erhalten fast die gleichen Ergebnisse (Ausbildung länger als produziert schlechtere Ergebnisse in meiner Aufgabe).

InformationsquelleAutor der Antwort Álvaro Marco
2

Radim gerade gebucht ein tutorial auf die doc2vec Funktionen von gensim (gestern, glaube ich - deine Frage ist aktuell!).

Gensim unterstützt das laden von pre-geschult Vektoren aus die C-Implementierungwie beschrieben in die gensim-Modelle.word2vec API-Dokumentation.

InformationsquelleAutor der Antwort AaronD

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.