Ist es möglich, re-Zug eine word2vec Modell (z.B. GoogleNews-Vektoren-negative300.bin) aus einem corpus von Sätzen in python?

Ich bin über die vor-geschult Google news-Datensatz für die erste word-Vektoren durch Verwendung von Gensim-Bibliothek in python

model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

Nach dem laden des Modells bin ich konvertieren training Satz Wörter in Vektoren

#reading all sentences from training file
with open('restaurantSentences', 'r') as infile:
x_train = infile.readlines()
#cleaning sentences
x_train = [review_to_wordlist(review,remove_stopwords=True) for review in x_train]
train_vecs = np.concatenate([buildWordVector(z, n_dim) for z in x_train])

Während word2Vec Prozess, den ich bekommen eine Menge von Fehlern, die für die Worte in meinem Korpus, die nicht in das Modell. Problem ist, wie kann ich die Umschulung bereits trainierte Modell (e.g GoogleNews-Vektoren-negative300.bin'), um word-Vektoren für die fehlenden Worte.

Folgende ist, was ich versucht habe:
Ausgebildet ist, ein neues Modell von Ausbildung Sätzen, die ich hatte

# Set values for various parameters
num_features = 300    # Word vector dimensionality                      
min_word_count = 10   # Minimum word count                        
num_workers = 4       # Number of threads to run in parallel
context = 10          # Context window    size                                                                                    
downsampling = 1e-3   # Downsample setting for frequent words

sentences = gensim.models.word2vec.LineSentence("restaurantSentences")
# Initialize and train the model (this will take some time)
print "Training model..."
model = gensim.models.Word2Vec(sentences, workers=num_workers,size=num_features, min_count = min_word_count, 
                      window = context, sample = downsampling)


model.build_vocab(sentences)
model.train(sentences)
model.n_similarity(["food"], ["rice"])

... Es funktionierte! aber das problem ist, dass ich eine wirklich kleine dataset und weniger Ressourcen für die Ausbildung einer großen Modell.

Zweite ist, dass ich auf der Suche bin, ist das erweitern der bereits trainierte Modell wie GoogleNews-Vektoren-negative300.bin.

model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
sentences = gensim.models.word2vec.LineSentence("restaurantSentences")
model.train(sentences)

Ist es möglich, und ist das ein guter Weg, um zu verwenden, bitte helfen Sie mir

Mögliche Duplikate von Update gensim word2vec model

InformationsquelleAutor Nomiluks | 2016-01-31

4

Dies ist, wie ich das technisch gelöst ist das Problem:

Vorbereitung der input-Daten mit dem Satz iterierbar von Radim Rehurek: https://rare-technologies.com/word2vec-tutorial/
```
sentences = MySentences('newcorpus')  
```
Den Modell-Einstellungen
```
model = gensim.models.Word2Vec(sentences)
```
Schneidet die Vokabeln mit der google-Wort-Vektoren
```
model.intersect_word2vec_format('GoogleNews-vectors-negative300.bin',
                                lockf=1.0,
                                binary=True)
```
Schließlich die Ausführung des Modells und Aktualisierung
```
model.train(sentences)
```
Ein Hinweis der Warnung: Von einem materiellen Standpunkt aus betrachtet, ist es natürlich sehr fraglich, ob ein corpus wahrscheinlich sehr klein ist, kann tatsächlich "verbessern" das Google wordvectors ausgebildet, die auf einem massiven Korpus...
- Ihr Kommentar lässt vermuten, dass diese Methode zu "verbessern" Google ' s word-Vektoren. Dokumentation würde vorschlagen, dass es tatsächlich nutzt Google Vektoren zu verbessern Ihr Modell, nicht die andere Weise herum. (Keine Wörter Hinzugefügt werden, um das vorhandene Vokabular, aber schneidenden Worten verabschieden, die Datei ist zu gewichten, und nicht-schneidende Worte allein gelassen werden.) ich versuchte Ihre Methode und überprüft mein model ist der Korpus Größe. Es reflektiert die neue Trainingsdaten, die nicht in Google News.
- Du hast Recht - vielleicht ist der Begriff verbessern ist irreführend hier. Was der code tut, ist es aktualisiert Worte aus dem neuen corpus und gibt Ihnen diese.
- Die Größe(vocab) von Google 's word-Vektoren ist rund 3,000,000 Worte, so dass, wenn Ihr Körper ist mit einer viel geringeren Größe, wie rund 10.000 Wörter, auf die sich überschneiden, die Größe des Modells wird weiterhin mit 10.000 aber nur die Wörter in Ihrem Modell wird direkt zugewiesen werden die GEWICHTE von Google' s word-Vektor, völlig ignoriert die vorherigen GEWICHTE von Ihrem ursprünglichen Modell. So würde es keinen Unterschied machen, bis und es sei denn, Sie haben auch ein sehr großes Korpus zu trainieren.
InformationsquelleAutor Chris Arnold
2

ist es möglich, wenn die Modell-builder nicht abschließen das Modell der Ausbildung .
in python ist es:
```
model.sims(replace=True) #finalize the model
```
wenn das Modell nicht abzuschließen, ist es eine perfekte Weg, um Modell mit großen datasets.

InformationsquelleAutor Majid
1

Einige Leute arbeiten schon an der Erweiterung gensim zu ermöglichen, das online-training.

Ein paar GitHub pull-Anforderungen, die Sie anschauen wollen, die für den Fortschritt auf, dass der Aufwand:
- https://github.com/piskvorky/gensim/pull/435
- https://github.com/piskvorky/gensim/pull/615
Sieht es aus wie diese Verbesserung konnte damit die Aktualisierung GoogleNews-Vektoren-negative300.bin Modell.
- das ist eine tolle Nachricht,.... Ich wünschte, ich könnte tun, online-training und bin nur darauf warten, dass:)
InformationsquelleAutor orluke

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.