Welche Bedeutung hat die Länge einer Word2vec Vektor haben?

Ich bin mit Word2vec durch gensim mit Google pretrained Vektoren trainiert auf Google News. Ich habe bemerkt, dass das Wort-Vektoren, auf die ich zugreifen kann, indem man direkte index-lookups auf die Word2Vec Objekt sind keine einheitsvektoren:

>>> import numpy
>>> from gensim.models import Word2Vec
>>> w2v = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
>>> king_vector = w2v['king']
>>> numpy.linalg.norm(king_vector)
2.9022589

Jedoch in der most_similar Methode, diese nicht-einheitsvektoren sind nicht verwendet; stattdessen werden normierte Versionen sind von undokumentierten .syn0norm Eigenschaft, die enthält nur die einheitsvektoren:

>>> w2v.init_sims()
>>> unit_king_vector = w2v.syn0norm[w2v.vocab['king'].index]
>>> numpy.linalg.norm(unit_king_vector)
0.99999994

Den größeren Vektor ist nur eine abgespeckte version der Einheitsvektor:

>>> king_vector - numpy.linalg.norm(king_vector) * unit_king_vector
array([  0.00000000e+00,  -1.86264515e-09,   0.00000000e+00,
         0.00000000e+00,  -1.86264515e-09,   0.00000000e+00,
        -7.45058060e-09,   0.00000000e+00,   3.72529030e-09,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
        ... (some lines omitted) ...
        -1.86264515e-09,  -3.72529030e-09,   0.00000000e+00,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
         0.00000000e+00,   0.00000000e+00,   0.00000000e+00], dtype=float32)

Gegeben, das Wort ähnlichkeit Vergleiche in Word2Vec getan werden,Kosinus-ähnlichkeit, es ist mir nicht klar, was die Längen der nicht-normalisierte Vektoren bedeuten - obwohl ich nehme an, Sie bedeuten etwas, da gensim macht Sie auf mich eher, als dass nur die einheitsvektoren in .syn0norm.

Wie sind die Längen dieser nicht-normierte Word2vec Vektoren erzeugt, und was ist Ihre Bedeutung? Für welche Berechnungen macht es Sinn, verwenden Sie die normierten Vektoren, und Wann sollte ich die nicht-normalisiert sein?

Verwandte: Sollte ich zu normalisieren word2vec die Wort-Vektoren, bevor Sie diese verwenden?

InformationsquelleAutor Mark Amery | 2016-03-16

18

Ich denke, die Antwort, die Sie suchen, ist beschrieben im Jahr 2015 Papier Mess-Wort Bedeutung
mit
Verteilte Repräsentationen der Wörter Adriaan Schakel und Benjamin Wilson. Die wichtigsten Punkte:

Wenn ein Wort erscheint
in verschiedenen Kontexten, einem Vektor, der bewegt wird, in
unterschiedliche Richtungen bei updates. Der endgültige Vektor
dann stellt eine Art gewichteter Durchschnitt
über die verschiedenen Kontexte. Mittelung über Vektoren
das zeigen Sie in verschiedene Richtungen führt in der Regel
- Vektor wird kürzer mit steigender Anzahl
von den verschiedenen Kontexten, in denen das Wort erscheint.
Die Worte werden in vielen verschiedenen zusammenhängen verwendet,
Sie müssen tragen wenig Sinn. Paradebeispiele
solche unbedeutende Worte sind Hochfrequenz-stop
Worte, die in der Tat vertreten durch kurze Vektoren
trotz Ihrer hohen Begriff Frequenzen ...

Gegebenen Begriff Frequenz,
die Vektor-Länge gesehen, dass die Werte nur in einem
schmalen Intervall. Das Intervall zunächst verschiebt sich nach oben
mit Zunehmender Frequenz. Um eine Frequenz
von über 30, der trend kehrt sich, und das Intervall
verschiebt sich nach unten.

...

Beiden Kräfte bestimmen die Länge eines Wortes
Vektor-zu sehen sind hier am Werk. Klein-Frequenz
Worte neigen dazu, konsequent eingesetzt, so dass die
häufiger solche Wörter erscheinen, die mehr
Ihre Vektoren. Diese Tendenz spiegelt sich auch in der nach oben
trend in Abb. 3 bei niedrigen Frequenzen. High-frequency
Worte, auf der anderen Seite neigen zu werden
in vielen verschiedenen zusammenhängen verwendet, so mehr, der
mehr Häufig Sie auftreten. Die Mittelung über
eine steigende Anzahl von verschiedenen Kontexte verkürzt
die Vektoren repräsentieren solche Worte. Diese Tendenz
klar spiegelt sich der trend nach unten
in Abb. 3 bei hohen Frequenzen, die Ihren Höhepunkt in der Zeichensetzung
Marken-und stop-Wörter mit kurzen Vektoren in
die sehr Ende.

...

Abbildung 3: Word-Vektor der Länge v versus Begriff Frequenz
tf aller Wörter in der hep-th Wortschatz.
Beachten Sie die logarithmische Skala verwendet, auf der Frequenz
Achse. Die dunklen Symbole bezeichnen Mülltonne bedeutet mit der
kth bin mit den Frequenzen im Intervall
[2^k−1, 2^k − 1] mit k = 1, 2, 3, . . .. Diese bedeutet
enthalten sind ein Leitfaden für das Auge. Die horizontale
Linie zeigt die Länge v = 1.37 die mittlere
Vektor

4 Diskussion

Meisten Anwendungen von verteilten Repräsentationen
Worte, die durch word2vec so weit, zentriert
um Semantik. Eine Vielzahl von Experimenten haben
demonstriert das Ausmaß, in dem die Richtung
Wort-Vektoren erfasst Semantik. In diesem kurzen Bericht,
es wurde darauf hingewiesen, dass nicht nur die Richtung,
aber auch die Länge von Wort-Vektoren trägt, wichtig
Informationen. Insbesondere wurde gezeigt, dass
word-Vektor der Länge liefert, in Kombination mit
Begriff Frequenz, eine sinnvolle Maßnahme, mit der Wort-Bedeutung.

InformationsquelleAutor user3592579
2

Werde ich entschuldige mich für die ausführliche im Voraus.

Ziel-Funktion von word einbetten von Modellen ist zu maximieren, um die Daten-log-likelihood-Modell unter. In word2vec, dies wird erreicht durch die Minimierung der dot product (normalisiert mit softmax) der vorhergesagten Vektor (mit Kontext) und dem tatsächlichen Vektor (aktuelle Darstellung) ein Wort gegeben, das Wort Kontext.

Beachten Sie, dass die Aufgabe, für die Wort-Vektoren ausgebildet ist entweder zur Vorhersage der Kontext gegebene Wort, oder ein Wort gegebenen Kontext (skip-gram vs cbow). Länge der Wort-Vektoren keine Bedeutung hat als solche, sondern die Vektoren selbst gefunden zu haben interessante Eigenschaften/Anwendungen.

Zu finden ähnliche Wörter, finden Sie Wörter mit maximal Kosinus-ähnlichkeit (entspricht der Suche nach Wörtern mit minimalem euklidischen Abstand nach der Einheit der Normalisierung der Vektoren, überprüfen link), die most_similar Funktion tut.

Zu finden, Analogien, können wir einfach die Differenz (oder die Richtung) Vektor zwischen vektorbasierte Darstellungen von Wort-Vektoren. Zum Beispiel,
- v('Paris') - v('Frankreich') ~ v('Rom') - v('Italien')`
- v('gut') - v('bad') ~ v(happy) - v('traurig')
In gensim,
```
model = gensim.models.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

model.most_similar(positive=['good', 'sad'], negative=['bad'])
[(u'wonderful', 0.6414928436279297),
 (u'happy', 0.6154338121414185),
 (u'great', 0.5803680419921875),
 (u'nice', 0.5683973431587219),
 (u'saddening', 0.5588893294334412),
 (u'bittersweet', 0.5544661283493042),
 (u'glad', 0.5512036681175232),
 (u'fantastic', 0.5471092462539673),
 (u'proud', 0.530515193939209),
 (u'saddened', 0.5293528437614441)]
```
Referenzen:
1. Handschuh: Global-Vektoren für die Word-Darstellung
2. word2vec Parameter Lernen Erklärt - Papier
3. Sprachliche Regelmäßigkeiten in der Kontinuierlichen Raum-Wort - Darstellungen - Papier
4. Word2Vec
Kopieren die Antwort auf die damit verbundenen (noch unbeantwortet Frage)
- -1; der einzige Teil dieser Antwort, die relevant für die Frage, die ich fragte, ist "Länge der Wort-Vektoren keine Bedeutung hat, da solche", und das ist nur eine blanke Behauptung ohne Begründung - die lässt mich unpersuaded, dass es wahr ist.
- Es ist relevant zu erwähnen, dass der Algorithmus, der verwendet wurde, den ersten Platz zu erhalten, die Vektoren, berücksichtigt Skalarprodukt von Vektoren für die Optimierung, die in Runden, das macht die Länge der Vektoren bedeutungslos
- Der jetzt akzeptierte Antwort nicht einverstanden mit Ihrer Aussage, dass sich die resultierenden Längen sind bedeutungslos, und liefert den empirischen Beweis, dass die Längen tatsächlich enthalten Sinne.
- zu die jetzt akzeptierte Antwort; ich habe mir den genannten Papier-und empirische Korrelation zwischen Vektor-Längen und-term-Frequenz - /Wort-Bedeutung
InformationsquelleAutor kampta

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

4 Diskussion