Was repräsentiert der Vektor eines Wortes in word2vec?

word2vec ist ein open-source-tool von Google:

Für jedes Wort, es liefert einen Vektor, der die float-Werte, was genau repräsentieren Sie?
Gibt es auch ein Papier, auf Absatz Vektor kann mir jemand erklären, wie Sie mit word2vec um Vektor fester Länge für einen Absatz.

InformationsquelleAutor der Frage user168983 | 2014-11-20

35

TLDR: Word2Vec ist der Aufbau von Wort-Projektionen (Einbettungen) in einem ruhenden Raum von N Dimensionen (N ist dabei die Größe der Wort-Vektoren erhalten). Die float-Werte repräsentiert die Koordinaten der Wörter in diesem N-dimensionalen Raum.

Die große Idee hinter der latent-space-Projektionen, putting Objekte in einer anderen-und continuous-dimensionalen Raum, ist, dass die Objekte wird eine Darstellung (Vektor) , hat mehr interessante Rechnung Eigenschaften als basic-Objekte.

Word2Vec algorithmen, die dies tun:

Vorstellen, dass Sie einen Satz:

Dem Hund zu gehen hat ___ für einen Spaziergang in den park.

Wollen Sie offensichtlich zu füllen Sie die Lücke mit dem Wort "außerhalb", sondern Sie hätten auch "out". Das w2v-algorithmen sind begeistert von dieser Idee. Sie möchten alle Wörter, füllen Sie die Felder in der Nähe, denn Sie gehören zusammen - Dies nennt man die Verteilungseffekte Hypothese - Daher die Worte "out" und "outside" sind näher zusammen in der Erwägung, dass ein Wort wie "Karotte" wäre weiter Weg.

Dies ist die Art von "intuition" hinter word2vec. Für eine theorical Erklärung, was Los ist, würde ich vorschlagen, zu Lesen:
Absatz Vektoren, die Idee ist die gleiche wie in w2v. Jeder Absatz kann dargestellt werden durch seine Worte. Zwei Modelle vorgestellt werden, die in dem Papier.
1. In einem "Bag-of-Word" (die pv-dbow Modell), wo man Feste Länge Absatz Vektor wird verwendet, um vorherzusagen, seine Worte.
2. Durch hinzufügen einer Feste Länge Absatz token in Wort zusammenhängen (die pv-dm-Modell). Durch retropropagating der Farbverlauf Sie bekommen ein "Gefühl" von dem, was fehlt, womit sich der Absatz mit den gleichen Worten/Thema "fehlt" eng zusammen.
Bits aus dem Artikel:

Den
Absatz Vektor-und word-Vektoren werden gemittelt oder verkettet
um vorherzusagen, das nächste Wort in einem Kontext.
[...]
Der Absatz token gedacht werden kann, wie ein anderes Wort. Es
wirkt wie ein Speicher, der merkt sich, was fehlt
aktuelle Kontext – oder das Thema der Absatz

Für volles Verständnis auf, wie diese Vektoren eingebaut sind, müssen Sie lernen, wie neuronale Netze aufgebaut sind und wie der backpropagation-Algorithmus arbeitet. (ich würde vorschlagen, beginnend mit dieses video und Andrew NG ist Coursera-Klasse)

NB: Softmax ist nur eine Phantasie Art zu sagen, Klassifizierung, jedes Wort in w2v-algorithmen wird als eine Klasse. Hierarchische softmax - /negativ-sampling-tricks zu beschleunigen, softmax und Griff eine Menge von Klassen.

InformationsquelleAutor der Antwort Cedias
0

Feste Breite Kontexte für die einzelnen Wörter verwendet werden, die als Eingabe in ein neuronales Netz. Die Ausgabe des Netzes ist ein Vektor, der die float-Werte - auch bekannt als die word einbetten - von einer bestimmten dimension (normalerweise 50 oder 100). Das Netz wird so trainiert, sowie gute word-einbetten von bestimmten Zug/test-Korpus.

Kann man leicht kommen mit einer festen Größe-Eingang für jedes Wort - sagen M Wörter auf der linken und N-Wörter auf der rechten Seite. Wie Sie so tun, für einen Satz oder Absatz, deren Größen variieren, ist nicht so offensichtlich, oder war es wenigstens nicht auf den ersten. Lesen, ohne das Papier das erste, Schätze ich mal, kann man kombinieren mit fester Breite Einbindung der Wörter im Satz/Absatz zu kommen mit einer festen Länge von Vektor-Einbettung für einen Satz/Absatz.

InformationsquelleAutor der Antwort Edi Bice

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.