Was repräsentiert der Vektor eines Wortes in word2vec?
word2vec ist ein open-source-tool von Google:
- Für jedes Wort, es liefert einen Vektor, der die float-Werte, was genau repräsentieren Sie?
- Gibt es auch ein Papier, auf Absatz Vektor kann mir jemand erklären, wie Sie mit word2vec um Vektor fester Länge für einen Absatz.
InformationsquelleAutor der Frage user168983 | 2014-11-20
Du musst angemeldet sein, um einen Kommentar abzugeben.
TLDR: Word2Vec ist der Aufbau von Wort-Projektionen (Einbettungen) in einem ruhenden Raum von N Dimensionen (N ist dabei die Größe der Wort-Vektoren erhalten). Die float-Werte repräsentiert die Koordinaten der Wörter in diesem N-dimensionalen Raum.
Die große Idee hinter der latent-space-Projektionen, putting Objekte in einer anderen-und continuous-dimensionalen Raum, ist, dass die Objekte wird eine Darstellung (Vektor) , hat mehr interessante Rechnung Eigenschaften als basic-Objekte.
Word2Vec algorithmen, die dies tun:
Vorstellen, dass Sie einen Satz:
Wollen Sie offensichtlich zu füllen Sie die Lücke mit dem Wort "außerhalb", sondern Sie hätten auch "out". Das w2v-algorithmen sind begeistert von dieser Idee. Sie möchten alle Wörter, füllen Sie die Felder in der Nähe, denn Sie gehören zusammen - Dies nennt man die Verteilungseffekte Hypothese - Daher die Worte "out" und "outside" sind näher zusammen in der Erwägung, dass ein Wort wie "Karotte" wäre weiter Weg.
Dies ist die Art von "intuition" hinter word2vec. Für eine theorical Erklärung, was Los ist, würde ich vorschlagen, zu Lesen:
Absatz Vektoren, die Idee ist die gleiche wie in w2v. Jeder Absatz kann dargestellt werden durch seine Worte. Zwei Modelle vorgestellt werden, die in dem Papier.
Bits aus dem Artikel:
Für volles Verständnis auf, wie diese Vektoren eingebaut sind, müssen Sie lernen, wie neuronale Netze aufgebaut sind und wie der backpropagation-Algorithmus arbeitet. (ich würde vorschlagen, beginnend mit dieses video und Andrew NG ist Coursera-Klasse)
NB: Softmax ist nur eine Phantasie Art zu sagen, Klassifizierung, jedes Wort in w2v-algorithmen wird als eine Klasse. Hierarchische softmax - /negativ-sampling-tricks zu beschleunigen, softmax und Griff eine Menge von Klassen.
InformationsquelleAutor der Antwort Cedias
Feste Breite Kontexte für die einzelnen Wörter verwendet werden, die als Eingabe in ein neuronales Netz. Die Ausgabe des Netzes ist ein Vektor, der die float-Werte - auch bekannt als die word einbetten - von einer bestimmten dimension (normalerweise 50 oder 100). Das Netz wird so trainiert, sowie gute word-einbetten von bestimmten Zug/test-Korpus.
Kann man leicht kommen mit einer festen Größe-Eingang für jedes Wort - sagen M Wörter auf der linken und N-Wörter auf der rechten Seite. Wie Sie so tun, für einen Satz oder Absatz, deren Größen variieren, ist nicht so offensichtlich, oder war es wenigstens nicht auf den ersten. Lesen, ohne das Papier das erste, Schätze ich mal, kann man kombinieren mit fester Breite Einbindung der Wörter im Satz/Absatz zu kommen mit einer festen Länge von Vektor-Einbettung für einen Satz/Absatz.
InformationsquelleAutor der Antwort Edi Bice