CBOW v. s. skip-Gramm: warum umkehren, Kontext-und Ziel-Wörter?
In diese Seite, es wird gesagt, dass:
[...] skip-Gramm kehrt Kontexte und Ziele, und versucht vorherzusagen jeden Kontext Wort vom Ziel, Wort [...]
Jedoch, Blick auf die Trainings-Datensatz produziert, der Inhalt des X-und Y-pair-Mädchen zu sein scheint interexchangeable, als diese zwei Paare von (X, Y):
(quick, brown), (brown, quick)
Damit, warum unterscheiden das viel zwischen Kontext und Ziele, wenn es ist die gleiche Sache am Ende?
Auch tun Udacity ist das Deep-Learning-Kurs, übung auf word2vec, ich Frage mich, warum Sie scheinen, um den Unterschied zwischen diesen beiden Ansätzen, dass viel in dieses problem:
Alternative zu skip-Gramm ist ein weiterer Word2Vec Modell genannt, CBOW (Ständige Bag of Words). In der CBOW Modell, anstatt die Vorhersage ein Kontext-Wort-aus einem Wort Vektor, prognostizieren Sie ein Wort aus der Summe aller das Wort Vektoren in seinem Kontext. Implementieren und bewerten zu können, CBOW Modell trainiert auf der text8 dataset.
Wäre nicht dieser liefert dann die gleichen Ergebnisse?
InformationsquelleAutor Guillaume Chevalier | 2016-07-10
Du musst angemeldet sein, um einen Kommentar abzugeben.
Hier ist meine vereinfachte und eher naiven Verständnis der Unterschied:
Wie wir wissen, CBOW ist, zu lernen, um vorherzusagen, das Wort durch den Kontext. Oder maximieren Sie die Wahrscheinlichkeit, dass das target-Wort durch den Blick auf den Kontext. Und dies geschieht, um ein problem für seltene Wörter. Zum Beispiel, angesichts der Kontext
yesterday was a really [...] day
CBOW Modell wird Ihnen sagen, dass die meisten wohl das Wortbeautiful
odernice
. Worte wiedelightful
erhalten viel weniger Aufmerksamkeit von dem Modell, weil es wurde entwickelt, um vorherzusagen, das wahrscheinlichste Wort. Dieses Wort wird geglättet über eine Menge von Beispielen, mit häufiger Wörter.Auf der anderen Seite, die skip-Gramm Modell ist konzipiert, um vorherzusagen, den Kontext. Das Wort
delightful
muss es verstehen es und sagen uns, dass es eine große Wahrscheinlichkeit, dass der Kontextyesterday was really [...] day
oder andere relevante Kontext. Mit skip-Gramm das Wortdelightful
wird nicht versuchen zu konkurrieren mit dem Wortbeautiful
aber stattdessendelightful+context
Paare werden behandelt, wie neue Beobachtungen.UPDATE
Dank @0xF für den Austausch dieser Artikel
Noch eine Ergänzung zu dem Thema gefunden hier:
Danke für den Hinweis! Die Erläuterungen in diesem Artikel macht Sinn, so habe ich aktualisiert meine Antwort.
InformationsquelleAutor Serhiy
Es hat zu tun mit dem, was genau Sie sind, die Berechnung der an einem gegebenen Punkt. Der Unterschied wird klarer, wenn Sie beginnen, zu schauen, mit Modellen, die enthalten einen größeren Kontext für jede Wahrscheinlichkeitsrechnung.
In skip-Gramm, Sie sind die Berechnung des Kontext-word(s) von der Wort an der aktuellen position im Satz; Sie sind "überspringen" das aktuelle Wort (und möglicherweise ein bisschen der Rahmen) in Ihrer Berechnung. Das Ergebnis kann mehr als ein Wort (aber nicht, wenn die Kontext-Fenster ist nur ein Wort lang).
In CBOW, du bist Berechnung der aktuellen word - aus dem Kontext-Wort(s), so dass Sie immer nur ein Wort als Ergebnis.
Als Beispiel, wie würde man das Modell ändern-Konfiguration in der Udacity-link, den ich gesendet? Es scheint mir, dass nur der Austausch der Etiketten mit dem input-Beispiele würde den trick tun, aber es kann doch nicht wahr sein, wäre der Unterschied so trivial...
InformationsquelleAutor Clay