CBOW v. s. skip-Gramm: warum umkehren, Kontext-und Ziel-Wörter?

In diese Seite, es wird gesagt, dass:

[...] skip-Gramm kehrt Kontexte und Ziele, und versucht vorherzusagen jeden Kontext Wort vom Ziel, Wort [...]

Jedoch, Blick auf die Trainings-Datensatz produziert, der Inhalt des X-und Y-pair-Mädchen zu sein scheint interexchangeable, als diese zwei Paare von (X, Y):

(quick, brown), (brown, quick)

Damit, warum unterscheiden das viel zwischen Kontext und Ziele, wenn es ist die gleiche Sache am Ende?

Auch tun Udacity ist das Deep-Learning-Kurs, übung auf word2vec, ich Frage mich, warum Sie scheinen, um den Unterschied zwischen diesen beiden Ansätzen, dass viel in dieses problem:

Alternative zu skip-Gramm ist ein weiterer Word2Vec Modell genannt, CBOW (Ständige Bag of Words). In der CBOW Modell, anstatt die Vorhersage ein Kontext-Wort-aus einem Wort Vektor, prognostizieren Sie ein Wort aus der Summe aller das Wort Vektoren in seinem Kontext. Implementieren und bewerten zu können, CBOW Modell trainiert auf der text8 dataset.

Wäre nicht dieser liefert dann die gleichen Ergebnisse?

InformationsquelleAutor Guillaume Chevalier | 2016-07-10

36

Hier ist meine vereinfachte und eher naiven Verständnis der Unterschied:

Wie wir wissen, CBOW ist, zu lernen, um vorherzusagen, das Wort durch den Kontext. Oder maximieren Sie die Wahrscheinlichkeit, dass das target-Wort durch den Blick auf den Kontext. Und dies geschieht, um ein problem für seltene Wörter. Zum Beispiel, angesichts der Kontext yesterday was a really [...] day CBOW Modell wird Ihnen sagen, dass die meisten wohl das Wort beautiful oder nice. Worte wie delightful erhalten viel weniger Aufmerksamkeit von dem Modell, weil es wurde entwickelt, um vorherzusagen, das wahrscheinlichste Wort. Dieses Wort wird geglättet über eine Menge von Beispielen, mit häufiger Wörter.

Auf der anderen Seite, die skip-Gramm Modell ist konzipiert, um vorherzusagen, den Kontext. Das Wort delightful muss es verstehen es und sagen uns, dass es eine große Wahrscheinlichkeit, dass der Kontext yesterday was really [...] day oder andere relevante Kontext. Mit skip-Gramm das Wort delightful wird nicht versuchen zu konkurrieren mit dem Wort beautiful aber stattdessen delightful+context Paare werden behandelt, wie neue Beobachtungen.

UPDATE

Dank @0xF für den Austausch dieser Artikel

Laut Mikolov

Skip-Gramm: funktioniert gut mit einer geringen Menge von Trainingsdaten, stellt Sie auch seltene Wörter oder Phrasen.

CBOW: ein Vielfaches schneller ausbilden als die skip-Gramm, etwas bessere Genauigkeit für das häufige Wörter

Noch eine Ergänzung zu dem Thema gefunden hier:

In der "skip-Gramm" - Modus alternative zu "CBOW", eher als durchschnittlich
der Kontext Worte, jedes ist als eine paarweise training Beispiel. Dass
ist, in einem CBOW Beispiel wie [predict 'aß' aus
Durchschnitt('Der', 'Katze','', 'Maus')], um das Netzwerk präsentiert sich mit
vier skip-Gramm-Beispiele [predict 'aß' aus 'Der'], [predict 'gegessen'
von 'cat'], [predict 'aß' aus 'der'], [predict 'ate' von 'Maus'].
(Das gleiche random-Fenster-Reduktion Auftritt, also die Hälfte der Zeit, die würde
nur zwei Beispiele, die in der nächsten Wörter.)

Diese quora post [quora.com/..., sagt skip-Gramm braucht weniger Daten zu trainieren, als cbow,gerade die entgegengesetzte Ansicht Ihren Kommentar.Rechtfertigen Sie Ihre Antwort mit Hilfe von veröffentlichten Papier oder so.
Danke für den Hinweis! Die Erläuterungen in diesem Artikel macht Sinn, so habe ich aktualisiert meine Antwort.

InformationsquelleAutor Serhiy
0

Es hat zu tun mit dem, was genau Sie sind, die Berechnung der an einem gegebenen Punkt. Der Unterschied wird klarer, wenn Sie beginnen, zu schauen, mit Modellen, die enthalten einen größeren Kontext für jede Wahrscheinlichkeitsrechnung.

In skip-Gramm, Sie sind die Berechnung des Kontext-word(s) von der Wort an der aktuellen position im Satz; Sie sind "überspringen" das aktuelle Wort (und möglicherweise ein bisschen der Rahmen) in Ihrer Berechnung. Das Ergebnis kann mehr als ein Wort (aber nicht, wenn die Kontext-Fenster ist nur ein Wort lang).

In CBOW, du bist Berechnung der aktuellen word - aus dem Kontext-Wort(s), so dass Sie immer nur ein Wort als Ergebnis.

Der Unterschied ist mir noch immer unklar, das einzige, was zu ändern scheint, ist die Polsterung von den Worten in der Nähe der Beginn und das Ende von Sätzen: in einem Modell wird es insgesamt mehr Wörter auf die input-Größe oder die output-Größe in Bezug auf, wie Häufig die gleichen Wörter gezeigt wurden. Auf einen unendlich langen Satz, die beiden Modelle nicht haben, dass ungleiche Polsterung-Konzept ich bin der Einführung.
Als Beispiel, wie würde man das Modell ändern-Konfiguration in der Udacity-link, den ich gesendet? Es scheint mir, dass nur der Austausch der Etiketten mit dem input-Beispiele würde den trick tun, aber es kann doch nicht wahr sein, wäre der Unterschied so trivial...

InformationsquelleAutor Clay

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.