Word2Vec: Einfluss der Fenstergröße verwendet werden
Ich versuche zu trainieren word2vec Modell auf sehr kurze Sätze (5 Gramm). Da jeder Satz und jedes Beispiel ist sehr kurz, ich glaube, das Fenster die Größe die ich verwenden kann, kann atmost 2 sein. Ich versuche zu verstehen, was die Auswirkungen von so einem kleinen Fenster Größe auf die Qualität des gelernten Modells, so dass ich verstehen kann, ob mein Modell gelernt hat, etwas sinnvoll ist oder nicht. Ich habe versucht, die Ausbildung einer word2vec Modell auf 5-Gramm, aber es wird angezeigt das Gelernte Modell nicht erfassen, Semantik etc. sehr gut.
Ich bin mit dem folgenden test, um festzustellen, die Genauigkeit des Modells:
https://code.google.com/p/word2vec/source/browse/trunk/questions-words.txt
Ich verwendet gensim.Word2Vec, die zum trainieren des Modells, und hier ist ein Ausschnitt von meiner Genauigkeit erzielt (mit einer Fensterbreite von 2)
[{'correct': 2, 'incorrect': 304, 'section': 'capital-common-countries'},
{'correct': 2, 'incorrect': 453, 'section': 'capital-world'},
{'correct': 0, 'incorrect': 86, 'section': 'currency'},
{'correct': 2, 'incorrect': 703, 'section': 'city-in-state'},
{'correct': 123, 'incorrect': 183, 'section': 'family'},
{'correct': 21, 'incorrect': 791, 'section': 'gram1-adjective-to-adverb'},
{'correct': 8, 'incorrect': 544, 'section': 'gram2-opposite'},
{'correct': 284, 'incorrect': 976, 'section': 'gram3-comparative'},
{'correct': 67, 'incorrect': 863, 'section': 'gram4-superlative'},
{'correct': 41, 'incorrect': 951, 'section': 'gram5-present-participle'},
{'correct': 6, 'incorrect': 1089, 'section': 'gram6-nationality-adjective'},
{'correct': 171, 'incorrect': 1389, 'section': 'gram7-past-tense'},
{'correct': 56, 'incorrect': 936, 'section': 'gram8-plural'},
{'correct': 52, 'incorrect': 705, 'section': 'gram9-plural-verbs'},
{'correct': 835, 'incorrect': 9973, 'section': 'total'}]
Ich auch ausprobiert, läuft die demo-word-accuracy.sh Skript skizziert hier mit einem Fenster der Größe 2 und bekommen schlechte Genauigkeit:
Sample output:
capital-common-countries:
ACCURACY TOP1: 19.37 % (98 /506)
Total accuracy: 19.37 % Semantic accuracy: 19.37 % Syntactic accuracy: -nan %
capital-world:
ACCURACY TOP1: 10.26 % (149 /1452)
Total accuracy: 12.61 % Semantic accuracy: 12.61 % Syntactic accuracy: -nan %
currency:
ACCURACY TOP1: 6.34 % (17 /268)
Total accuracy: 11.86 % Semantic accuracy: 11.86 % Syntactic accuracy: -nan %
city-in-state:
ACCURACY TOP1: 11.78 % (185 /1571)
Total accuracy: 11.83 % Semantic accuracy: 11.83 % Syntactic accuracy: -nan %
family:
ACCURACY TOP1: 57.19 % (175 /306)
Total accuracy: 15.21 % Semantic accuracy: 15.21 % Syntactic accuracy: -nan %
gram1-adjective-to-adverb:
ACCURACY TOP1: 6.48 % (49 /756)
Total accuracy: 13.85 % Semantic accuracy: 15.21 % Syntactic accuracy: 6.48 %
gram2-opposite:
ACCURACY TOP1: 17.97 % (55 /306)
Total accuracy: 14.09 % Semantic accuracy: 15.21 % Syntactic accuracy: 9.79 %
gram3-comparative:
ACCURACY TOP1: 34.68 % (437 /1260)
Total accuracy: 18.13 % Semantic accuracy: 15.21 % Syntactic accuracy: 23.30 %
gram4-superlative:
ACCURACY TOP1: 14.82 % (75 /506)
Total accuracy: 17.89 % Semantic accuracy: 15.21 % Syntactic accuracy: 21.78 %
gram5-present-participle:
ACCURACY TOP1: 19.96 % (198 /992)
Total accuracy: 18.15 % Semantic accuracy: 15.21 % Syntactic accuracy: 21.31 %
gram6-nationality-adjective:
ACCURACY TOP1: 35.81 % (491 /1371)
Total accuracy: 20.76 % Semantic accuracy: 15.21 % Syntactic accuracy: 25.14 %
gram7-past-tense:
ACCURACY TOP1: 19.67 % (262 /1332)
Total accuracy: 20.62 % Semantic accuracy: 15.21 % Syntactic accuracy: 24.02 %
gram8-plural:
ACCURACY TOP1: 35.38 % (351 /992)
Total accuracy: 21.88 % Semantic accuracy: 15.21 % Syntactic accuracy: 25.52 %
gram9-plural-verbs:
ACCURACY TOP1: 20.00 % (130 /650)
Total accuracy: 21.78 % Semantic accuracy: 15.21 % Syntactic accuracy: 25.08 %
Questions seen /total: 12268 19544 62.77 %
Jedoch die word2vec Website behauptet, seine möglich, um eine Genauigkeit von ~60% auf diese Aufgaben.
Ich würde daher gerne ein paar Einblicke in die Wirkung dieser hyperparameters wie Fenstergröße und wie beeinflussen Sie die Qualität der Modelle gelernt.
InformationsquelleAutor vvknitk | 2014-03-08
Du musst angemeldet sein, um einen Kommentar abzugeben.
als auf Ihre Frage "ich versuche zu verstehen, was die Auswirkungen von so einem kleinen Fenster Größe auf die Qualität des gelernten Modells"
beispielsweise "stackoverflow große website für Programmierer" mit 5 Worten(nehmen wir an, wir speichern die stop-Wörter große und für hier)
wenn die Größe der Fenster 2 ist dann der Vektor, der die Wort "stackoverflow" ist direkt betroffen durch das Wort "großartig" und "website", wenn die Größe der Fenster ist 5 "stackoverflow" direkt betroffen durch die zwei Worte "für" und "Programmierer". die betroffenen heißt hier, es zieht den Vektor, der die zwei-Wort-näher
so, es hängt von den Materialien, die Sie verwenden für die Ausbildung ,wenn die Größe der Fenster 2 erfassen, den Kontext eines Wortes , aber 5 ist zu wählen , sinkt die Qualität der erlernten Modell ,und Umgekehrt
InformationsquelleAutor michaeltang
Sehr niedrige Werte auf der Analogie-Fragen sind eher aufgrund von Einschränkungen in der Menge oder Qualität der Trainingsdaten, anstatt mistuned Parameter. (Wenn Sie Ihre Ausbildung Phrasen sind wirklich nur 5 Worte, Sie können nicht fangen die gleiche rich-Beziehungen entdeckt werden kann, von Datensätzen mit vollständigen Sätzen.)
Konnte man ein Fenster von 5 auf deine Sätze – das training code-blenden Sie das Fenster auf, was verfügbar ist auf beiden Seiten, aber dann jedes Wort, jede phrase wirkt sich auf alle anderen Worte. Das könnte OK sein: eines der Google-word2vec Papiere ("Verteilte Repräsentationen von Wörtern und Phrasen
und Ihre Compositionality") erwähnt, dass, um die beste Genauigkeit auf Ihren Satz Aufgaben, die Sie verwendet, "der ganze Satz für den Kontext". (Auf der anderen Seite, auf einer englischen Sammlung von kurzen Nachrichten, fand ich eine Fenstergröße von 2 erstellt die Vektoren erzielte am besten auf die Analogien-Bewertung, also größer ist nicht unbedingt besser.)
Einer Arbeit von Levy & Goldberg, "Dependency-Based Word Eingefügtes", spricht ein bisschen über die qualitative Wirkung der Fenster-Größe:
https://levyomer.files.wordpress.com/2014/04/dependency-based-word-embeddings-acl-2014.pdf
Finden Sie:
Größeren Fenstern neigen dazu, zu erfassen, dass mehr Thema/domain-Informationen: welche anderen Wörter (jeder Art) verwendet werden, in Diskussionen? Kleinere Fenster neigen zu erfassen mehr über das Wort selbst: welche anderen Worte mit ähnlicher Funktionalität? (Eigene extension, die dependency-based Einbettungen, scheint am besten zu finden, die meisten-ähnliche Wörter, Synonyme oder offensichtlich-alternativen, konnte die drop-in-Ersatz von der Herkunft Wort.)
InformationsquelleAutor gojomo