Word2Vec: Einfluss der Fenstergröße verwendet werden

Ich versuche zu trainieren word2vec Modell auf sehr kurze Sätze (5 Gramm). Da jeder Satz und jedes Beispiel ist sehr kurz, ich glaube, das Fenster die Größe die ich verwenden kann, kann atmost 2 sein. Ich versuche zu verstehen, was die Auswirkungen von so einem kleinen Fenster Größe auf die Qualität des gelernten Modells, so dass ich verstehen kann, ob mein Modell gelernt hat, etwas sinnvoll ist oder nicht. Ich habe versucht, die Ausbildung einer word2vec Modell auf 5-Gramm, aber es wird angezeigt das Gelernte Modell nicht erfassen, Semantik etc. sehr gut.

Ich bin mit dem folgenden test, um festzustellen, die Genauigkeit des Modells:
https://code.google.com/p/word2vec/source/browse/trunk/questions-words.txt

Ich verwendet gensim.Word2Vec, die zum trainieren des Modells, und hier ist ein Ausschnitt von meiner Genauigkeit erzielt (mit einer Fensterbreite von 2)

[{'correct': 2, 'incorrect': 304, 'section': 'capital-common-countries'},
 {'correct': 2, 'incorrect': 453, 'section': 'capital-world'},
 {'correct': 0, 'incorrect': 86, 'section': 'currency'},
 {'correct': 2, 'incorrect': 703, 'section': 'city-in-state'},
 {'correct': 123, 'incorrect': 183, 'section': 'family'},
 {'correct': 21, 'incorrect': 791, 'section': 'gram1-adjective-to-adverb'},
 {'correct': 8, 'incorrect': 544, 'section': 'gram2-opposite'},
 {'correct': 284, 'incorrect': 976, 'section': 'gram3-comparative'},
 {'correct': 67, 'incorrect': 863, 'section': 'gram4-superlative'},
 {'correct': 41, 'incorrect': 951, 'section': 'gram5-present-participle'},
 {'correct': 6, 'incorrect': 1089, 'section': 'gram6-nationality-adjective'},
 {'correct': 171, 'incorrect': 1389, 'section': 'gram7-past-tense'},
 {'correct': 56, 'incorrect': 936, 'section': 'gram8-plural'},
 {'correct': 52, 'incorrect': 705, 'section': 'gram9-plural-verbs'},
 {'correct': 835, 'incorrect': 9973, 'section': 'total'}]

Ich auch ausprobiert, läuft die demo-word-accuracy.sh Skript skizziert hier mit einem Fenster der Größe 2 und bekommen schlechte Genauigkeit:

Sample output:
    capital-common-countries:
    ACCURACY TOP1: 19.37 %  (98 /506)
    Total accuracy: 19.37 %   Semantic accuracy: 19.37 %   Syntactic accuracy: -nan % 
    capital-world:
    ACCURACY TOP1: 10.26 %  (149 /1452)
    Total accuracy: 12.61 %   Semantic accuracy: 12.61 %   Syntactic accuracy: -nan % 
    currency:
    ACCURACY TOP1: 6.34 %  (17 /268)
    Total accuracy: 11.86 %   Semantic accuracy: 11.86 %   Syntactic accuracy: -nan % 
    city-in-state:
    ACCURACY TOP1: 11.78 %  (185 /1571)
    Total accuracy: 11.83 %   Semantic accuracy: 11.83 %   Syntactic accuracy: -nan % 
    family:
    ACCURACY TOP1: 57.19 %  (175 /306)
    Total accuracy: 15.21 %   Semantic accuracy: 15.21 %   Syntactic accuracy: -nan % 
    gram1-adjective-to-adverb:
    ACCURACY TOP1: 6.48 %  (49 /756)
    Total accuracy: 13.85 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 6.48 % 
    gram2-opposite:
    ACCURACY TOP1: 17.97 %  (55 /306)
    Total accuracy: 14.09 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 9.79 % 
    gram3-comparative:
    ACCURACY TOP1: 34.68 %  (437 /1260)
    Total accuracy: 18.13 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 23.30 % 
    gram4-superlative:
    ACCURACY TOP1: 14.82 %  (75 /506)
    Total accuracy: 17.89 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 21.78 % 
    gram5-present-participle:
    ACCURACY TOP1: 19.96 %  (198 /992)
    Total accuracy: 18.15 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 21.31 % 
    gram6-nationality-adjective:
    ACCURACY TOP1: 35.81 %  (491 /1371)
    Total accuracy: 20.76 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 25.14 % 
    gram7-past-tense:
    ACCURACY TOP1: 19.67 %  (262 /1332)
    Total accuracy: 20.62 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 24.02 % 
    gram8-plural:
    ACCURACY TOP1: 35.38 %  (351 /992)
    Total accuracy: 21.88 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 25.52 % 
    gram9-plural-verbs:
    ACCURACY TOP1: 20.00 %  (130 /650)
    Total accuracy: 21.78 %   Semantic accuracy: 15.21 %   Syntactic accuracy: 25.08 % 
    Questions seen /total: 12268 19544   62.77 % 

Jedoch die word2vec Website behauptet, seine möglich, um eine Genauigkeit von ~60% auf diese Aufgaben.
Ich würde daher gerne ein paar Einblicke in die Wirkung dieser hyperparameters wie Fenstergröße und wie beeinflussen Sie die Qualität der Modelle gelernt.

InformationsquelleAutor vvknitk | 2014-03-08

Schreibe einen Kommentar