Konvertieren Sie die Word2vec-Bin-Datei in Text

Aus der word2vec Seite, die ich herunterladen kann GoogleNews-vectors-negative300.bin.gz. Die .bin-Datei (3,4 GB) ist ein Binärformat, welches nicht nützlich für mich. Tomas Mikolov versichert unsdass "sollte Es ziemlich einfach zu konvertieren das binäre format, text-format (obwohl, nehmen mehr Speicherplatz). Überprüfen Sie den code in der Entfernung-tool, es ist ziemlich trivial zu Lesen, Sie die binäre Datei". Leider weiß ich nicht genug C um zu verstehen,http://word2vec.googlecode.com/svn/trunk/distance.c.

Angeblich gensim kann dies auch tun, aber alle tutorials die ich gefunden habe, zu sein scheinen, über die Konvertierung von text, nicht die andere Weise.

Kann jemand empfehlen änderungen an der C-code oder Anweisungen für gensim zu emittieren text?

InformationsquelleAutor der Frage Glenn | 2014-12-05

Schreibe einen Kommentar