Tag: gensim

Gensim ist eine freie Python-framework zur automatischen Extraktion von semantischen Themen aus Dokumenten, wie effizient (computer-wise) und schmerzlos (human-Weise) wie möglich.

Import GoogleNews-Vektoren-negative300.bin

Anzahl der Antworten 2 Antworten
Ich arbeite am code mithilfe des gensim und haben eine harte Zeit der Fehlerbehebung ein ValueError in meinem code. Ich war schließlich in der Lage, zip GoogleNews-vectors-negative300.bin.gz Datei, damit ich es umsetzen in meinem Modell. Ich habe

Welche Bedeutung hat die Länge einer Word2vec Vektor haben?

Anzahl der Antworten 2 Antworten
Ich bin mit Word2vec durch gensim mit Google pretrained Vektoren trainiert auf Google News. Ich habe bemerkt, dass das Wort-Vektoren, auf die ich zugreifen kann, indem man direkte index-lookups auf die Word2Vec Objekt sind keine einheitsvektoren: >>>

Gensim ImportError in PyCharm: Kein Modul namens scipy.spärlich

Anzahl der Antworten 1 Antworten
Bin ich auf Mac OS X 10.8.3 (Mountain Lion) und bin versucht, ein Skript auszuführen, in PyCharm. Python 2.7.2 installiert ist, habe ich installiert Baldachin und Gensim. Ich verstehe einfach nicht, was könnte die Ursache der Fehlermeldung,

Wie ist TF-IDF umgesetzt gensim-tool in python?

Anzahl der Antworten 2 Antworten
Aus den Dokumenten die ich gefunden aus dem Netz habe ich herausgefunden, der Ausdruck verwendet, um zu bestimmen, die Term Frequency und Inverse Dokument-Frequenz-Gewicht von Begriffen, die in einem corpus zu tf-idf(wt)= tf * log(|N| - /d);

'utf-8' decode-Fehler beim laden der Modul word2vec

Anzahl der Antworten 2 Antworten
Ich eine word2vec Modul mit Tonnen von chinesischen Zeichen. Das Modul wurde ausgebildet von meinen Mitarbeitern, die mit Java und wird gespeichert, wie eine bin-Datei. Ich installiert gensim und versucht, laden Sie das Modul, aber der folgende

So laden Sie eine vorab geschult Word2vec MODELL-Datei und wiederverwenden?

Anzahl der Antworten 1 Antworten
Möchte ich eine bereits ausgebildete word2vec Modell, aber ich weiß nicht, wie es zu laden in python. Diese Datei ist eine MODEL Datei (703 MB). Es kann hier heruntergeladen werden: http://devmount.github.io/GermanWordEmbeddings/ InformationsquelleAutor Vahid | 2016-09-17

Einrichten word2vec - KeyError: "Wort" Wort "nicht in den Wortschatz"

Anzahl der Antworten 1 Antworten
Ich versuche es mal mit word2vec, aber es gibt eine Fehlermeldung, wenn Sie versuchen, etwas zu tun mit jedem Wort. Es scheint ein encoding-Problem, hier ist was ich getan habe: Init word2vec: import gensim, logging logging.basicConfig(format='%(asctime)s :

stoppwort-Entfernung bei Verwendung des word2vec

Anzahl der Antworten 2 Antworten
Habe ich versucht, word2vec für eine Weile jetzt mit der gensim ist word2vec Bibliothek. Meine Frage ist, muss ich, um Stoppwörter zu entfernen von mein input-text? Weil, basierend auf meiner ursprünglichen experimentellen Ergebnisse, die ich sehen konnte,

Ist es möglich, re-Zug eine word2vec Modell (z.B. GoogleNews-Vektoren-negative300.bin) aus einem corpus von Sätzen in python?

Anzahl der Antworten 3 Antworten
Ich bin über die vor-geschult Google news-Datensatz für die erste word-Vektoren durch Verwendung von Gensim-Bibliothek in python model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) Nach dem laden des Modells bin ich konvertieren training Satz Wörter in Vektoren #reading all sentences

KeyError: "Wort" Wort "nicht in den Wortschatz" in word2vec

Anzahl der Antworten 2 Antworten
Ich bin mit word2vec wiki-Korpus trainierte ich, was kann ich tun, wenn das Wort, das ich Eingangs nicht im Wortschatz in word2vec? Testen, es ein wenig: model = word2vec.Word2Vec.load('model/' + 'wiki_chinese_word2vec.model') model['boom'] Fehler: KeyError("word '%s' nicht im

Wie, um Vorhersagen, die Thema einer neuen Abfrage, die einen ausgebildeten LDA-Modell mit gensim?

Anzahl der Antworten 3 Antworten
Ich ausgebildet haben, ein Korpus für die LDA Thema Modellierung mit gensim. Gehen Sie durch die Anleitung auf der gensim website (ist nicht der ganze code): question = 'Changelog generation from Github issues?'; temp = question.lower() for

LSI mit gensim in python

Anzahl der Antworten 3 Antworten
Ich bin mit Python-gensim Bibliothek zu tun, latent semantic indexing. Ich habe die tutorials auf der website, und es funktioniert ziemlich gut. Jetzt versuche ich es zu ändern ein bisschen; ich will führen Sie das lsi-Modell jedes

Laden Von Vordefinierten Vektoren Gensim

Anzahl der Antworten 3 Antworten
Ich bin mit dem Gensim Python-Paket zu lernen, ein neuronales Sprache-Modell, und ich weiß, dass Sie ein Trainingskorpus lernen am Modell. Aber es existieren bereits viele vordefinierte word-Vektoren zur Verfügung, die in text-format (z.B. http://www-nlp.stanford.edu/projects/glove/). Gibt es

Wie zu beschleunigen Gensim Word2vec Modell laden Zeit?

Anzahl der Antworten 4 Antworten
Baue ich einen chatbot, also muss ich Vektorisieren die Eingabe des Benutzers mit Word2Vec. Ich bin mit einem pre-trainierte Modell mit 3 Millionen Wörter, die von Google (GoogleNews-Vektoren-negative300). So, ich lade das Modell mit Gensim: import gensim

Chunkize Warnung während der Installation von gensim

Anzahl der Antworten 2 Antworten
Habe ich installiert gensim (über pip) in Python. Nachdem die installation beendet ist, bekomme ich die folgende Warnung: C:\Python27\lib\site-packages\gensim\utils.py:855: UserWarning: erkannt Windows; aliasing chunkize zu chunkize_serial Warnungen.warnen("erkannt Windows; aliasing chunkize zu chunkize_serial") Wie kann ich das beheben?

Prozess beendet mit exit-code 134 (mit Unterbrechung durch signal 6: SIGABRT)

Anzahl der Antworten 1 Antworten
Arbeite ich an node2vec. Wenn ich mit kleinen Datensatz der code funktioniert gut. Aber sobald ich versuche, führen Sie den gleichen code auf großen Datensatz, der code abstürzt. Fehler: Prozess beendet mit exit-code 134 (mit Unterbrechung durch

Die meisten ähnlichen Wörter, angesichts der Vektor, der das Wort (und nicht das Wort selbst)

Anzahl der Antworten 2 Antworten
Mithilfe der gensim.models.Word2Vec Bibliothek haben Sie die Möglichkeit, um ein Modell und ein "Wort", für die Sie möchten, um die Liste der meisten ähnlichen Wörter: model = gensim.models.Word2Vec.load_word2vec_format(model_file, binary=True) model.most_similar(positive=[WORD], topn=N) Ich Frage mich, ob es eine

Fehler: 'utf8' codec kann nicht decodieren byte 0x80 in position 0: invalid start byte

Anzahl der Antworten 4 Antworten
Ich versuche zu tun, die folgenden kaggle assignmnet. Ich bin mit gensim-Paket zu verwenden word2vec. Ich bin in der Lage, das Modell zu erstellen, und speichern Sie es auf der Festplatte. Aber wenn ich versuche zum laden

Gensim word2vec in Python ist3 fehlende Vokabeln

Anzahl der Antworten 1 Antworten
Ich bin mit gensim Umsetzung von Word2Vec. Ich habe den folgenden code-snippet: print('training model') model = Word2Vec(Sentences(start, end)) print('trained model:', model) print('vocab:', model.vocab.keys()) Wenn ich dieses in python2 ist, läuft es wie erwartet. Der endgültige Druck ist,

Wie zu installieren gensim auf windows

Anzahl der Antworten 4 Antworten
Nicht in der Lage zu installieren gensim auf windows.Bitte helfen Sie mir ich brauche, um gensim Sofort und sagen Sie mir, Installations-Schritte mit Mehr details und andere software, die installiert werden muss, bevor es. Dank Diese Frage

Gensim: KeyError: "Wort nicht im Vokabular"

Anzahl der Antworten 2 Antworten
Habe ich eine ausgebildete Word2vec Modell mit Python-Gensim-Bibliothek. Ich habe eine Token-Liste, wie unten. Die Vokabeln Größe ist 34, aber ich bin damit nur wenige von 34: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn',

gensim error : no module named gensim

Anzahl der Antworten 4 Antworten
Ich versuche zu importieren gensim. Ich habe den folgenden code import gensim model = gensim.models.Word2Vec.load_word2vec_format('./model/GoogleNews- vectors-negative300.bin', binary=True) Bekam ich die folgende Fehlermeldung. ImportError Traceback (most recent call last) <ipython-input-5-50007be813d4> in <module>() ----> 1 import gensim 2 model

Gensim: TypeError: doc2bow erwartet ein array von unicode-tokens am Eingang, nicht eine einzelne Zeichenfolge

Anzahl der Antworten 2 Antworten
Bin ich angefangen mit einigen python-Aufgabe, ich stehe vor einem problem während der Verwendung von gensim. Ich bin versucht zu laden Dateien von meiner Festplatte und Bearbeiten (splitten und Kleinbuchstaben ()) Den code habe ich unter: dictionary_arr=

Fehler beim laden Word2Vec Modell im gensim

Anzahl der Antworten 2 Antworten
Ich bin immer ein AttributeError beim laden des gensim-Modell verfügbar, bei word2vec repository: from gensim import models w = models.Word2Vec() w.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) print w["queen"] --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-3-8219e36ba1f6> in <module>() ----> 1 w["queen"]

Wie man Wortschatz word count von gensim word2vec?

Anzahl der Antworten 2 Antworten
Ich bin mit gensim word2vec-Paket in python. Ich weiß, wie man die Vokabeln aus dem trainierten Modell. Aber wie man die Wortzahl für jedes Wort im Wortschatz? InformationsquelleAutor Michelle Owen | 2016-05-12

Die Themenfindung einer unsichtbaren Dokument über Gensim

Anzahl der Antworten 2 Antworten
Ich bin mit Gensim zu tun, einige große Thema Modellierung. Ich habe Schwierigkeiten zu verstehen, wie, um zu bestimmen, prognostiziert Themen für eine unsichtbare (nicht-indizierte) Dokument. Zum Beispiel: ich habe 25 Millionen Dokumente, die ich in Vektoren

Gensim: Wie speichern LDA-Modell produziert Themen, um ein lesbares format (csv,txt,etc)?

Anzahl der Antworten 4 Antworten
letzten Teile des Codes: lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2) print lda bash-Ausgang: INFO : adding document #0 to Dictionary(0 unique tokens) INFO : built Dictionary(18 unique tokens) from 5 documents (total 20 corpus positions) INFO : using serial

Word2Vec: Einfluss der Fenstergröße verwendet werden

Anzahl der Antworten 2 Antworten
Ich versuche zu trainieren word2vec Modell auf sehr kurze Sätze (5 Gramm). Da jeder Satz und jedes Beispiel ist sehr kurz, ich glaube, das Fenster die Größe die ich verwenden kann, kann atmost 2 sein. Ich versuche

gensim word2vec: Findet die Anzahl der Wörter im Wortschatz

Anzahl der Antworten 1 Antworten
Nach dem training einen word2vec Modell mit python gensim, wie finden Sie die Anzahl der Wörter in der Modell-Wortschatz? InformationsquelleAutor hlin117 | 2016-02-24

Wie extrahieren Sie Texte aus dem Korpus mithilfe von gensim

Anzahl der Antworten 1 Antworten
Zur Vorverarbeitung der corpus war ich der Planung bis zur extarct gemeinsamen Sätze aus dem Korpus, für diese habe ich versucht mit Hilfe Sätze Modell im gensim, versuchte ich folgenden code, aber es ist nicht das geben

Was ist der einfachste Weg, um tfidf mit pandas dataframe?

Anzahl der Antworten 1 Antworten
Möchte ich berechne tf-idf aus den Dokumenten weiter unten. Ich bin mit python und pandas. import pandas as pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['This is the first sentence','This is the second sentence', 'This is the third

So drucken Sie den LDA-Themen-Modelle von gensim? Python

Anzahl der Antworten 8 Antworten
Mit gensim ich war in der Lage zu extrahieren Themen aus einem Satz von Dokumenten in LSA, aber wie kann ich den Zugriff auf die generierten Themen aus der LDA-Modelle? Beim drucken der lda.print_topics(10) dem code, gab

Passende Worte und Vektoren im gensim Word2Vec Modell

Anzahl der Antworten 4 Antworten
Hatte ich die gensim Word2Vec Umsetzung berechnen Sie einige word-Einbettungen für mich. Alles ging ganz fantastisch, wie weit ich es sagen kann; jetzt bin ich clustering von Wort-Vektoren erstellt, in der Hoffnung zu Holen einige der semantischen

Doc2Vec Bekommen die meisten ähnlichen Dokumente

Anzahl der Antworten 1 Antworten
Ich versuche zu bauen, ein Dokument-retrieval-Modell liefert, dass die meisten Dokumente sortiert nach Ihrer Relevanz in Bezug auf eine Abfrage oder einen Suchbegriff. Dafür habe ich trainiert doc2vec Modell mit der Doc2Vec Modell im gensim. Mein Datensatz

Python: gensim: Absturz mit Laufzeitfehler: Sie müssen zuerst bei der Wortbildung vor dem training des Modells

Anzahl der Antworten 2 Antworten
Ich weiß, diese Frage wurde schon gefragt, aber ich war noch nicht in der Lage, eine Lösung zu finden. Möchte ich nutzen, gensim ist word2vec auf einem benutzerdefinierten Datensatz, aber jetzt bin ich immer noch herauszufinden, in

gensim Doc2Vec vs tensorflow Doc2Vec

Anzahl der Antworten 1 Antworten
Ich versuche zu vergleichen, meine Implementierung von Doc2Vec (via tf) und gensims Umsetzung. Es scheint, wenigstens optisch, dass die gensim diejenigen besser ab. Lief ich den folgenden code zum trainieren des gensim-Modell und eine darunter, die für

Wie erstelle ich eine Wortwolke aus einem Korpus in Python?

Anzahl der Antworten 5 Antworten
Vom Erstellen einer Teilmenge von Wörtern aus einem Korpus in Rdie Beantworter können leicht umwandeln eine term-document matrix in ein word-cloud-einfach. Gibt es eine ähnliche Funktion von python-Bibliotheken, nimmt entweder ein raw word-Textdatei oder NLTK corpus oder

Verständnis der LDA-Implementierung mit Gensim

Anzahl der Antworten 4 Antworten
Ich versuche zu verstehen, wie gensim-Paket in Python implementiert Latent Dirichlet Allocation. Ich Tue das folgende: Definieren Sie die dataset - documents = ["Apple is releasing a new product", "Amazon sells many things", "Microsoft announces Nokia acquisition"]

Doc2vec: Wie man Dokumentenvektoren erhält

Anzahl der Antworten 3 Antworten
Wie man Dokument-Vektoren von zwei text-Dokumente mit Doc2vec? Ich bin neu in diesem, so wäre es hilfreich, wenn jemand könnte mich in die richtige Richtung/mir helfen, mit einigen tutorial Ich bin mit gensim-python-Bibliothek. doc1=["This is a sentence","This

Wie verwende ich Gensim doc2vec mit vortrainierten Wortvektoren?

Anzahl der Antworten 4 Antworten
Ich kam vor kurzem in die doc2vec neben Gensim. Wie kann ich die vor-geschult sind Wort-Vektoren (z.B. im word2vec original-website) mit doc2vec? Oder ist doc2vec immer das Wort Vektoren aus dem gleichen Sätze verwendet er für die

Wie man überprüft, ob ein Schlüssel in einem word2vec trainierten Modell existiert oder nicht

Anzahl der Antworten 5 Antworten
Habe ich trainiert word2vec Modell mit einem Korpus von Dokumenten mit Gensim. Ist das model-training, Schreibe ich den folgenden code, um die raw-feature-Vektor, der ein Wort sagen "anzeigen". myModel["view"] Allerdings bekomme ich eine KeyError für das Wort,

Themenverteilung: Wie sehen wir, welches Dokument zu welchem ​​Thema gehört, nachdem LDA in Python ausgeführt wurde?

Anzahl der Antworten 2 Antworten
Ich bin in der Lage zu laufen, den LDA-code von gensim und bekam den top-10-Themen mit den jeweiligen keywords. Nun würde ich gerne einen Schritt weiter gehen, um zu sehen, wie genau die LDA-algo ist durch sehen,

Python Gensim: Wie berechnet man Dokumentähnlichkeit mit dem LDA-Modell?

Anzahl der Antworten 2 Antworten
Habe ich eine ausgebildete LDA-Modell, und ich will die Berechnung der similarity-score zwischen zwei Belege aus dem Korpus trainierte ich mein Modell auf. Nach dem Studium der alle Gensim-tutorials und Funktionen, ich kann immer noch nicht meinen

Was repräsentiert der Vektor eines Wortes in word2vec?

Anzahl der Antworten 2 Antworten
word2vec ist ein open-source-tool von Google: Für jedes Wort, es liefert einen Vektor, der die float-Werte, was genau repräsentieren Sie? Gibt es auch ein Papier, auf Absatz Vektor kann mir jemand erklären, wie Sie mit word2vec um

Konvertieren Sie die Word2vec-Bin-Datei in Text

Anzahl der Antworten 10 Antworten
Aus der word2vec Seite, die ich herunterladen kann GoogleNews-vectors-negative300.bin.gz. Die .bin-Datei (3,4 GB) ist ein Binärformat, welches nicht nützlich für mich. Tomas Mikolov versichert unsdass "sollte Es ziemlich einfach zu konvertieren das binäre format, text-format (obwohl, nehmen

Wie berechnet man die Satzähnlichkeit mit dem word2vec-Modell von Gensim mit Python?

Anzahl der Antworten 10 Antworten
Entsprechend der Gensim Word2Vec, ich kann die word2vec Modell im gensim-Paket zur Berechnung der ähnlichkeit zwischen 2 Worten. z.B. trained_model.similarity('woman', 'man') 0.73723527 Jedoch die word2vec Modell nicht zur Vorhersage der Satz ähnlichkeit. Ich finde heraus, das LSI-Modell

Aktualisieren Sie das gensim word2vec-Modell

Anzahl der Antworten 5 Antworten
Ich habe eine word2vec Modell im gensim ausgebildete 98892 Dokumente. Für jeden gegebenen Satz, der sich nicht in die Sätze array (d.h. die Menge, über die ich trainierte Modell), die ich brauche um das Modell zu aktualisieren