Tag: gensim

Gensim ist eine freie Python-framework zur automatischen Extraktion von semantischen Themen aus Dokumenten, wie effizient (computer-wise) und schmerzlos (human-Weise) wie möglich.

Import GoogleNews-Vektoren-negative300.bin

2 Antworten

Ich arbeite am code mithilfe des gensim und haben eine harte Zeit der Fehlerbehebung ein ValueError in meinem code. Ich war schließlich in der Lage, zip GoogleNews-vectors-negative300.bin.gz Datei, damit ich es umsetzen in meinem Modell. Ich habe

gensim python

Welche Bedeutung hat die Länge einer Word2vec Vektor haben?

2 Antworten

Ich bin mit Word2vec durch gensim mit Google pretrained Vektoren trainiert auf Google News. Ich habe bemerkt, dass das Wort-Vektoren, auf die ich zugreifen kann, indem man direkte index-lookups auf die Word2Vec Objekt sind keine einheitsvektoren: >>>

Gensim ImportError in PyCharm: Kein Modul namens scipy.spärlich

1 Antworten

Bin ich auf Mac OS X 10.8.3 (Mountain Lion) und bin versucht, ein Skript auszuführen, in PyCharm. Python 2.7.2 installiert ist, habe ich installiert Baldachin und Gensim. Ich verstehe einfach nicht, was könnte die Ursache der Fehlermeldung,

gensim lda pycharm python scipy

Wie ist TF-IDF umgesetzt gensim-tool in python?

2 Antworten

Aus den Dokumenten die ich gefunden aus dem Netz habe ich herausgefunden, der Ausdruck verwendet, um zu bestimmen, die Term Frequency und Inverse Dokument-Frequenz-Gewicht von Begriffen, die in einem corpus zu tf-idf(wt)= tf * log(|N| - /d);

gensim latent-semantic-indexing python tf-idf

'utf-8' decode-Fehler beim laden der Modul word2vec

2 Antworten

Ich eine word2vec Modul mit Tonnen von chinesischen Zeichen. Das Modul wurde ausgebildet von meinen Mitarbeitern, die mit Java und wird gespeichert, wie eine bin-Datei. Ich installiert gensim und versucht, laden Sie das Modul, aber der folgende

gensim nlp python word2vec

So laden Sie eine vorab geschult Word2vec MODELL-Datei und wiederverwenden?

1 Antworten

Möchte ich eine bereits ausgebildete word2vec Modell, aber ich weiß nicht, wie es zu laden in python. Diese Datei ist eine MODEL Datei (703 MB). Es kann hier heruntergeladen werden: http://devmount.github.io/GermanWordEmbeddings/ InformationsquelleAutor Vahid | 2016-09-17

file gensim model python word2vec

Einrichten word2vec - KeyError: "Wort" Wort "nicht in den Wortschatz"

1 Antworten

Ich versuche es mal mit word2vec, aber es gibt eine Fehlermeldung, wenn Sie versuchen, etwas zu tun mit jedem Wort. Es scheint ein encoding-Problem, hier ist was ich getan habe: Init word2vec: import gensim, logging logging.basicConfig(format='%(asctime)s :

character-encoding gensim python word2vec

stoppwort-Entfernung bei Verwendung des word2vec

2 Antworten

Habe ich versucht, word2vec für eine Weile jetzt mit der gensim ist word2vec Bibliothek. Meine Frage ist, muss ich, um Stoppwörter zu entfernen von mein input-text? Weil, basierend auf meiner ursprünglichen experimentellen Ergebnisse, die ich sehen konnte,

gensim nlp word2vec

Ist es möglich, re-Zug eine word2vec Modell (z.B. GoogleNews-Vektoren-negative300.bin) aus einem corpus von Sätzen in python?

3 Antworten

Ich bin über die vor-geschult Google news-Datensatz für die erste word-Vektoren durch Verwendung von Gensim-Bibliothek in python model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) Nach dem laden des Modells bin ich konvertieren training Satz Wörter in Vektoren #reading all sentences

gensim nlp python word2vec

KeyError: "Wort" Wort "nicht in den Wortschatz" in word2vec

2 Antworten

Ich bin mit word2vec wiki-Korpus trainierte ich, was kann ich tun, wenn das Wort, das ich Eingangs nicht im Wortschatz in word2vec? Testen, es ein wenig: model = word2vec.Word2Vec.load('model/' + 'wiki_chinese_word2vec.model') model['boom'] Fehler: KeyError("word '%s' nicht im

gensim python word2vec

Wie, um Vorhersagen, die Thema einer neuen Abfrage, die einen ausgebildeten LDA-Modell mit gensim?

3 Antworten

Ich ausgebildet haben, ein Korpus für die LDA Thema Modellierung mit gensim. Gehen Sie durch die Anleitung auf der gensim website (ist nicht der ganze code): question = 'Changelog generation from Github issues?'; temp = question.lower() for

gensim lda nlp python topic-modeling

LSI mit gensim in python

3 Antworten

Ich bin mit Python-gensim Bibliothek zu tun, latent semantic indexing. Ich habe die tutorials auf der website, und es funktioniert ziemlich gut. Jetzt versuche ich es zu ändern ein bisschen; ich will führen Sie das lsi-Modell jedes

gensim latent-semantic-indexing python

Laden Von Vordefinierten Vektoren Gensim

3 Antworten

Ich bin mit dem Gensim Python-Paket zu lernen, ein neuronales Sprache-Modell, und ich weiß, dass Sie ein Trainingskorpus lernen am Modell. Aber es existieren bereits viele vordefinierte word-Vektoren zur Verfügung, die in text-format (z.B. http://www-nlp.stanford.edu/projects/glove/). Gibt es

gensim nlp python word2vec

Wie zu beschleunigen Gensim Word2vec Modell laden Zeit?

4 Antworten

Baue ich einen chatbot, also muss ich Vektorisieren die Eingabe des Benutzers mit Word2Vec. Ich bin mit einem pre-trainierte Modell mit 3 Millionen Wörter, die von Google (GoogleNews-Vektoren-negative300). So, ich lade das Modell mit Gensim: import gensim

deep-learning gensim word2vec

Chunkize Warnung während der Installation von gensim

2 Antworten

Habe ich installiert gensim (über pip) in Python. Nachdem die installation beendet ist, bekomme ich die folgende Warnung: C:\Python27\lib\site-packages\gensim\utils.py:855: UserWarning: erkannt Windows; aliasing chunkize zu chunkize_serial Warnungen.warnen("erkannt Windows; aliasing chunkize zu chunkize_serial") Wie kann ich das beheben?

gensim python

Prozess beendet mit exit-code 134 (mit Unterbrechung durch signal 6: SIGABRT)

1 Antworten

Arbeite ich an node2vec. Wenn ich mit kleinen Datensatz der code funktioniert gut. Aber sobald ich versuche, führen Sie den gleichen code auf großen Datensatz, der code abstürzt. Fehler: Prozess beendet mit exit-code 134 (mit Unterbrechung durch

gensim pycharm python word2vec

Die meisten ähnlichen Wörter, angesichts der Vektor, der das Wort (und nicht das Wort selbst)

2 Antworten

Mithilfe der gensim.models.Word2Vec Bibliothek haben Sie die Möglichkeit, um ein Modell und ein "Wort", für die Sie möchten, um die Liste der meisten ähnlichen Wörter: model = gensim.models.Word2Vec.load_word2vec_format(model_file, binary=True) model.most_similar(positive=[WORD], topn=N) Ich Frage mich, ob es eine

gensim python word2vec

Fehler: 'utf8' codec kann nicht decodieren byte 0x80 in position 0: invalid start byte

4 Antworten

Ich versuche zu tun, die folgenden kaggle assignmnet. Ich bin mit gensim-Paket zu verwenden word2vec. Ich bin in der Lage, das Modell zu erstellen, und speichern Sie es auf der Festplatte. Aber wenn ich versuche zum laden

character-encoding gensim kaggle python word2vec

Gensim word2vec in Python ist3 fehlende Vokabeln

1 Antworten

Ich bin mit gensim Umsetzung von Word2Vec. Ich habe den folgenden code-snippet: print('training model') model = Word2Vec(Sentences(start, end)) print('trained model:', model) print('vocab:', model.vocab.keys()) Wenn ich dieses in python2 ist, läuft es wie erwartet. Der endgültige Druck ist,

gensim python word2vec

Wie zu installieren gensim auf windows

4 Antworten

Nicht in der Lage zu installieren gensim auf windows.Bitte helfen Sie mir ich brauche, um gensim Sofort und sagen Sie mir, Installations-Schritte mit Mehr details und andere software, die installiert werden muss, bevor es. Dank Diese Frage

gensim python

Gensim: KeyError: "Wort nicht im Vokabular"

2 Antworten

Habe ich eine ausgebildete Word2vec Modell mit Python-Gensim-Bibliothek. Ich habe eine Token-Liste, wie unten. Die Vokabeln Größe ist 34, aber ich bin damit nur wenige von 34: b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn',

gensim nlp python topic-modeling word2vec

gensim error : no module named gensim

4 Antworten

Ich versuche zu importieren gensim. Ich habe den folgenden code import gensim model = gensim.models.Word2Vec.load_word2vec_format('./model/GoogleNews- vectors-negative300.bin', binary=True) Bekam ich die folgende Fehlermeldung. ImportError Traceback (most recent call last) <ipython-input-5-50007be813d4> in <module>() ----> 1 import gensim 2 model

gensim linux python word2vec

Gensim: TypeError: doc2bow erwartet ein array von unicode-tokens am Eingang, nicht eine einzelne Zeichenfolge

2 Antworten

Bin ich angefangen mit einigen python-Aufgabe, ich stehe vor einem problem während der Verwendung von gensim. Ich bin versucht zu laden Dateien von meiner Festplatte und Bearbeiten (splitten und Kleinbuchstaben ()) Den code habe ich unter: dictionary_arr=

gensim python

Fehler beim laden Word2Vec Modell im gensim

2 Antworten

Ich bin immer ein AttributeError beim laden des gensim-Modell verfügbar, bei word2vec repository: from gensim import models w = models.Word2Vec() w.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) print w["queen"] --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-3-8219e36ba1f6> in <module>() ----> 1 w["queen"]

gensim python word2vec

Wie man Wortschatz word count von gensim word2vec?

2 Antworten

Ich bin mit gensim word2vec-Paket in python. Ich weiß, wie man die Vokabeln aus dem trainierten Modell. Aber wie man die Wortzahl für jedes Wort im Wortschatz? InformationsquelleAutor Michelle Owen | 2016-05-12

gensim word2vec

Die Themenfindung einer unsichtbaren Dokument über Gensim

2 Antworten

Ich bin mit Gensim zu tun, einige große Thema Modellierung. Ich habe Schwierigkeiten zu verstehen, wie, um zu bestimmen, prognostiziert Themen für eine unsichtbare (nicht-indizierte) Dokument. Zum Beispiel: ich habe 25 Millionen Dokumente, die ich in Vektoren

gensim latent-semantic-indexing nlp python

Gensim: Wie speichern LDA-Modell produziert Themen, um ein lesbares format (csv,txt,etc)?

4 Antworten

letzten Teile des Codes: lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2) print lda bash-Ausgang: INFO : adding document #0 to Dictionary(0 unique tokens) INFO : built Dictionary(18 unique tokens) from 5 documents (total 20 corpus positions) INFO : using serial

gensim lda python

Word2Vec: Einfluss der Fenstergröße verwendet werden

2 Antworten

Ich versuche zu trainieren word2vec Modell auf sehr kurze Sätze (5 Gramm). Da jeder Satz und jedes Beispiel ist sehr kurz, ich glaube, das Fenster die Größe die ich verwenden kann, kann atmost 2 sein. Ich versuche

gensim word2vec

gensim word2vec: Findet die Anzahl der Wörter im Wortschatz

1 Antworten

Nach dem training einen word2vec Modell mit python gensim, wie finden Sie die Anzahl der Wörter in der Modell-Wortschatz? InformationsquelleAutor hlin117 | 2016-02-24

gensim python word2vec

Wie extrahieren Sie Texte aus dem Korpus mithilfe von gensim

1 Antworten

Zur Vorverarbeitung der corpus war ich der Planung bis zur extarct gemeinsamen Sätze aus dem Korpus, für diese habe ich versucht mit Hilfe Sätze Modell im gensim, versuchte ich folgenden code, aber es ist nicht das geben

gensim nlp python

Was ist der einfachste Weg, um tfidf mit pandas dataframe?

1 Antworten

Möchte ich berechne tf-idf aus den Dokumenten weiter unten. Ich bin mit python und pandas. import pandas as pd df = pd.DataFrame({'docId': [1,2,3], 'sent': ['This is the first sentence','This is the second sentence', 'This is the third

gensim pandas python scikit-learn tf-idf

So drucken Sie den LDA-Themen-Modelle von gensim? Python

8 Antworten

Mit gensim ich war in der Lage zu extrahieren Themen aus einem Satz von Dokumenten in LSA, aber wie kann ich den Zugriff auf die generierten Themen aus der LDA-Modelle? Beim drucken der lda.print_topics(10) dem code, gab

gensim lda nlp python topic-modeling

Passende Worte und Vektoren im gensim Word2Vec Modell

4 Antworten

Hatte ich die gensim Word2Vec Umsetzung berechnen Sie einige word-Einbettungen für mich. Alles ging ganz fantastisch, wie weit ich es sagen kann; jetzt bin ich clustering von Wort-Vektoren erstellt, in der Hoffnung zu Holen einige der semantischen

gensim machine-learning python vector word2vec

Doc2Vec Bekommen die meisten ähnlichen Dokumente

1 Antworten

Ich versuche zu bauen, ein Dokument-retrieval-Modell liefert, dass die meisten Dokumente sortiert nach Ihrer Relevanz in Bezug auf eine Abfrage oder einen Suchbegriff. Dafür habe ich trainiert doc2vec Modell mit der Doc2Vec Modell im gensim. Mein Datensatz

doc2vec gensim nlp python

Python: gensim: Absturz mit Laufzeitfehler: Sie müssen zuerst bei der Wortbildung vor dem training des Modells

2 Antworten

Ich weiß, diese Frage wurde schon gefragt, aber ich war noch nicht in der Lage, eine Lösung zu finden. Möchte ich nutzen, gensim ist word2vec auf einem benutzerdefinierten Datensatz, aber jetzt bin ich immer noch herauszufinden, in

gensim python word2vec

gensim Doc2Vec vs tensorflow Doc2Vec

1 Antworten

Ich versuche zu vergleichen, meine Implementierung von Doc2Vec (via tf) und gensims Umsetzung. Es scheint, wenigstens optisch, dass die gensim diejenigen besser ab. Lief ich den folgenden code zum trainieren des gensim-Modell und eine darunter, die für

doc2vec gensim nlp python tensorflow

Wie erstelle ich eine Wortwolke aus einem Korpus in Python?

5 Antworten

Vom Erstellen einer Teilmenge von Wörtern aus einem Korpus in Rdie Beantworter können leicht umwandeln eine term-document matrix in ein word-cloud-einfach. Gibt es eine ähnliche Funktion von python-Bibliotheken, nimmt entweder ein raw word-Textdatei oder NLTK corpus oder

corpus gensim nltk python word-cloud

Verständnis der LDA-Implementierung mit Gensim

4 Antworten

Ich versuche zu verstehen, wie gensim-Paket in Python implementiert Latent Dirichlet Allocation. Ich Tue das folgende: Definieren Sie die dataset - documents = ["Apple is releasing a new product", "Amazon sells many things", "Microsoft announces Nokia acquisition"]

dirichlet gensim python topic-modeling

Doc2vec: Wie man Dokumentenvektoren erhält

3 Antworten

Wie man Dokument-Vektoren von zwei text-Dokumente mit Doc2vec? Ich bin neu in diesem, so wäre es hilfreich, wenn jemand könnte mich in die richtige Richtung/mir helfen, mit einigen tutorial Ich bin mit gensim-python-Bibliothek. doc1=["This is a sentence","This

gensim python word2vec

Wie verwende ich Gensim doc2vec mit vortrainierten Wortvektoren?

4 Antworten

Ich kam vor kurzem in die doc2vec neben Gensim. Wie kann ich die vor-geschult sind Wort-Vektoren (z.B. im word2vec original-website) mit doc2vec? Oder ist doc2vec immer das Wort Vektoren aus dem gleichen Sätze verwendet er für die

gensim nlp python word2vec

Wie man überprüft, ob ein Schlüssel in einem word2vec trainierten Modell existiert oder nicht

5 Antworten

Habe ich trainiert word2vec Modell mit einem Korpus von Dokumenten mit Gensim. Ist das model-training, Schreibe ich den folgenden code, um die raw-feature-Vektor, der ein Wort sagen "anzeigen". myModel["view"] Allerdings bekomme ich eine KeyError für das Wort,

gensim python word2vec

Themenverteilung: Wie sehen wir, welches Dokument zu welchem Thema gehört, nachdem LDA in Python ausgeführt wurde?

2 Antworten

Ich bin in der Lage zu laufen, den LDA-code von gensim und bekam den top-10-Themen mit den jeweiligen keywords. Nun würde ich gerne einen Schritt weiter gehen, um zu sehen, wie genau die LDA-algo ist durch sehen,

gensim lda nltk python

Python Gensim: Wie berechnet man Dokumentähnlichkeit mit dem LDA-Modell?

2 Antworten

Habe ich eine ausgebildete LDA-Modell, und ich will die Berechnung der similarity-score zwischen zwei Belege aus dem Korpus trainierte ich mein Modell auf. Nach dem Studium der alle Gensim-tutorials und Funktionen, ich kann immer noch nicht meinen

gensim lda nlp python

Was repräsentiert der Vektor eines Wortes in word2vec?

2 Antworten

word2vec ist ein open-source-tool von Google: Für jedes Wort, es liefert einen Vektor, der die float-Werte, was genau repräsentieren Sie? Gibt es auch ein Papier, auf Absatz Vektor kann mir jemand erklären, wie Sie mit word2vec um

gensim machine-learning neural-network nlp

Konvertieren Sie die Word2vec-Bin-Datei in Text

10 Antworten

Aus der word2vec Seite, die ich herunterladen kann GoogleNews-vectors-negative300.bin.gz. Die .bin-Datei (3,4 GB) ist ein Binärformat, welches nicht nützlich für mich. Tomas Mikolov versichert unsdass "sollte Es ziemlich einfach zu konvertieren das binäre format, text-format (obwohl, nehmen

c gensim python word2vec

Wie berechnet man die Satzähnlichkeit mit dem word2vec-Modell von Gensim mit Python?

10 Antworten

Entsprechend der Gensim Word2Vec, ich kann die word2vec Modell im gensim-Paket zur Berechnung der ähnlichkeit zwischen 2 Worten. z.B. trained_model.similarity('woman', 'man') 0.73723527 Jedoch die word2vec Modell nicht zur Vorhersage der Satz ähnlichkeit. Ich finde heraus, das LSI-Modell

gensim python word2vec

Aktualisieren Sie das gensim word2vec-Modell

5 Antworten

Ich habe eine word2vec Modell im gensim ausgebildete 98892 Dokumente. Für jeden gegebenen Satz, der sich nicht in die Sätze array (d.h. die Menge, über die ich trainierte Modell), die ich brauche um das Modell zu aktualisieren

gensim word2vec