Doc2vec: Wie man Dokumentenvektoren erhält

Wie man Dokument-Vektoren von zwei text-Dokumente mit Doc2vec?
Ich bin neu in diesem, so wäre es hilfreich, wenn jemand könnte mich in die richtige Richtung/mir helfen, mit einigen tutorial

Ich bin mit gensim-python-Bibliothek.

doc1=["This is a sentence","This is another sentence"]
documents1=[doc.strip().split(" ") for doc in doc1 ]
model = doc2vec.Doc2Vec(documents1, size = 100, window = 300, min_count = 10, workers=4)

Bekomme ich
AttributeError: 'list' - Objekt hat kein Attribut 'Worte'
immer wenn ich dieses

InformationsquelleAutor der Frage bee2502 | 2015-07-09

33

Gensim wurde aktualisiert. Die syntax von LabeledSentence nicht enthalten Etiketten. Es gibt jetzt tags - siehe Dokumentation für LabeledSentence https://radimrehurek.com/gensim/models/doc2vec.html

Allerdings, @bee2502 hatte Recht mit
```
docvec = model.docvecs[99] 
```
Wird, sollte die 100-Vektor der Wert für trainierte Modell, es funktioniert mit ganzen zahlen und strings.

InformationsquelleAutor der Antwort l.augustyniak

Wenn Sie trainieren möchten, Doc2Vec Modell, Datensatz muss enthalten Listen von Wörtern (ähnlich wie Word2Vec-format) und tags (id-Dokumente). Es kann auch enthalten Sie einige zusätzliche Informationen (siehe https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb für weitere Informationen).

# Import libraries

from gensim.models import doc2vec
from collections import namedtuple

# Load data

doc1 = ["This is a sentence", "This is another sentence"]

# Transform data (you can add more data preprocessing steps) 

docs = []
analyzedDocument = namedtuple('AnalyzedDocument', 'words tags')
for i, text in enumerate(doc1):
    words = text.lower().split()
    tags = [i]
    docs.append(analyzedDocument(words, tags))

# Train model (set min_count = 1, if you want the model to work with the provided example data set)

model = doc2vec.Doc2Vec(docs, size = 100, window = 300, min_count = 1, workers = 4)

# Get the vectors

model.docvecs[0]
model.docvecs[1]

UPDATE (how to train in Epochen):
Doc2Vec Funktion enthält alpha und min_alpha Parameter, aber das bedeutet, dass die learning-rate zerfällt während einer Epoche von alpha zu min_alpha. Trainieren mehrere Epochen, legen Sie die learning-rate manuell, so wie hier:

from gensim.models import doc2vec
import random

alpha_val = 0.025        # Initial learning rate
min_alpha_val = 1e-4     # Minimum for linear learning rate decay
passes = 15              # Number of passes of one document during training

alpha_delta = (alpha_val - min_alpha_val) / (passes - 1)

model = doc2vec.Doc2Vec( size = 100 # Model initialization
    , window = 300
    , min_count = 1
    , workers = 4)

model.build_vocab(docs) # Building vocabulary

for epoch in range(passes):

    # Shuffling gets better results

    random.shuffle(docs)

    # Train

    model.alpha, model.min_alpha = alpha_val, alpha_val

    model.train(docs)

    # Logs

    print('Completed pass %i at alpha %f' % (epoch + 1, alpha_val))

    # Next run alpha

    alpha_val -= alpha_delta

InformationsquelleAutor der Antwort Lenka Vraná

24
```
doc=["This is a sentence","This is another sentence"]
documents=[doc.strip().split(" ") for doc in doc1 ]
model = doc2vec.Doc2Vec(documents, size = 100, window = 300, min_count = 10, workers=4)
```
Bekam ich AttributeError: 'list' - Objekt hat kein Attribut 'Worte', weil der input-Dokumente zu den Doc2vec() wurde nicht in der richtigen LabeledSentence-format.
Ich hoffe, das folgende Beispiel wird Ihnen helfen, das format.
```
documents = LabeledSentence(words=[u'some', u'words', u'here'], labels=[u'SENT_1']) 
```
Mehr details sind hier : http://rare-technologies.com/doc2vec-tutorial/
Allerdings habe ich das problem gelöst, indem unter input-Daten aus Datei mit TaggedLineDocument().

Datei-format: ein Dokument = eine Zeile = eine TaggedDocument Objekt.
Worte werden voraussichtlich bereits vorverarbeitet und durch ein Leerzeichen getrennt, tags werden automatisch erstellt aus dem Dokument Zeilennummer.
```
sentences=doc2vec.TaggedLineDocument(file_path)
model = doc2vec.Doc2Vec(sentences,size = 100, window = 300, min_count = 10, workers=4)
```
Um Dokument-Vektor :
Sie können docvecs. Mehr details hier : https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.TaggedDocument
```
docvec = model.docvecs[99] 
```
wo 99 ist die Dokument-id, deren Vektor, die wir wollen. Wenn die Etiketten werden im integer-format (standardmäßig, wenn Sie die Last mit TaggedLineDocument() ), direkt integer-id, wie ich es Tat. Wenn die Etiketten sind im string-format vorliegen,verwenden Sie "SENT_99" .Dies ist ähnlich zu Word2vec

InformationsquelleAutor der Antwort bee2502

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.