Dokument-ähnlichkeit: Vector Einbettung versus Tf-Idf-Leistung?

Habe ich eine Sammlung von Dokumenten, wobei jedes Dokument ist schnell wachsenden, mit der Zeit. Die Aufgabe ist zu finden, ähnliche Dokumente zu jedem Zeitpunkt fest. Ich habe zwei mögliche Ansätze:

  1. Einen Vektor embedding (word2vec, Handschuh oder fasttext), Mittelung über Wort-Vektoren in einem Dokument, und mit Kosinus-ähnlichkeit.

  2. Bag-of-Words: tf-idf oder seine Varianten wie BM25.

Wird eine dieser Ausbeute zu einem bedeutend besseren Ergebnis? Hat jemand getan, einen quantitativen Vergleich der tf-idf versus durchschnittlich word2vec für Dokument-ähnlichkeit?

Ist es ein weiterer Ansatz, der erlaubt, dynamisch verfeinern der Dokument-Vektoren, sobald mehr text Hinzugefügt wird?

InformationsquelleAutor Alec Matusis | 2017-03-07
Schreibe einen Kommentar