Besser text-Dokumenten-clustering als tf/idf-und Cosinus-ähnlichkeit?

Ich versuche, die cluster der Twitter-stream. Ich möchte jeden tweet zu einem cluster, dass reden über das gleiche Thema. Ich habe versucht, zu cluster-stream mit einem online-clustering-Algorithmus mit tf/idf-und Cosinus-ähnlichkeit, aber ich fand, dass die Ergebnisse sind ziemlich schlecht.

Die wichtigsten Nachteile der Verwendung von tf/idf ist, dass es Cluster von Dokumenten, die keyword-ähnlich, so es ist nur gut zu identifizieren, die in der Nähe von identischen Dokumenten. Betrachten Sie beispielsweise die folgenden Sätze:

1 - Die Webseite Stackoverflow ist ein schöner Ort.
2 - Stackoverflow ist eine Webseite.

Den prevoiuse zwei Sätze, die wahrscheinlich von gruppierten zusammen mit einer angemessenen Schwellenwert, da Sie eine Menge Schlüsselwörter. Aber betrachten wir nun die folgenden zwei Sätze:

1 - Die Webseite Stackoverflow ist ein schöner Ort.
2 - ich Besuche Stackoverflow regelmäßig.

Nun mittels tf/idf der clustering-Algorithmus wird kläglich scheitern, weil Sie nur teilen ein keyword sogar tho Sie beide sprechen über das gleiche Thema.

Meine Frage: gibt es bessere Techniken, um cluster von Dokumenten?

  • naja, TF-IDF soll ein gewichtungsschema, das bringt mehr Gewicht auf die relevanten keywords bereits. Wenn die Figur das problem ist, dass die tweets nur so winzig kleine text-Fragmente, können Sie nicht erwarten, dass die ähnlichkeit sehr gut zu funktionieren, auf die Sie über "in der Nähe Identität". Die meisten tweets sind nicht einmal vollständige Sätze, so NLP wird wahrscheinlich auch fehlschlagen.
  • Eine Sache zu beobachten, mit LSI / LDA / NMF etc. ist Thema drift. Training eines Modells auf einen bekannten Datensatz erzielen Sie gute Ergebnisse, wenn Sie Ihre pipeline nicht korrekt ausgeführt wird. Wenn Sie dann anwenden, um das Modell in einen völlig unsichtbar dataset können Sie sehen, deutlicher Rückgang in der Leistung aufgrund der Montage der originalen Trainingsdaten. Wegen Twitter-text ist so kurz die Darstellung, müssen Sie ein wenig hantieren, da kann es nicht genug text zu trainieren, ein Modell richtig.
  • gibt es irgendwelche Lösungen dafür?
  • hat der Benutzer es kommt keinerlei Auswirkungen haben?
  • was meinst du?
  • Wird Sie nur als den text der Tweets, oder die person, oder Sie haben Informationen über die Nutzer vorherigen tweets der gut?

InformationsquelleAutor Jack Twain | 2013-07-08
Schreibe einen Kommentar