LDA Topic Modeling - Training und Testen

Habe ich gelesen, LDA, und ich verstehe die Mathematik, wie die Themen, die generiert werden, wenn einer der Eingänge eine Sammlung von Dokumenten.

Referenzen sagen, dass die LDA ist ein Algorithmus, der, gegeben eine Sammlung von Dokumenten, und nichts mehr (keine überwachung notwendig), können entdecken Sie die "Themen", ausgedrückt durch die Dokumente in dieser Sammlung. Damit durch die Verwendung von LDA-Algorithmus und der Gibbs Sampler (oder Variationelle Bayes), kann ich Eingangs-eine Reihe von Dokumenten und als Ausgabe bekomme ich die Themen. Jedes Thema ist mit einem Satz von Begriffen, die mit zugeordneten Wahrscheinlichkeiten.

Was ich nicht verstehe ist, wenn die oben genannten wahr ist, dann warum haben viele Thema modeling-tutorials-talk-über die Trennung der Datensatz in Trainings-und test-set?

Kann jemand mir erklären die Schritte (das Grundkonzept), wie LDA verwendet werden kann für die Ausbildung ein Modell, das dann verwendet werden kann, um zu analysieren, ein weiterer test dataset?

InformationsquelleAutor der Frage tan | 2012-06-22

Schreibe einen Kommentar