LDA Topic Modeling - Training und Testen
Habe ich gelesen, LDA, und ich verstehe die Mathematik, wie die Themen, die generiert werden, wenn einer der Eingänge eine Sammlung von Dokumenten.
Referenzen sagen, dass die LDA ist ein Algorithmus, der, gegeben eine Sammlung von Dokumenten, und nichts mehr (keine überwachung notwendig), können entdecken Sie die "Themen", ausgedrückt durch die Dokumente in dieser Sammlung. Damit durch die Verwendung von LDA-Algorithmus und der Gibbs Sampler (oder Variationelle Bayes), kann ich Eingangs-eine Reihe von Dokumenten und als Ausgabe bekomme ich die Themen. Jedes Thema ist mit einem Satz von Begriffen, die mit zugeordneten Wahrscheinlichkeiten.
Was ich nicht verstehe ist, wenn die oben genannten wahr ist, dann warum haben viele Thema modeling-tutorials-talk-über die Trennung der Datensatz in Trainings-und test-set?
Kann jemand mir erklären die Schritte (das Grundkonzept), wie LDA verwendet werden kann für die Ausbildung ein Modell, das dann verwendet werden kann, um zu analysieren, ein weiterer test dataset?
InformationsquelleAutor der Frage tan | 2012-06-22
Du musst angemeldet sein, um einen Kommentar abzugeben.
Aufteilung der Daten in Trainings-und Testsätze ist ein gemeinsamer Schritt in die Bewertung der Leistung eines Lernenden Algorithmus. Es ist mehr klar für das betreute lernen, wobei Sie trainieren das Modell auf dem Trainings-set, dann sehen Sie, wie gut Ihre Klassifizierungen auf der test-Satz-match das wirklich Klasse Etiketten. Für unüberwachtes lernen, wie die Bewertung ist ein wenig schwieriger. Im Fall des topic modeling, ein gemeinsames Maß für die Leistung ist Ratlosigkeit. Sie trainieren das Modell (wie LDA) auf dem Trainings-set, und dann sieht man, wie "perplex" das Modell ist auf die Prüfung eingestellt. Genauer gesagt, Sie Messen, wie gut das Wort zählt, sind die test-Unterlagen sind vertreten durch die Wort-Distributionen vertreten durch die Themen.
Ratlosigkeit ist gut für relative Vergleiche zwischen den Modellen oder parameter-Einstellungen, aber es ist der numerische Wert, der nicht wirklich viel bedeutet. Ich bevorzuge es, zu evaluieren, Thema Modelle mit den folgenden, etwas Anleitung, Auswertung:
Merke ich, dass dieser Prozess ist nicht so schön und quantitative wie man es gerne möchte, aber um ehrlich zu sein, die Anwendungen, die von Thema-Modelle werden nur selten quantitativ. Ich schlage vor, bewerten Sie Ihr Thema anhand eines Modells des Problems, das Sie anwenden.
Glück!
InformationsquelleAutor der Antwort gregamis