LDA Topic Modeling - Training und Testen

Habe ich gelesen, LDA, und ich verstehe die Mathematik, wie die Themen, die generiert werden, wenn einer der Eingänge eine Sammlung von Dokumenten.

Referenzen sagen, dass die LDA ist ein Algorithmus, der, gegeben eine Sammlung von Dokumenten, und nichts mehr (keine überwachung notwendig), können entdecken Sie die "Themen", ausgedrückt durch die Dokumente in dieser Sammlung. Damit durch die Verwendung von LDA-Algorithmus und der Gibbs Sampler (oder Variationelle Bayes), kann ich Eingangs-eine Reihe von Dokumenten und als Ausgabe bekomme ich die Themen. Jedes Thema ist mit einem Satz von Begriffen, die mit zugeordneten Wahrscheinlichkeiten.

Was ich nicht verstehe ist, wenn die oben genannten wahr ist, dann warum haben viele Thema modeling-tutorials-talk-über die Trennung der Datensatz in Trainings-und test-set?

Kann jemand mir erklären die Schritte (das Grundkonzept), wie LDA verwendet werden kann für die Ausbildung ein Modell, das dann verwendet werden kann, um zu analysieren, ein weiterer test dataset?

InformationsquelleAutor der Frage tan | 2012-06-22

lda topic-modeling

31

Aufteilung der Daten in Trainings-und Testsätze ist ein gemeinsamer Schritt in die Bewertung der Leistung eines Lernenden Algorithmus. Es ist mehr klar für das betreute lernen, wobei Sie trainieren das Modell auf dem Trainings-set, dann sehen Sie, wie gut Ihre Klassifizierungen auf der test-Satz-match das wirklich Klasse Etiketten. Für unüberwachtes lernen, wie die Bewertung ist ein wenig schwieriger. Im Fall des topic modeling, ein gemeinsames Maß für die Leistung ist Ratlosigkeit. Sie trainieren das Modell (wie LDA) auf dem Trainings-set, und dann sieht man, wie "perplex" das Modell ist auf die Prüfung eingestellt. Genauer gesagt, Sie Messen, wie gut das Wort zählt, sind die test-Unterlagen sind vertreten durch die Wort-Distributionen vertreten durch die Themen.

Ratlosigkeit ist gut für relative Vergleiche zwischen den Modellen oder parameter-Einstellungen, aber es ist der numerische Wert, der nicht wirklich viel bedeutet. Ich bevorzuge es, zu evaluieren, Thema Modelle mit den folgenden, etwas Anleitung, Auswertung:
1. Untersuchen Sie die Themen: Schauen Sie sich die höchste Wahrscheinlichkeit, dass Wörter in jedem Thema. Sie klingen mögen, Sie bilden ein geschlossenes "Thema" oder nur ein paar zufällige Gruppe von Wörtern?
2. Untersuchen Sie die themenvergabe: Halten Sie ein paar interessante Dokumente aus training und sehen, welche Themen die LDA tritt. Manuell prüfen die Dokumente und die wichtigsten Begriffe, die in den zugeordneten Themen. Sieht es die Themen wirklich beschreiben, was die Dokumente eigentlich sprechen?
Merke ich, dass dieser Prozess ist nicht so schön und quantitative wie man es gerne möchte, aber um ehrlich zu sein, die Anwendungen, die von Thema-Modelle werden nur selten quantitativ. Ich schlage vor, bewerten Sie Ihr Thema anhand eines Modells des Problems, das Sie anwenden.

Glück!

InformationsquelleAutor der Antwort gregamis

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.