Warum tun wir Maximierung der Varianz bei Principal Component Analysis?
Ich versuche zu Lesen, die durch PCA und sah, dass das Ziel der Maximierung der Varianz. Ich verstehe nicht ganz, warum. Eine Erklärung für andere Verwandte Themen wäre hilfreich
- Ich denke, es ist einfacher zu verstehen, wenn Sie denken, dass es der Maximierung der erklärten Varianz.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Varianz ist ein Maß für die "Variabilität" der Daten, die Sie haben. Möglicherweise die Anzahl der Komponenten ist unbegrenzt, so dass Sie wollen, um "squeeze" die meisten Informationen, die in jeder Komponente des endlichen Menge, die Sie bauen.
Wenn, überspitzt, dass Sie wählen Sie eine single principal component, würden Sie wollen, es zu berücksichtigen, für die die Variabilität möglich: daher die Suche nach maximaler Varianz, so dass die eine Komponente sammelt die "Einzigartigkeit" aus dem Daten-set.
Beachten Sie, dass die PCA nicht tatsächlich erhöhen die Varianz der Daten. Vielmehr dreht es die Daten in einer Weise auszurichten, die Richtungen, in denen es verteilt ist die mit den Hauptachsen. Dies ermöglicht Ihnen, entfernen Sie die Dimensionen, entlang derer die Daten sind fast flach. Dies verringert die Dimensionalität der Daten, während die Varianz (oder Streuung) unter die Punkte, die dem original so nahe wie möglich.
Maximierung der Komponente Vektor der Abweichungen ist die gleiche wie die Maximierung der 'Einzigartigkeit' dieser Vektoren. So sind Sie Vektoren sind so weit voneinander entfernt wie möglich. So, wenn man nur die ersten N Komponenten von Vektoren, Sie gehen zu erfassen, mehr Platz mit sehr unterschiedlichen Vektoren als mit wie Vektoren. Überlegen Sie, was die Principal Component eigentlich bedeutet.
Nehmen Sie zum Beispiel eine situation, wo Sie haben 2 Linien, die orthogonal in einem 3D-Raum. Sie erfassen die Umwelt viel mehr vollständig mit diesen orthogonalen Linien als 2 Linien, die parallel (oder fast parallel). Bei Anwendung auf sehr hohe Dimensionsstabilität Staaten mit sehr wenigen Vektoren, wird dies eine viel mehr wichtige Beziehung zwischen den Vektoren zu erhalten. In der linearen algebra Gefühl Sie wollen Unabhängiger Zeilen erzeugt werden, indem PCA, sonst manche werden diese Zeilen überflüssig.
Sehen diese PDF aus Princeton CS Department für eine grundlegende Erklärung.