clustering von sehr großen Datensätzen in R

Ich habe einen Datensatz, bestehend aus 70.000 numerische Werte, die für Entfernungen im Bereich von 0 bis 50, und ich möchte cluster diese zahlen, jedoch, wenn ich versuche, die klassischen clustering-Ansatz, dann würde ich zum einrichten 70,000X70,000 Distanz-matrix repräsentieren die Entfernungen zwischen jeweils zwei zahlen in meinem Datensatz, die nicht in den Speicher passt, also ich Frage mich, ob es ist eine smart Möglichkeit, um dieses problem zu lösen, ohne die Notwendigkeit zu tun, geschichtete Stichprobe?
Ich habe auch versucht, bigmemory und big analytics-Bibliotheken in R, aber immer noch nicht fit der Daten in den Speicher

  • Ist diese Lösung (mit cluster::clara) relevant/nützlich?
  • Nein nicht wirklich die Ursache des Problems ist, dass die Distanz-matrix wird zu groß, passen in jede Speicher
InformationsquelleAutor DOSMarter | 2014-02-24
Schreibe einen Kommentar