Wie finde ich die Mitte aus einem cluster von Daten-Punkten?

Sagen wir mal ich aufgetragen, der die position des Hubschraubers jeden Tag für das vergangene Jahr und kam mit der folgenden Karte:

Jedem menschlichen Blick auf diese in der Lage wäre, mir zu sagen, dass dieser Hubschrauber ist aus Chicago.

Wie finde ich das gleiche Ergebnis in code?

Ich bin auf der Suche nach so etwas wie dieses:

$geoCodeArray = array([GET=http://pastebin.com/grVsbgL9]);
function findHome($geoCodeArray) {
    //magic
    return $geoCode;
}

Letztlich generieren, so etwas wie dieses:

Wie finde ich die Mitte aus einem cluster von Daten-Punkten?

UPDATE: Beispieldatensatz

Hier ist eine Karte mit einem Beispieldatensatz: http://batchgeo.com/map/c3676fe29985f00e1605cd4f86920179

Hier ist ein pastebin von 150 Geo: http://pastebin.com/grVsbgL9

Den oben enthält 150 Geo-Codes. Die ersten 50 sind in wenigen Clustern der Nähe von Chicago. Die übrigen sind verstreut im ganzen Land, darunter auch einige kleine Cluster in New York, Los Angeles und San Francisco.

Ich haben über eine million (ernst) Datensätze wie diese, die ich werde brauchen zu Durchlaufen und zu identifizieren, die am ehesten "zu Hause". Ihre Hilfe wird sehr geschätzt.

UPDATE 2: Flugzeug eingeschaltet, um Hubschrauber

Dem Flugzeug wurde das Konzept-Zeichnung zu viel Aufmerksamkeit auf körperliche Flughäfen. Die Koordinaten können Sie überall in der Welt, nicht nur Flughäfen. Nehmen wir an, es ist ein super Hubschrauber nicht an die Physik gebunden, Kraftstoff, oder irgendetwas anderes. Es kann landen, wo er will. 😉

Können Sie teilen sich ein link mit solchen Daten?
Sicher. Karte: batchgeo.com/map/c3676fe29985f00e1605cd4f86920179 und Geo-Codes: pastebin.com/grVsbgL9
Blick auf die Karte bin ich nicht in der Lage zu beurteilen, ob das Flugzeug mit Sitz in Chicago oder in San Francisco. Ich erwarte nicht, dass ein Algorithmus besser zu sein als mich auf diese.
Nun gibt es 50 Punkte, in der Nähe von Chicago und nur 20 oder so in der Nähe von San Francisco. Es scheint nicht abwegig, dass ein Algorithmus sollte in der Lage sein zu entdecken, in Chicago als wahrscheinlicher cluster zu konzentrieren. Aber ich bin offen für Korrektur.
Auch die nächsten beiden Daten-Punkte sind nur einige Meter voneinander entfernt in Central Park, NYC. Ich warf diejenigen, die in es, um sicherzustellen, dass wir nicht zählen auf der nächsten Strecke zu fahren, den rest in den Fokus.
das problem liegt in den Worten "Nähe". Trotzdem, tolle Idee, zu werfen und diese Punkte in. Die max-von-Summen der inverse-Quadrat-Distanzen gab mir nur die Antwort, die Sie erwartet 😉
nun, das hinzufügen eines "slack", 20 Nm, mein Algorithmus scheint zu funktionieren, der Suche nach einer Stelle in der Nähe von Chicago, aber mit einer "lockeren" 10 Nm "sieht" zwei Cluster über Chicago und eine in der Nähe, und wählt einen Punkt im zweiten cluster. Die Frage ist, ist ein Durchmesser von 40 Nm immer noch "Nähe"?
Sie sollten erkennen, dass ein Teil der Grund, warum die Menschen identifizieren können, die Ebene der Heimatbasis Chicago und nicht sagen, Joliet, ist, weil die Leute wissen, dass es ist ein wichtiger Flughafen in Chicago.
Siehe unten für ein f-code-Beispiel, das in der Tat ergibt Flughafen von Chicago.
Oh, wow, danke Ryan!!! Ich wirklich zu schätzen.
Jeder Mensch würde in der Lage sein zu sagen, dass Hubschrauber hat die 20-fache der Reichweite von allen bekannten Hubschrauber.

InformationsquelleAutor Ryan | 2013-06-14

Folgende Lösung funktioniert auch, wenn die Punkte sind überall auf der Erde, durch die Umwandlung von Längen-und Breitengrad zu kartesischen Koordinaten. Es funktioniert eine Art von KDE (kernel density estimation), aber in einem ersten Durchlauf die Summe der Kerne ausgewertet wird nur die Daten-Punkte. Der kernel sollte so gewählt werden, passen Sie das problem. Im code unten ist es das, was ich mir scherzhaft/überheblich nennen eine Trossian, d.h., 2-d2/h2 für d≤h und h2/d2 für d>h (wobei d der euklidische Abstand und h ist die "Bandbreite" $global_kernel_radius), aber es könnte auch eine Gauß - (e^-d2/2h2), ein Epanechnikov-kernel (1-d2/h2 für d<h, 0 sonst), oder einen anderen kernel. Eine optionale zweite Durchlauf verfeinert die Suche, lokal, entweder durch addieren einer unabhängigen kernel auf einem lokalen Netz, oder durch die Berechnung der Schwerpunkt, in beiden Fällen in eine Umgebung definiert, die von $local_grid_radius.

Im wesentlichen, jeder Punkt Summen all die Punkte, die es hat, um mit sich selbst, wiegt Sie mehr, wenn Sie näher (durch die bell-Kurve), und auch Wiegen, die Ihnen durch die optional Gewicht array $w_arr. Der Gewinner ist der Punkt mit der maximalen Summe. Nachdem der Sieger gefunden wurde, wird die "home" suchen wir für die gefunden werden können, wiederholen Sie den gleichen Prozess lokal um den Gewinner (mit einem anderen bell-Kurve), oder es kann geschätzt werden, werden die "center of mass" aller Punkte innerhalb eines bestimmten radius um den Gewinner, wobei der radius null werden kann.

Muss der Algorithmus angepasst werden, um das problem, indem Sie die entsprechenden Kernel, indem Sie, wie um die Suche zu verfeinern lokal, und durch einstellen der Parameter. Für das Beispiel-dataset, das Trossian kernel für den ersten pass, und der Epanechnikov-kernel für den zweiten pass, alle 3 Radien auf 30 mi und grid step 1 mi könnte ein guter Ausgangspunkt, aber nur, wenn die beiden sub-Clustern von Chicago sollte gesehen werden als eine große Gruppe. Ansonsten kleinere Radien müssen so gewählt werden.

function find_home($lat_arr, $lng_arr, $global_kernel_radius,
                                       $local_kernel_radius,
                                       $local_grid_radius, //0 for no 2nd pass
                                       $local_grid_step,   //0 for centroid
                                       $units='mi',
                                       $w_arr=null)
{
   //for lat,lng <-> x,y,z see http://en.wikipedia.org/wiki/Geodetic_datum
   //for K and h see http://en.wikipedia.org/wiki/Kernel_density_estimation

   switch (strtolower($units)) {
      /*  */case 'nm' :
      /*or*/case 'nmi': $m_divisor = 1852;
      break;case  'mi': $m_divisor = 1609.344;
      break;case  'km': $m_divisor = 1000;
      break;case   'm': $m_divisor = 1;
      break;default: return false;
   }
   $a  = 6378137 /$m_divisor; //Earth semi-major axis      (WGS84)
   $e2 = 6.69437999014E-3;     //First eccentricity squared (WGS84)

   $lat_lng_count = count($lat_arr);
   if ( !$w_arr) {
      $w_arr = array_fill(0, $lat_lng_count, 1.0);
   }
   $x_arr = array();
   $y_arr = array();
   $z_arr = array();
   $rad = M_PI /180;
   $one_e2 = 1 - $e2;
   for ($i = 0; $i < $lat_lng_count; $i++) {
      $lat = $lat_arr[$i];
      $lng = $lng_arr[$i];
      $sin_lat = sin($lat * $rad);
      $sin_lng = sin($lng * $rad);
      $cos_lat = cos($lat * $rad);
      $cos_lng = cos($lng * $rad);
      //height = 0 (!)
      $N = $a /sqrt(1 - $e2 * $sin_lat * $sin_lat);
      $x_arr[$i] = $N * $cos_lat * $cos_lng;
      $y_arr[$i] = $N * $cos_lat * $sin_lng;
      $z_arr[$i] = $N * $one_e2  * $sin_lat;
   }
   $h = $global_kernel_radius;
   $h2 = $h * $h;
   $max_K_sum     = -1;
   $max_K_sum_idx = -1;
   for ($i = 0; $i < $lat_lng_count; $i++) {
      $xi = $x_arr[$i];
      $yi = $y_arr[$i];
      $zi = $z_arr[$i];
      $K_sum  = 0;
      for ($j = 0; $j < $lat_lng_count; $j++) {
         $dx = $xi - $x_arr[$j];
         $dy = $yi - $y_arr[$j];
         $dz = $zi - $z_arr[$j];
         $d2 = $dx * $dx + $dy * $dy + $dz * $dz;
         $K_sum += $w_arr[$j] * ($d2 <= $h2 ? (2 - $d2 /$h2) : $h2 /$d2); //Trossian ;-)
         //$K_sum += $w_arr[$j] * exp(-0.5 * $d2 /$h2); //Gaussian
      }
      if ($max_K_sum < $K_sum) {
          $max_K_sum = $K_sum;
          $max_K_sum_i = $i;
      }
   }
   $winner_x   = $x_arr  [$max_K_sum_i];
   $winner_y   = $y_arr  [$max_K_sum_i];
   $winner_z   = $z_arr  [$max_K_sum_i];
   $winner_lat = $lat_arr[$max_K_sum_i];
   $winner_lng = $lng_arr[$max_K_sum_i];

   $sin_winner_lat = sin($winner_lat * $rad);
   $cos_winner_lat = cos($winner_lat * $rad);
   $sin_winner_lng = sin($winner_lng * $rad);
   $cos_winner_lng = cos($winner_lng * $rad);
   $east_x  = -$local_grid_step * $sin_winner_lng;
   $east_y  =  $local_grid_step * $cos_winner_lng;
   $east_z  =  0;
   $north_x = -$local_grid_step * $sin_winner_lat * $cos_winner_lng;
   $north_y = -$local_grid_step * $sin_winner_lat * $sin_winner_lng;
   $north_z =  $local_grid_step * $cos_winner_lat;

   if ($local_grid_radius > 0 && $local_grid_step > 0) {
      $r = intval($local_grid_radius /$local_grid_step);
      $r2 = $r * $r;
      $h = $local_kernel_radius;
      $h2 = $h * $h;
      $max_L_sum     = -1;
      $max_L_sum_idx = -1;
      for ($i = -$r; $i <= $r; $i++) {
         $winner_east_x = $winner_x + $i * $east_x;
         $winner_east_y = $winner_y + $i * $east_y;
         $winner_east_z = $winner_z + $i * $east_z;
         $j_max = intval(sqrt($r2 - $i * $i));
         for ($j = -$j_max; $j <= $j_max; $j++) {
            $x = $winner_east_x + $j * $north_x;
            $y = $winner_east_y + $j * $north_y;
            $z = $winner_east_z + $j * $north_z;
            $L_sum  = 0;
            for ($k = 0; $k < $lat_lng_count; $k++) {
               $dx = $x - $x_arr[$k];
               $dy = $y - $y_arr[$k];
               $dz = $z - $z_arr[$k];
               $d2 = $dx * $dx + $dy * $dy + $dz * $dz;
               if ($d2 < $h2) {
                  $L_sum += $w_arr[$k] * ($h2 - $d2); //Epanechnikov
               }
            }
            if ($max_L_sum < $L_sum) {
                $max_L_sum = $L_sum;
                $max_L_sum_i = $i;
                $max_L_sum_j = $j;
            }
         }
      }
      $x = $winner_x + $max_L_sum_i * $east_x + $max_L_sum_j * $north_x;
      $y = $winner_y + $max_L_sum_i * $east_y + $max_L_sum_j * $north_y;
      $z = $winner_z + $max_L_sum_i * $east_z + $max_L_sum_j * $north_z;

   } else if ($local_grid_radius > 0) {
      $r = $local_grid_radius;
      $r2 = $r * $r;
      $wx_sum = 0;
      $wy_sum = 0;
      $wz_sum = 0;
      $w_sum  = 0;
      for ($k = 0; $k < $lat_lng_count; $k++) {
         $xk = $x_arr[$k];
         $yk = $y_arr[$k];
         $zk = $z_arr[$k];
         $dx = $winner_x - $xk;
         $dy = $winner_y - $yk;
         $dz = $winner_z - $zk;
         $d2 = $dx * $dx + $dy * $dy + $dz * $dz;
         if ($d2 <= $r2) {
            $wk = $w_arr[$k];
            $wx_sum += $wk * $xk;
            $wy_sum += $wk * $yk;
            $wz_sum += $wk * $zk;
            $w_sum  += $wk;
         }
      }
      $x = $wx_sum /$w_sum;
      $y = $wy_sum /$w_sum;
      $z = $wz_sum /$w_sum;
      $max_L_sum_i = false;
      $max_L_sum_j = false;

   } else {
      return array($winner_lat, $winner_lng, $max_K_sum_i, false, false);
   }

   $deg = 180 /M_PI;
   $a2 = $a * $a;
   $e4 = $e2 * $e2;
   $p = sqrt($x * $x + $y * $y);
   $zeta = (1 - $e2) * $z * $z /$a2;
   $rho  = ($p * $p /$a2 + $zeta - $e4) /6;
   $rho3 = $rho * $rho * $rho;
   $s = $e4 * $zeta * $p * $p /(4 * $a2);
   $t = pow($s + $rho3 + sqrt($s * ($s + 2 * $rho3)), 1 /3);
   $u = $rho + $t + $rho * $rho /$t;
   $v = sqrt($u * $u + $e4 * $zeta);
   $w = $e2 * ($u + $v - $zeta) /(2 * $v);
   $k = 1 + $e2 * (sqrt($u + $v + $w * $w) + $w) /($u + $v);
   $lat = atan($k * $z /$p) * $deg;
   $lng = atan2($y, $x) * $deg;

   return array($lat, $lng, $max_K_sum_i, $max_L_sum_i, $max_L_sum_j);
}

Die Tatsache, dass Entfernungen entsprechen der euklidischen und nicht groß-Kreis sollte nur vernachlässigbare Auswirkungen für die Aufgabe zur hand. Die Berechnung der great-circle Entfernungen wäre viel umständlicher und würde nur dazu führen das Gewicht sehr weit Punkte werden deutlich geringer - aber diese Punkte haben schon einen sehr niedrigen Gewicht. Im Prinzip der gleiche Effekt könnte erzielt werden, indem ein anderer kernel. Kerne, die haben eine komplette cut-off-jenseits einiger Entfernung, wie der Epanechnikov-kernel, haben dieses problem nicht bei allen (in der Praxis).

Die Umrechnung zwischen lat,lng und x,y,z für das WGS84 datum exakt angegeben (allerdings ohne Gewährleistung der numerischen Stabilität) mehr als eine Referenz ist, als durch eine echte Notwendigkeit. Wenn die Höhe berücksichtigt werden, oder wenn eine schnellere back-Konvertierung erforderlich ist, entnehmen Sie bitte der Wikipedia-Artikel.

Den Epanechnikov-kernel, abgesehen davon, dass "mehr lokales" als die Gauß-und Trossian-Kernel, hat den Vorteil, dass das Schnellste für die zweite Schleife ist O(ng), wobei g die Anzahl der Punkte, die von dem lokalen Netz, und kann auch eingesetzt werden, in die erste Schleife ist O(n2), wenn n groß ist.

1 : $h2 / $d2); ist der kernel von meiner vorherigen Antwort (der "canyon peak" - kernel). Die Ergebnisse sollten etwas anders sein, nur weil die Koordinaten werden in 3D anstatt des Ebenen-approximation.
vielen Dank für deine bounty, ich bin wirklich glücklich, dass dieser Algorithmus gestanden hat Ihre tests! Wie für den Mangel an upvotes, ich denke, ich werde haben, zu gewöhnen, um es (nicht nur in Stackoverflow) - in Italien sagt man: ", lacht gut, der zuletzt lacht"
Ich dachte nur über Ihre mangelnde upvotes. 😉 Rossmo ist, bekommt eine Menge "interessante" Punkte in meinem Buch, aber ich letztlich konnte nicht ein funktionierendes Modell, mit dem ich zufrieden war. Aber ich erwarte, dass dies ein reiner Anwenderfehler. Sie sagen, ich kann nicht geben Sie die nächste 200pts bounty "Tipp" für weitere 12 Stunden. Bis dann, vielen Dank für all die Hilfe.

InformationsquelleAutor Walter Tross

10

Dieses Problem kann gelöst werden, indem Sie eine Gefahr Oberfläche. Sehen Rossmo Formel.

Dies ist die predator problem. Da eine Reihe von geografisch-liegt Kadaver, wo ist das Versteck der Räuber? Rossmo-Formel löst dieses problem.
- Das ist faszinierend. Können Sie mir helfen zu verstehen, wie könnte ich übersetzen diese Formel in eine pseudo-Programmierung-code? Ich werde letztlich mit PHP, aber wenn ich die in den Griff zu bekommen, wie das zu übersetzen, dass die Formel zu einer Programmiersprache, die ich kann herausfinden, den rest aus.
- Rossmo die Formel gibt Ihnen die Wahrscheinlichkeit, dass das raubtier lebt, an jedem beliebigen Punkt (x,y). Also, was würden Sie tun, ist teilen das Gebiet in Zonen wie invisal hat, dann berechnen Sie die Wahrscheinlichkeit für den Punkt in der Mitte jeder zone. Dann, mit verengten sich die Lage nach unten, um eine zone, Sie würde Unterteilung der zone und wiederholen Sie den Vorgang. Beachten Sie, dass in der normalen Rossmo Formel Manhatten-Distanz verwendet wird, (für die Straßen der Stadt), aber in dieser Anwendung, die Sie verwenden können, normale euklidische Distanz.
- Danke Tyler, aber ich bin immer noch nicht auf zu übersetzen, wie die Formel auf der Wikipedia-Seite in den code. Kannst du mich in die richtige Richtung für, die?
- Ich Frage mich, wie auf der Erde (oder zumindest die USA) Rossmo die Formel kann also für euklidische Entfernungen
- versucht zu konvertieren Rossmo die Formel in code unten ein - stackoverflow.com/a/17274433/834525 Leider bin ich Schwierigkeiten haben, es in PHP, aber für andere, die sich in dieser Frage haben, schauen Sie weiter unten auf der Seite.
InformationsquelleAutor Tyler Durden
7

Finden Sie den Punkt mit der größte Dichte Schätzung.

Sein sollte ziemlich einfach. Verwenden Sie einen kernel-radius, der etwa deckt einen großen Flughafen im Durchmesser. Einen 2D-GAUSS-oder Epanechnikov-kernel sollte in Ordnung sein.

http://en.wikipedia.org/wiki/Multivariate_kernel_density_estimation

Dies ist ähnlich wie die Berechnung einer Heap-Karte: http://en.wikipedia.org/wiki/Heat_map
und dann das finden der hellsten Stelle. Außer es berechnet die Helligkeit sofort.

For fun habe ich gelesen, eine 1% - Stichprobe der geografischen Koordinaten von DBpedia (z.B. Wikipedia) in ELKI, projiziert es in den 3D-Raum und aktiviert die Dichte Schätzung overlay (versteckt in den Visualisierungen scatterplot-Menü). Sie können sehen, es ist ein hotspot in Europa, und in geringerem Ausmaß in den USA. Der hotspot in Europa ist Polen, glaube ich. Zuletzt habe ich geprüft, jemand hatte offenbar erstellt einen Wikipedia-Artikel mit geografischen Koordinaten für so ziemlich jede Stadt in Polen. Die ELKI-visualizer, leider, weder können Sie Zoomen, drehen, oder reduzieren Sie die kernel-Bandbreite optisch finden die meisten dichten Punkt. Aber es ist einfach zu implementieren Sie sich selbst; Sie wahrscheinlich auch nicht brauchen, um in den 3D-Raum, kann aber nur verwenden breiten-und Längengrade.

Kernel-Dichte-Schätzung sollte in Tonnen von Anwendungen. Die eins in R ist wahrscheinlich viel stärker. Ich habe vor kurzem entdeckt, diese heatmap im ELKI, so dass ich wusste, wie schnell darauf zugreifen. Siehe z.B. http://stat.ethz.ch/R-manual/R-devel/library/stats/html/density.html für einen zugehörigen R-Funktion.

Auf Ihre Daten, R, versuchen Sie es zum Beispiel:
```
library(kernSmooth)
smoothScatter(data, nbin=512, bandwidth=c(.25,.25))
```
dies sollte zeigen eine starke Präferenz für Chicago.
```
library(kernSmooth)
dens=bkde2D(data, gridsize=c(512, 512), bandwidth=c(.25,.25))
contour(dens$x1, dens$x2, dens$fhat)
maxpos = which(dens$fhat == max(dens$fhat), arr.ind=TRUE)
c(dens$x1[maxpos[1]], dens$x2[maxpos[2]])
```
Erträge [1] 42.14697 -88.09508 - das ist weniger als 10 Meilen vom Flughafen von Chicago.

Besser koordiniert versuchen:
- rerunning auf einer 20x20 km-Bereich um den geschätzten Koordinaten
- eine non-binned KDE in diesem Bereich
- bessere Bandbreite mit dpik
- höhere Auflösung
- Danke. Ich habe gelesen durch Ihre Antwort vorher, aber hatte eine harte Zeit, die erste Schritte mit einigen tatsächlichen code. Ich werde versuchen, das heute zu sehen, wie er ausführt. Ich bin auch Gebäude der Importeur, die ich brauche, um zu testen, die mehrere Datensätze, um sicherzustellen, die Zuverlässigkeit in vielen Fällen. Nochmals vielen Dank für die weitere Mühe und die Klarstellung.
InformationsquelleAutor Anony-Mousse
5

in der Astrophysik nutzen wir so genannte "half-mass radius". Gegeben eine Verteilung, und Ihr Zentrum, die Hälfte der Masse-radius ist der Krümmungsradius von einem Kreis mit der Hälfte der Punkte der Verteilung.

Diese Menge ist eine charakteristische Länge der Verteilung der Punkte.

Wenn Sie wollen, dass die Heimat der Hubschrauber ist, wo die Punkte sind maximal konzentriert, so dass es ist der Punkt, der mindestens die Hälfte der Masse-radius!

Mein Algorithmus ist wie folgt: für jeden Punkt, den Sie berechnen diese die Hälfte der Masse-radius-Zentrierung der distribution in der aktuellen Punkt. Die "home" - der Helikopter wird der Punkt sein, mit der mindestens die Hälfte der Masse-radius.

Habe ich durchgeführt, und die berechneten center ist 42.149994 -88.133698 (in Chicago)
Ich habe auch verwendet, die 0,2 der gesamten Masse anstelle von 0,5(die Hälfte) in der Regel verwendet in der Astrophysik.

Dies ist meine (in python) alghorithm, der findet die Heimat der Hubschrauber:
```
import math

import numpy

def inside(points,center,radius):
     ids=(((points[:,0]-center[0])**2.+(points[:,1]-center[1])**2.)<=radius**2.)
     return points[ids]

points = numpy.loadtxt(open('points.txt'),comments='#')

npoints=len(points)
deltar=0.1

idcenter=None
halfrmin=None

for i in xrange(0,npoints):
    center=points[i]
    radius=0.

    stayHere=True
    while stayHere:
         radius=radius+deltar
         ninside=len(inside(points,center,radius))
         #print 'point',i,'r',radius,'in',ninside,'center',center
         if(ninside>=npoints*0.2):
              if(halfrmin==None or radius<halfrmin):
                   halfrmin=radius
                   idcenter=i
                   print 'point',i,halfrmin,idcenter,points[idcenter]
              stayHere=False

#print halfrmin,idcenter
print points[idcenter]
```
- Können Sie klären Ihre def inside... Linien? Ich bin mit der Umsetzung dieses auf PHP und haben eine harte Zeit zu verstehen, dass ein Teil. Funktioniert das nur zurückgeben der Anzahl der Punkte innerhalb des radius?
- Ich bin fasziniert von diesem Algorithmus und möchte es ausprobieren. Können Sie sich noch an meinen code und mir helfen das problem zu identifizieren? Ich bin ein wenig unklar über die Zwänge des loops, und wo es bricht. Hier ist meine übersetzung zu PHP: codepad.org/MMS0bOeq Können Sie einen Blick und lassen Sie mich wissen, was ich falsch interpretiert?
- Hallo, ich habe PHP bei der Arbeit und ich werde versuchen, Ihren code zu Hause. Warum hast du so eine seltsame Metrik für die Distanz? Aber ich denke, es ist ein Tippfehler in cos(radians($long2) - radians($long2)) die null. BTW deine Vermutung über def inside ist richtig, es gibt die Punkte innerhalb eines bestimmten Kreises von radius radius und zentriert auf center.
- Danke. Der Abstand Konten für die 3D-Erde, im Gegensatz zu einer 2D-Oberfläche. Ich werde sehen, was sich die Tippfehler (ich bin mir nicht sicher, ob es sein sollte long1-long2 oder long2-long1). Vielen Dank für das heads-up. Ich war vor allem verwirrt über die Schleifen in Ihrem python-code. Ich verstehe nicht, wo das Schleifen-start und-Ende, so dass ich verwirrt war, dass es sich um PHP. Jede weitere Hilfe ist willkommen.
- Spielt keine Rolle, wenn Sie long1-long2 oder long2-long1 weil die cos Funktion ist auch. In der Tat cos(x)=cos(-x) und so cos(x-y)=cos(y-x). Der code scheint ok, mir geht es nicht funktioniert?
- Danke! Ich bin mir noch nicht sicher. Die Entfernungen, die jetzt arbeiten, aber aus irgendeinem Grund bekomme ich immer wieder die Ergebnisse in Mittel-und Osteuropa vor allem US-basierte Daten-sets. Offensichtlich ein problem in meinem code irgendwo. Andere als die typo ist dir aufgefallen, sind meine loops korrekt constrained? Ich bin neugierig, weil es aussieht, wenn ein Punkt qualifiziert sich für if(ninside>=npoints*0.2): dann wird die Schleife beendet. Dies scheint nicht richtig zu mir.
- Ich fand das zweite typo: $coordinateArr[$centroidKey][0] . ',' . $coordinateArr[$centroidKey][1]. Aber es ist etwas unheimlich, beängstigend in deinem code: Du hast multipied die $distance durch 3959 (ich Schätze der Erde radius in [mi]), in diesem Fall deltar=0.1 ist zu klein! Das ist mein code funktioniert: codepad.org/9Ro4lcQQ . BTW: ich habe gewählt die Erde radius gleich 1 in meinem code. Über den Zyklus: Es Stoppt auf if(ninside>=npoints*0.2): weil die 0,2 Masse-radius gefunden wird, und der code nur für die Suche mindestens eine.
- Wenn die Erde einen radius von 1, $deltar=0.1 ist zu groß, wenn ich verstehe, was der code tut. @Ryan: versuchen Sie, mit $deltar=$r_increment_in_miles/3959
- Sorry @user1833218 und @Ryan, ich fürchte, dass ich für Verwirrung. Was ich meine ist: $deltar ist der Betrag, um den die vorläufige Hälfte der Masse-radius erhöht bei jedem Schritt. Wenn $r_increment_in_miles ist die echte gewünschte Inkrement, das ist gleich $deltar wenn das 3959 Faktor ist in der Ferne-Funktion. Wenn auf der anderen Seite der Erde radius auf 1 gesetzt ist und keine Skalierungsfaktor erscheint in der Ferne-Funktion $deltar=$r_increment_in_miles/3959.
InformationsquelleAutor Antonio Ragagnin
4

Können Sie DBSCAN für diese Aufgabe.

DBSCAN ist ein Dichte-basiertes clustering mit einer Vorstellung von Lärm. Sie benötigen zwei Parameter:

Zunächst die Anzahl der Punkte zu einem cluster sollte mindestens "minpoints".
Und zweitens, ein Nachbarschafts-parameter genannt "epsilon" setzt einen Abstand Schwelle zu den umliegenden Punkte, die enthalten sein sollten in Ihrem cluster.

Den gesamten Algorithmus funktioniert wie folgt:
1. Starten mit einem beliebigen Punkt in Ihrem set, der bisher nicht besucht haben, noch
2. Abrufen Punkte aus dem epsilon Nachbarschaft markieren Sie alle besucht
  1. wenn Sie gefunden haben, genug Punkte in diesem Viertel (> minpoints parameter) starten Sie einen neuen cluster und weisen Sie diese Punkte. Jetzt recurse in Schritt 2 wieder für jeden Punkt in diesem cluster.
  2. wenn Sie noch nicht besitzen, erklären diesen Punkt als Rauschen
3. gehen alle immer wieder, bis Sie besucht haben, alle Punkte
Es ist wirklich einfach umzusetzen und es gibt viele frameworks, die Unterstützung dieser Algorithmus bereits. Zu finden, den Mittelwert des Clusters sind, können Sie nehmen Sie einfach der Mittelwert aller zugeordneten Punkte aus Ihrer Nachbarschaft.

Jedoch, im Gegensatz zu der Methode, die @TylerDurden schlägt vor, dies braucht eine Parametrisierung - also müssen Sie etwas finden, von hand gestimmt Parameter passend zu Ihrem problem.

In Ihrem Fall können Sie versuchen die minpoints zu 10% eurer gesamten Punkte, wenn das Flugzeug wird voraussichtlich bleiben 10% der Zeit, die Sie verfolgen auf einem Flughafen. Die Dichte-parameter epsilon, hängt von der Auflösung Ihres geografischen sensor und die Distanz-Metrik, die Sie verwenden - ich würde vorschlagen, die haversine Entfernung für geographische Daten.
- Das ist cool. Macht Sinn. So etwas wie: $epsilon = 10; foreach($geoCodeArray als $geocode) { $count = neighborsWithin($epsilon,$geocode); } // Sortieren durch geocode, count DESC. Nicht schlecht.
- Eigentlich einfach nur Dichte-Schätzung macht mehr Sinn als hier DBSCAN. Denn er will eigentlich gar keine cluster, finde aber die Dichte maximal nur. Und KDE ist ein bisschen cleverer als die ad-hoc-Dichte-Schätzung DBSCAN verwendet.
InformationsquelleAutor Thomas Jungblut
3

Wie etwa teilen Sie die Karte in viele Zonen und dann finden Sie die Mitte der Ebene, in der zone mit den meisten Flugzeug. Der Algorithmus wird so etwas wie dieses
```
Satz die Zonen[40] 
foreach Flugzeug in Flugzeugen 
Zonen[GetZone(Flugzeug.position)].Add(Flugzeug) 

Satz MaxZone = Zonen[0] 
foreach - Zone in Zonen 
wenn MaxZone.Length() < - Zone.Länge() 
MaxZone = Zone 

Satz Center 
foreach Flugzeug in MaxZone 
Center.X += Flugzeug.X 
Center.Y += Flugzeug.Y 
Center.X /= MaxZone.Länge 
Center.Y /= MaxZone.Länge 
```
- was ist, wenn der Ort, den wir suchen, ist genau dort, wo die Ecken von vier Zonen zu treffen?
- +1 für den Algorithmus. @WalterTross könnten Sie eine variable Größe-Gitter oder noch einfacher: führen Sie den gleichen code wie oben, aber mit Startpunkt in X/Y sagen, dass 1/10tel des Platzes. Speichern Sie alle dichten in eine Liste, dann finden Sie die maximale und abrufen der position X, Y.
InformationsquelleAutor invisal

Alle, die ich auf dieser Maschine ist ein Alter compiler, also machte ich eine ASCII-version von diesem. Es "zieht" (in ASCII) eine Karte - Punkte sind Punkte, X ist, wo die wirkliche Quelle ist, G ist, wo die vermutete Quelle ist. Wenn die beiden sich überschneiden, nur X angezeigt.

Beispiele (SCHWIERIGKEIT 1,5 und 3 entsprechend):
Wie finde ich die Mitte aus einem cluster von Daten-Punkten?

Die Punkte erzeugt werden, durch die Auswahl von einem zufälligen Punkt als Quelle, dann nach dem Zufallsprinzip verteilen Punkte, so dass Sie eher näher an der Quelle.

DIFFICULTY ist eine floating-point-Konstanten regelt, dass der Ausgangspunkt generation - wie viel eher die Punkte, um näher an die Quelle - wenn es 1 oder weniger, das Programm sollte in der Lage sein, zu erraten, die genaue Quelle, oder ganz in der Nähe. Bei 2,5, sollte es immer noch ziemlich anständig. Bei 4+, wird es beginnen, zu erraten, noch schlimmer, aber ich denke, dass es immer noch Vermutungen besser als ein Mensch.

Könnte es sein, optimiert durch die Verwendung von binären Suche über die X -, dann Y - dies würde die Vermutung schlimmer, wäre aber viel, viel schneller. Oder beginnen Sie mit größeren Blöcken, dann die Spaltung der beste block weiter (oder der beste block und die 8 umgebenden). Für eine höhere Auflösung-system, für die diese erforderlich wären. Dies ist ein ziemlich naiver Ansatz, obwohl, aber es scheint zu funktionieren gut in einem 80x24-system. 😀

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <math.h>

#define Y 24
#define X 80

#define DIFFICULTY 1 //Try different values... 

static int point[Y][X];

double dist(int x1, int y1, int x2, int y2)
{
    return sqrt((y1 - y2)*(y1 - y2) + (x1 - x2)*(x1 - x2));
}

main()
{
    srand(time(0));
    int y = rand()%Y;
    int x = rand()%X;

    //Generate points
    for (int i = 0; i < Y; i++)
    {
        for (int j = 0; j < X; j++)
        {
            double u = DIFFICULTY * pow(dist(x, y, j, i), 1.0 /DIFFICULTY);
            if ((int)u == 0)
                u = 1;
            point[i][j] = !(rand()%(int)u);
        }
    }

    //Find best source
    int maxX = -1;
    int maxY = -1;
    double maxScore = -1;
    for (int cy = 0; cy < Y; cy++)
    {
        for (int cx = 0; cx < X; cx++)
        {
            double score = 0;
            for (int i = 0; i < Y; i++)
            {
                for (int j = 0; j < X; j++)
                {
                    if (point[i][j] == 1)
                    {
                        double d = dist(cx, cy, j, i);
                        if (d == 0)
                            d = 0.5;
                        score += 1000 /d;
                    }
                }
            }
            if (score > maxScore || maxScore == -1)
            {
                maxScore = score;
                maxX = cx;
                maxY = cy;
            }
        }
    }

    //Print out results
    for (int i = 0; i < Y; i++)
    {
        for (int j = 0; j < X; j++)
        {
            if (i == y && j == x)
                printf("X");
            else if (i == maxY && j == maxX)
                printf("G");            
            else if (point[i][j] == 0)
                printf(" ");
            else if (point[i][j] == 1)
                printf(".");
        }
    }
    printf("Distance from real source: %f", dist(maxX, maxY, x, y));

    scanf("%d", 0);

}

InformationsquelleAutor svinja

1

Virtual earth hat eine sehr gute Erklärung, wie kann man es relativ schnell. Sie haben auch code-Beispiele. Bitte haben Sie einen Blick auf http://soulsolutions.com.au/Articles/ClusteringVirtualEarthPart1.aspx
- Es ist eigentlich eine solide code unter diesem link. Danke. Es wird einige Zeit dauern, um durch zu gehen und zu testen, aber ich Schätze die Hilfe.
InformationsquelleAutor Mukul Joshi

Einer einfachen Mischung aus Modell scheint zu funktionieren ziemlich gut für dieses problem.

Im Allgemeinen, um einen Punkt minimiert, dass der Abstand zu allen anderen Punkten in einem Datensatz, können Sie einfach den Mittelwert. In diesem Fall, werden Sie wollen, um einen Punkt zu finden, minimiert die Distanz von a Teilmenge der Punkte konzentriert. Wenn Sie postulieren, dass ein Punkt kommen entweder aus der konzentrierten Menge der Punkte von Interesse oder aus einer diffusen Satz von hintergrund-Punkte, dann ergibt dies eine Mischung Modell.

Ich habe einige python-code unten. Die konzentrierten Bereich wird modelliert, indem eine hoch-Präzisions-normal-Verteilung und der hintergrund Punkt modelliert werden, indem entweder eine niedrige Genauigkeit Normalverteilung oder eine Gleichverteilung über eine bounding-box, die auf den Datensatz (es ist eine code-Zeile, die auskommentiert werden können, um wechseln Sie zwischen diesen Optionen). Auch, Mischung Modelle können etwas instabil, so läuft der EM-Algorithmus ein paar mal mit zufälligen Anfangsbedingungen und die Wahl der Lauf mit dem höchsten log-likelihood bessere Ergebnisse liefert.

Wenn Sie eigentlich auf der Suche bei Flugzeugen, dann hinzufügen irgendeine Art von zeitabhängigen Dynamik wird wahrscheinlich verbessern Sie Ihre Fähigkeit zu schließen, die home base immens.

Ich würde auch vorsichtig sein, Rossimo Formel, denn es enthält einige ziemlich starke Annahmen über Kriminalität-Distributionen.

#the dataset
sdata='''41.892694,-87.670898
42.056048,-88.000488
41.941744,-88.000488
42.072361,-88.209229
42.091933,-87.982635
42.149994,-88.133698
42.171371,-88.286133
42.23241,-88.305359
42.196811,-88.099365
42.189689,-88.188629
42.17646,-88.173523
42.180531,-88.209229
42.18168,-88.187943
42.185496,-88.166656
42.170485,-88.150864
42.150634,-88.140564
42.156743,-88.123741
42.118555,-88.105545
42.121356,-88.112755
42.115499,-88.102112
42.119319,-88.112411
42.118046,-88.110695
42.117791,-88.109322
42.182189,-88.182449
42.194145,-88.183823
42.189057,-88.196182
42.186513,-88.200645
42.180917,-88.197899
42.178881,-88.192062
41.881656,-87.6297
41.875521,-87.6297
41.87872,-87.636566
41.872073,-87.62661
41.868239,-87.634506
41.86875,-87.624893
41.883065,-87.62352
41.881021,-87.619743
41.879998,-87.620087
41.8915,-87.633476
41.875163,-87.620773
41.879125,-87.62558
41.862763,-87.608757
41.858672,-87.607899
41.865192,-87.615795
41.87005,-87.62043
42.073061,-87.973022
42.317241,-88.187256
42.272546,-88.088379
42.244086,-87.890625
42.044512,-88.28064
39.754977,-86.154785
39.754977,-89.648437
41.043369,-85.12207
43.050074,-89.406738
43.082179,-87.912598
42.7281,-84.572754
39.974226,-83.056641
38.888093,-77.01416
39.923692,-75.168457
40.794318,-73.959961
40.877439,-73.146973
40.611086,-73.740234
40.627764,-73.234863
41.784881,-71.367187
42.371988,-70.993652
35.224587,-80.793457
36.753465,-76.069336
39.263361,-76.530762
25.737127,-80.222168
26.644083,-81.958008
30.50223,-87.275391
29.436309,-98.525391
30.217839,-97.844238
29.742023,-95.361328
31.500409,-97.163086
32.691688,-96.877441
32.691688,-97.404785
35.095754,-106.655273
33.425138,-112.104492
32.873244,-117.114258
33.973545,-118.256836
33.681497,-117.905273
33.622982,-117.734985
33.741828,-118.092041
33.64585,-117.861328
33.700707,-118.015137
33.801189,-118.251343
33.513132,-117.740479
32.777244,-117.235107
32.707939,-117.158203
32.703317,-117.268066
32.610821,-117.075806
34.419726,-119.701538
37.750358,-122.431641
37.50673,-122.387695
37.174817,-121.904297
37.157307,-122.321777
37.271492,-122.033386
37.435238,-122.217407
37.687794,-122.415161
37.542025,-122.299805
37.609506,-122.398682
37.544203,-122.0224
37.422151,-122.13501
37.395971,-122.080078
45.485651,-122.739258
47.719463,-122.255859
47.303913,-122.607422
45.176713,-122.167969
39.566,-104.985352
39.124201,-94.614258
35.454518,-97.426758
38.473482,-90.175781
45.021612,-93.251953
42.417881,-83.056641
41.371141,-81.782227
33.791132,-84.331055
30.252543,-90.439453
37.421248,-122.174835
37.47794,-122.181702
37.510628,-122.254486
37.56943,-122.346497
37.593373,-122.384949
37.620571,-122.489319
36.984249,-122.03064
36.553017,-121.893311
36.654442,-121.772461
36.482381,-121.876831
36.15042,-121.651611
36.274518,-121.838379
37.817717,-119.569702
39.31657,-120.140991
38.933041,-119.992676
39.13785,-119.778442
39.108019,-120.239868
38.586082,-121.503296
38.723354,-121.289062
37.878444,-119.437866
37.782994,-119.470825
37.973771,-119.685059
39.001377,-120.17395
40.709076,-73.948975
40.846346,-73.861084
40.780452,-73.959961
40.778829,-73.958931
40.78372,-73.966012
40.783688,-73.965325
40.783692,-73.965615
40.783675,-73.965741
40.783835,-73.965873
'''

import StringIO
import numpy as np
import re

import matplotlib.pyplot as plt

def lp(l):
    return map(lambda m: float(m.group()),re.finditer('[^, \n]+',l))

data=np.array(map(lp,StringIO.StringIO(sdata)))

xmn=np.min(data[:,0])
xmx=np.max(data[:,0])
ymn=np.min(data[:,1])
ymx=np.max(data[:,1])

# area of the point set bounding box
area=(xmx-xmn)*(ymx-ymn)

M_ITER=100 #maximum number of iterations
THRESH=1e-10 # stopping threshold

def em(x):
    print '\nSTART EM'
    mlst=[]

    mu0=np.mean( data , 0 ) # the sample mean of the data - use this as the mean of the low-precision gaussian

    # the mean of the high-precision Gaussian - this is what we are looking for
    mu=np.random.rand( 2 )*np.array([xmx-xmn,ymx-ymn])+np.array([xmn,ymn])

    lam_lo=.001  # precision of the low-precision Gaussian
    lam_hi=.1 # precision of the high-precision Gaussian
    prz=np.random.rand( 1 ) # probability of choosing the high-precision Gaussian mixture component

    for i in xrange(M_ITER):
        mlst.append(mu[:])

        l_hi=np.log(prz)+np.log(lam_hi)-.5*lam_hi*np.sum((x-mu)**2,1)
        #low-precision normal background distribution
        l_lo=np.log(1.0-prz)+np.log(lam_lo)-.5*lam_lo*np.sum((x-mu0)**2,1)
        #uncomment for the uniform background distribution
        #l_lo=np.log(1.0-prz)-np.log(area)

        #expectation step
        zs=1.0/(1.0+np.exp(l_lo-l_hi))

        #compute bound on the likelihood 
        lh=np.sum(zs*l_hi+(1.0-zs)*l_lo)
        print i,lh

        #maximization step
        mu=np.sum(zs[:,None]*x,0)/np.sum(zs) #mean
        lam_hi=np.sum(zs)/np.sum(zs*.5*np.sum((x-mu)**2,1)) #precision
        prz=1.0/(1.0+np.sum(1.0-zs)/np.sum(zs)) #mixure component probability

        try:
            if np.abs((lh-old_lh)/lh)<THRESH:
                break
        except: 
            pass

        old_lh=lh

        mlst.append(mu[:])

    return lh,lam_hi,mlst    

if __name__=='__main__':

    #repeat the EM algorithm a number of times and get the run with the best log likelihood
    mx_prm=em(data)
    for i in xrange(4):
        prm=em(data)

        if prm[0]>mx_prm[0]:
            mx_prm=prm

        print prm[0]
        print mx_prm[0]

    lh,lam_hi,mlst=mx_prm
    mu=mlst[-1]

    print 'best loglikelihood:', lh
    #print 'final precision value:', lam_hi
    print 'point of interest:', mu
    plt.plot(data[:,0],data[:,1],'.b')

    for m in mlst:
        plt.plot(m[0],m[1],'xr')

    plt.show()

InformationsquelleAutor user1149913

1

Können Sie leicht anpassen, Rossmo-Formel, zitiert nach Tyler Durden, um Ihren Fall mit paar einfache Hinweise:

Die Formel :

Diese Formel geben, die so etwas wie eine Wahrscheinlichkeit des Vorhandenseins der Basis-operation für ein raubtier oder ein Serienkiller ist. In Ihrem Fall könnte es geben, die Wahrscheinlichkeit einer base in einem bestimmten Punkt. Ich werde später erklären, wie es zu benutzen. U können, schreiben Sie es auf diese Weise :

Proba(Basis auf Punkt A)= Sum{auf allen Flecken} ( Phi/(dist^f)+(1-Phi)(B*(g-f))/(2B-dist)^g )

Mit euklidische Distanz

Möchten Sie zu einem euklidischen Abstand und nicht die Manhattan ein, weil ein Flugzeug oder Hubschrauber ist nicht gebunden an die Straße/Straßen. So verwenden euklidische Abstand ist der richtige Weg, wenn Sie tracking ein Flugzeug & nicht ein Serienmörder. So "dist" in der Formel ist der euklidische Abstand zwischen dem Punkt ur das testen und die Stelle, als

Angemessene variable B

Variable B wurde zur Darstellung der Regel "halbwegs intelligenten killer nicht seinen Nachbar töten". In Ihrem Fall wird ebenfalls angewendet werden, weil niemand Sie benutzen ein Flugzeug/roflcopter zu bekommen, um die nächste Straßenecke. wir können annehmen, dass die minimale Reise ist zum Beispiel 10 km oder etwas sinnvolles, wenn Sie angewendet werden, um Ihren Fall.

Exponentielle Faktor f

Faktor f wird verwendet, um ein Gewicht auf die Entfernung. Zum Beispiel, wenn alle die spots sind in einem kleinen Bereich, der Sie wollen könnte ein großer Faktor f, weil die Wahrscheinlichkeit des airport/base/HQ abnehmen wird schnell, wenn alle Ihre Datenpunkt sind in der gleichen Branche. g arbeitet in einer ähnlichen Weise, zu ermöglichen, wählen Sie die Größe der "Basis ist unwahrscheinlich, dass direkt neben dem spot" - Bereich

Faktor Phi :

Wieder dieser Faktor festgelegt werden, mit Ihrem wissen von dem problem. Es ermöglicht zu wählen, die möglichst genaue Faktor zwischen "Basis ist in der Nähe spots" und "ich werde nicht verwenden Sie die Ebene, um 5 m", beispielsweise, wenn u denken, dass der zweite fast spielen keine Rolle Sie können Phi 0,95 (0<Phi<1) Wenn beide interessant sind phi wird etwa 0,5

, Wie es zu implementieren als etwas nützliches :

Ersten, die Sie teilen möchten, Ihre Karte in kleine Quadrate unterteilt wird : Vernetzung der Karte ( genau wie invisal habe) (je kleiner die Quadrate ,desto genauer das Ergebnis (in general)), dann mit Hilfe der Formel zu finden, die mehr wahrscheinliche Lage. In der Tat, das Netz ist nur ein array mit allen möglichen Orten. (wenn u wollen, um genau zu sein erhöhen Sie die Anzahl der möglichen stellen, aber es erfordert mehr Rechenzeit und PhP ist nicht bekannt für seine erstaunliche Geschwindigkeit)

Algorithmus :
```
//define all the factors you need(B , f , g , phi)

for(i=0..mesh_size) //computing the probability of presence for each square of the mesh
{
  P(i)=0;
  geocode squarePosition;//GeoCode of the square's center 
  for(j=0..geocodearray_size)//sum on all the known spots
  {
     dist=Distance(geocodearray[j],squarePosition);//small function returning distance between two geocodes

         P(i)+=(Phi/pow(dist,f))+(1-Phi)*pow(B,g-f)/pow(2B-dist,g);
  }
 }

return geocode corresponding to max(P(i))
```
Hoffe, dass es Ihnen helfen

InformationsquelleAutor Azhrilla
1

Zuerst möchte ich sagen, dass ich mit Vorliebe deine Methode illustrieren und erklären das problem ..

Wenn ich in deinen Schuhen wäre, würde ich gehen für einen Dichte-basierter Algorithmus wie DBSCAN
und dann nach der Clusterbildung werden die Gebiete und die Beseitigung der Lärm Punkte wenige Bereiche (Auswahl) bleiben .. dann werde ich den cluster mit der höchsten Dichte der Punkte und Berechnung der durchschnittlichen Punkt und finden Sie die nächste wirkliche Punkt zu . getan, den Platz gefunden! :).

Grüße,
- Danke. Ich habe nicht bekommen, um an der übersetzung des DBSCAN-Ansatz in ein php-script testen auf meinem Datensätze noch, aber ich werde um es zu bekommen.
- sagen Sie mir, wie es geht 🙂
InformationsquelleAutor CME64
0

Warum nicht so etwas wie dieses:
- Für jeden Punkt berechnen, der im Abstand von alle anderen Punkte und die Summe der insgesamt.
- Der Punkt mit der kleinsten Summe ist Ihr Zentrum.
Summe vielleicht nicht die beste Metrik zu verwenden. Möglicherweise ist der Punkt mit den meisten "kleinen Strecken"?
- Was ist der "Punkt mit dem kleinsten Punkt"? Das macht keinen Sinn.
- sorry Tippfehler, ist jetzt behoben. aber ich bin immer noch der Betrachtung, wie gut das funktionieren wird.
- Das problem mit diesem ist, dass es nicht identifizieren Zentrum, es kennzeichnet die Stelle, die am nächsten an das Zentrum der Schwerkraft aller Punkte, aber das problem ist, dass der Schwerpunkt der Punkte kann nicht in der Nähe des eigentlichen Basis. Zum Beispiel, wenn Sie verwenden Sie Ihren Algorithmus auf die Punkte gezeigt, in der post, es wird Ergebnis in einem der Punkte in Iowa gewählt wird,--eine völlig falsche Antwort.
- Das problem hier ist, dass Sie denken, dass der Schwerpunkt der Punkte ist die Basis der predator, aber das ist nicht wahr. Die predator ' s motion ist nicht symmetrisch zu seiner Basis wird aber längere Strecken gehen in bestimmte Richtungen.
- Sobald Sie den Punkt am nächsten an der Mitte, können Sie das gleiche tun (für einige Bereich um diesen Punkt) für alle Sektor-Punkt-Strecken.
InformationsquelleAutor Drew Khoury
0

Summe über die Distanzen. Nehmen Sie den Punkt mit der kleinsten summiert Entfernung.
```
function () {
    for i in points P:
        S[i] = 0
        for j in points P:
            S[i] += distance(P[i], P[j])
    return min(S);
}
```
- Sobald Sie den Punkt am nächsten an der Mitte, können Sie das gleiche tun (für einige Bereich um diesen Punkt) für alle Sektor-Punkt-Strecken.
- Diese Funktion sah gut aus für mehrere Daten-sets, aber leider erwies sich als nicht praktikabel, wenn die Daten-Cluster in Ost und west mit ein paar Punkten in der Mitte. In diesem Fall wird die Mitte bevorzugt wurde, obwohl es eindeutig nicht "nach Hause". Ähnlich wie @Tyler-Durden ' s Kommentar oben auf DrewKhoury Antwort. Danke.
- Ich sehe, was du meinst.
- Ich denke, en.wikipedia.org/wiki/Hierarchical_clustering könnte das sein, was du suchst.
- Ich werde später hinzufügen hierarchische clustering jsfiddle.net/sd2sM/3
- Auch dies ist schön für die Visualisierung: darrinward.com/lat-long
- Nice work auf der Geige! Wenn Sie Zeit haben, würde ich lieben, mehr zu lernen über Ihre hierarchische clustering-Strategie.
InformationsquelleAutor jgroenen
0

Können Sie einen minimum spanning tree zu entfernen und den längsten Kanten. Die kleineren Bäume geben Sie die centeroid nachschlagen. Der name des Algorithmus single-link-k-clustering. Es gibt einen Beitrag hier: https://stats.stackexchange.com/questions/1475/visualization-software-for-clustering.
- Können Sie das klären, ein bisschen mehr? Zum Beispiel, wie findest du das "minimum spanning tree"? Ist dies nur ein weiterer Weg, zu sagen, der Punkt mit dem minimalen Abstand zu allen anderen Punkten? Zum Beispiel die "minimum spanning tree" eine Karte mit 100 Punkten in Kalifornien und 100 Punkte in New York und 1 Punkt in Iowa würde die Ausbeute der Punkt in Iowa, wie die MST?
- Ein minimum spanning tree ist ein Baum, der datastucture. Denken Sie an ein Wasser-oder Stromnetz einer Stadt. Die verbundenen vertices werden minimiert. Zu entfernen, wenn lange Kanten aus dem Baum, es gibt Sie kleinere Bäume.
InformationsquelleAutor Gigamegs

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.