Effizient Berechnen der euklidischen Distanz-Matrix Mithilfe von Numpy

Habe ich eine Reihe von Punkten im 2-dimensionalen Raum und berechnen die Entfernung von jedem Punkt zu jedem anderen Punkt.

Ich habe eine relativ kleine Anzahl von Punkten, vielleicht bei maximal 100. Aber da ich brauche es oft und schnell, um zu bestimmen, die Beziehungen zwischen dieser beweglichen Punkte, und da ich bin mir bewusst, dass, Durchlaufen die Punkte werden konnte, so schlimm wie O(n^2) Komplexität, ich bin auf der Suche nach Möglichkeiten, um die Vorteile von numpy matrix-Magie (oder scipy).

So steht es in meinem code, die Koordinaten für jedes Objekt gespeichert, das in seiner Klasse. Allerdings konnte ich auch aktualisieren Sie Sie in ein numpy-array, wenn ich ein update der Klasse koordinieren.

class Cell(object):
    """Represents one object in the field."""
    def __init__(self,id,x=0,y=0):
        self.m_id = id
        self.m_x = x
        self.m_y = y

Fällt mir ein, erstellen Sie eine euklidische Distanz-matrix, um überschneidungen zu vermeiden, aber vielleicht haben Sie ein intelligenter Daten-Struktur.

Ich bin offen für Zeiger auf raffinierte algorithmen als auch.

Ich auch, beachten Sie, dass es ähnliche Fragen, die den euklidischen Abstand und numpy aber nicht finden, eine, die direkt auf diese Frage einzugehen effizient Auffüllen einer vollständigen Entfernung der matrix.

Hier, das könnte helfen: scipy.Objektart.Entfernung.pdist
Komplexität wird O(n^2) egal, was: das beste was Sie tun können für einen Allgemeinen Satz von Punkten ist die Berechnung n * (n - 1) / 2 Entfernungen, die ist immer noch O(n^2).
Beispiel?

InformationsquelleAutor Wes Modes | 2014-03-28

Können Sie die Vorteile der complex Typ :

# build a complex array of your cells
z = np.array([complex(c.m_x, c.m_y) for c in cells])

Erste Lösung

# mesh this array so that you will have all combinations
m, n = np.meshgrid(z, z)
# get the distance via the norm
out = abs(m-n)

Zweite Lösung

Vernetzen, ist die wichtigste Idee. Aber numpy ist clever, so dass Sie nicht haben, um zu generieren m & n. Nur berechnen Sie die Differenz mit einer Transponierten version von z. Das Netz wird automatisch erledigt :

out = abs(z[..., np.newaxis] - z)

Dritte Lösung

Und wenn z direkt als 2-dimensionales array verwenden, können Sie z.T statt dem komischen z[..., np.newaxis]. So endlich, Ihr code wird wie folgt Aussehen :

z = np.array([[complex(c.m_x, c.m_y) for c in cells]]) # notice the [[ ... ]]
out = abs(z.T-z)

Beispiel

>>> z = np.array([[0.+0.j, 2.+1.j, -1.+4.j]])
>>> abs(z.T-z)
array([[ 0.        ,  2.23606798,  4.12310563],
       [ 2.23606798,  0.        ,  4.24264069],
       [ 4.12310563,  4.24264069,  0.        ]])

Als Ergänzung, möchten Sie vielleicht, um Duplikate entfernen danach, unter dem oberen Dreieck :

>>> np.triu(out)
array([[ 0.        ,  2.23606798,  4.12310563],
       [ 0.        ,  0.        ,  4.24264069],
       [ 0.        ,  0.        ,  0.        ]])

Einige benchmarks

>>> timeit.timeit('abs(z.T-z)', setup='import numpy as np;z = np.array([[0.+0.j, 2.+1.j, -1.+4.j]])')
4.645645342274779
>>> timeit.timeit('abs(z[..., np.newaxis] - z)', setup='import numpy as np;z = np.array([0.+0.j, 2.+1.j, -1.+4.j])')
5.049334864854522
>>> timeit.timeit('m, n = np.meshgrid(z, z); abs(m-n)', setup='import numpy as np;z = np.array([0.+0.j, 2.+1.j, -1.+4.j])')
22.489568296184686

Haben Sie jemals finden Sie die Entfernung? Wenn ja, hast du mich verloren. Wo ist denn das passiert?
Ich bearbeitet meine post deutlicher machen, lassen Sie mich wissen, wenn Sie immer noch verloren.
+1 sehr elegant

InformationsquelleAutor Kiwi

Hier ist, wie können Sie dies mithilfe von numpy:

import numpy as np

x = np.array([0,1,2])
y = np.array([2,4,6])

# take advantage of broadcasting, to make a 2dim array of diffs
dx = x[..., np.newaxis] - x[np.newaxis, ...]
dy = y[..., np.newaxis] - y[np.newaxis, ...]
dx
=> array([[ 0, -1, -2],
          [ 1,  0, -1],
          [ 2,  1,  0]])

# stack in one array, to speed up calculations
d = np.array([dx,dy])
d.shape
=> (2, 3, 3)

Nun alle übrig bleibt, ist der Berechnung der L2-norm, die entlang der 0-Achse (wie besprochen hier):

(d**2).sum(axis=0)**0.5
=> array([[ 0.        ,  2.23606798,  4.47213595],
          [ 2.23606798,  0.        ,  2.23606798],
          [ 4.47213595,  2.23606798,  0.        ]])

InformationsquelleAutor shx2

3

Wenn Sie nicht brauchen die volle Distanz-matrix, werden Sie besser dran, mit kd-Baum. Betrachten scipy.spatial.cKDTree oder sklearn.neighbors.KDTree. Dies ist, weil ein kd-Baum kan finden k-nearnest Nachbarn in O(n log n) Zeit, und daher vermeiden Sie die O(n**2) Komplexität der computing alle n von n Strecken.

InformationsquelleAutor Sturla Molden
0

Jake Vanderplas gibt dieses Beispiel mit Ausstrahlung in Python Data Science Handbook, die ist sehr ähnlich zu dem, was @shx2 vorgeschlagen.
```
import numpy as np
rand = random.RandomState(42)
X = rand.rand(3, 2)  
dist_sq = np.sum((X[:, np.newaxis, :] - X[np.newaxis, :, :]) ** 2, axis = -1)

dist_sq
array([[0.        , 0.18543317, 0.81602495],
       [0.18543317, 0.        , 0.22819282],
       [0.81602495, 0.22819282, 0.        ]])
```
scipy.Objektart.Entfernung.cdist ist schneller als diese, 9-mal in meinem test
schreiben Sie eine Antwort mit einem Aufruf %timeit, vielleicht für einen kleinen (10x10) und großen (1,000,000 x 1,000,000) Distanz-matrix. Das wäre wirklich nützliche Informationen für die Menschen!
ich kann nicht mit %timeit in meinem jupyter notebook, weil ich die online-Variante und es läuft von Speicher für arrays, die groß

InformationsquelleAutor Rich Pauloo

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.