Die meisten effizienten Art und Weise zu konstruieren-ähnlichkeit-matrix

Bin ich über die folgenden links, um eine "euklidische Ähnlichkeit Matrix" (die ich konvertieren, um ein DataFrame).
https://stats.stackexchange.com/questions/53068/euclidean-distance-score-and-similarity
http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.spatial.distance.euclidean.html

Den Weg, die ich mache es ist ein iterativer Ansatz, der funktioniert, aber es dauert eine Weile, wenn die Datensätze groß. Die pd-pandas.DataFrame.corr() ist wirklich schnell und hilfreich für pearson-Korrelationen.

Wie kann ich eine euklidische Ähnlichkeit Maßnahme w/o erschöpfend iteration?

Meine naive folgenden code:

#Euclidean Similarity

#Create DataFrame
DF_var = pd.DataFrame.from_dict({"s1":[1.2,3.4,10.2],"s2":[1.4,3.1,10.7],"s3":[2.1,3.7,11.3],"s4":[1.5,3.2,10.9]}).T
DF_var.columns = ["g1","g2","g3"]
#      g1   g2    g3
# s1  1.2  3.4  10.2
# s2  1.4  3.1  10.7
# s3  2.1  3.7  11.3
# s4  1.5  3.2  10.9

#Create empty matrix to fill
M_euclid = np.zeros((DF_var.shape[1],DF_var.shape[1]))

#Iterate through DataFrame columns to measure euclidean distance
for i in range(DF_var.shape[1]):
    u = DF_var[DF_var.columns[i]]
    for j in range(DF_var.shape[1]):
        v = DF_var[DF_var.columns[j]]
        #Euclidean distance -> Euclidean similarity
        M_euclid[i,j] = (1/(1+sp.spatial.distance.euclidean(u,v)))
DF_euclid = pd.DataFrame(M_euclid,columns=DF_var.columns,index=DF_var.columns)

#           g1        g2        g3
# g1  1.000000  0.215963  0.051408
# g2  0.215963  1.000000  0.063021
# g3  0.051408  0.063021  1.000000

InformationsquelleAutor O.rka | 2016-03-02

8

Gibt es zwei nützliche Funktion innerhalb scipy.spatial.distance, die Sie dafür benutzen können: pdist und squareform. Mit pdist geben Sie den paarweisen Abstand zwischen Beobachtungen, wie ein eindimensionales array, und squareform konvertiert diese zu einer Distanz-matrix.

Einem Haken ist, dass pdist verwendet distanzmaße von Standard-und nicht ähnlichkeit, also müssen Sie Sie manuell festlegen, Ihre ähnlichkeit-Funktion. Die Beurteilung durch die kommentierte Ausgabe in Ihren code, Ihre DataFrame ist auch nicht in der Orientierung pdist erwartet, also habe ich rückgängig gemacht, das transponieren, Sie haben in Ihrem code.
```
import pandas as pd
from scipy.spatial.distance import euclidean, pdist, squareform


def similarity_func(u, v):
    return 1/(1+euclidean(u,v))

DF_var = pd.DataFrame.from_dict({"s1":[1.2,3.4,10.2],"s2":[1.4,3.1,10.7],"s3":[2.1,3.7,11.3],"s4":[1.5,3.2,10.9]})
DF_var.index = ["g1","g2","g3"]

dists = pdist(DF_var, similarity_func)
DF_euclid = pd.DataFrame(squareform(dists), columns=DF_var.index, index=DF_var.index)
```
- Hey @root, vielen Dank für die Klarstellung der Verwendung von pdist und squareform! Warum ist die Diagonale matrix 0.0 nach der ähnlichkeit-Funktion?
- Hinweis! Die diagonal befestigt werden kann mit dem Kommentar in Kevins Antwort von @B. M.
InformationsquelleAutor root

Ich denke, Sie können einfach verwenden Sie pdist und squareform zur Ausstrahlung direkt auf Ihrem DataFrame:

from scipy.spatial.distance import pdist,squareform

In [6]: squareform(pdist(DF_var, metric='euclidean'))

Out[6]:
array([[ 0.        ,  0.6164414 ,  1.4525839 ,  0.78740079],
       [ 0.6164414 ,  0.        ,  1.1       ,  0.24494897],
       [ 1.4525839 ,  1.1       ,  0.        ,  0.87749644],
       [ 0.78740079,  0.24494897,  0.87749644,  0.        ]])

Transponieren ersten : In [247]: 1/(1+squareform(pdist(DF_var.T))) Aus[247]: array([[ 1. , 0.21596281, 0.05140761], [ 0.21596281, 1. , 0.06302091], [ 0.05140761, 0.06302091, 1. ]])

InformationsquelleAutor Kevin

1

Du willst scipy.spatial.distance.pdist oder sklearn.metrics.pairwise.pairwise_distances

InformationsquelleAutor maxymoo

Die einfachste Möglichkeit, die ich finden kann das gleiche Ergebnis zu erhalten wie der OP, ist die Verwendung distance_matrix, auch von scipy.Objektart. Die ganze Sache kann man in einer Art-von-langen Linie.

import numpy as np
import pandas as pd
from scipy.spatial import distance_matrix

# Original code from OP, slightly reformatted
DF_var = pd.DataFrame.from_dict({
    "s1":[1.2,3.4,10.2],
    "s2":[1.4,3.1,10.7],
    "s3":[2.1,3.7,11.3],
    "s4":[1.5,3.2,10.9]
}).T
DF_var.columns = ["g1","g2","g3"]

# Whole similarity algorithm in one line
df_euclid = pd.DataFrame(
    1 / (1 + distance_matrix(DF_var.T, DF_var.T)),
    columns=DF_var.columns, index=DF_var.columns
)

#           g1        g2        g3
# g1  1.000000  0.215963  0.051408
# g2  0.215963  1.000000  0.063021
# g3  0.051408  0.063021  1.000000

Den obigen code kopieren und einfügen, und führen Sie in die python-IDE.

InformationsquelleAutor mightypile

Dies ist, was ich getan habe:

from scipy.spatial.distance import euclidean

DF_var = pd.DataFrame.from_dict({"s1":[1.2,3.4,10.2],"s2":[1.4,3.1,10.7],"s3":[2.1,3.7,11.3],"s4":[1.5,3.2,10.9]}).T
DF_var.columns = ["g1","g2","g3"]

def m_euclid(v1, v2):
    return (1/(1 + euclidean(v1,v2)))

dist_list = []
for j1 in DF_var.columns:
    dist_list.append([m_euclid(DF_var[j1], DF_var[j2]) for j2 in DF_var.columns])

dist_matrix = pd.DataFrame(dist_list)

InformationsquelleAutor Ha Pham

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.