Festlegen der Werte auf der diagonalen der pandas.DataFrame

Habe ich ein pandas dataframe ich möchte se der diagonalen zu 0

import numpy
import pandas

df = pandas.DataFrame(numpy.random.rand(5,5))
df

Out[6]:
     0           1           2           3               4
0    0.536596    0.674319    0.032815    0.908086    0.215334
1    0.735022    0.954506    0.889162    0.711610    0.415118
2    0.119985    0.979056    0.901891    0.687829    0.947549
3    0.186921    0.899178    0.296294    0.521104    0.638924
4    0.354053    0.060022    0.275224    0.635054    0.075738
5 rows × 5 columns

nun möchte ich um die Diagonale zu 0:

for i in range(len(df.index)):
    for j in range(len(df.columns)):
        if i==j:
            df.loc[i,j] = 0
df
Out[9]:
     0           1           2           3           4
0    0.000000    0.674319    0.032815    0.908086    0.215334
1    0.735022    0.000000    0.889162    0.711610    0.415118
2    0.119985    0.979056    0.000000    0.687829    0.947549
3    0.186921    0.899178    0.296294    0.000000    0.638924
4    0.354053    0.060022    0.275224    0.635054    0.000000
5 rows × 5 columns

aber es muss doch eine mehr pythonic way als das!?

InformationsquelleAutor Tim | 2014-06-29

44
```
In [21]: df.values[[np.arange(df.shape[0])]*2] = 0

In [22]: df
Out[22]: 
          0         1         2         3         4
0  0.000000  0.931374  0.604412  0.863842  0.280339
1  0.531528  0.000000  0.641094  0.204686  0.997020
2  0.137725  0.037867  0.000000  0.983432  0.458053
3  0.594542  0.943542  0.826738  0.000000  0.753240
4  0.357736  0.689262  0.014773  0.446046  0.000000
```
Beachten Sie, dass dies nur funktioniert, wenn df hat die gleiche Anzahl von Zeilen wie Spalten. Einen anderen Weg, der funktioniert für beliebige Formen ist die Verwendung np.fill_diagonal:
```
In [36]: np.fill_diagonal(df.values, 0)
```
- Diese Lösung funktioniert für mich mit der vorgeschlagenen Spielzeug-Daten, versäumt es aber mit meinen eigenen größeren matrix.
- Eine nette Sache über np.fill_diagonal ist, dass es in jeder DataFrame oder die matrix können Sie in den Arbeitsspeicher passen, ohne mehr Speicher. Die "fill" arbeiten geschehen effizient "im Ort" in Erinnerung und lassen die index und columns und andere Attribute des DataFrame intakt.
InformationsquelleAutor unutbu
3

Beide Ansätze in unutbu Antwort davon ausgehen, dass die Bezeichnungen irrelevant sind (Sie arbeiten nach dem zugrunde liegenden Werte).

Den OP-code funktioniert mit .loc und so ist der label-Basis statt (d.h. setzen Sie eine 0 an Zellen in der Zeile-Spalte mit gleichen Beschriftungen, anstatt in den Zellen befindet sich auf der diagonal - zugegeben, das ist irrelevant in dem spezifischen Beispiel gegeben, in denen Etiketten sind nur Positionen).

Benötigen Sie das "label-based" Diagonale Füllung (arbeiten mit einem DataFrame beschreiben eine unvollständige Nachbarschaft-matrix), ist der einfachste Ansatz, ich könnte kommen mit war:
```
def pd_fill_diagonal(df, value):
    idces = df.index.intersection(df.columns)
    stacked = df.stack(dropna=False)
    stacked.update(pd.Series(value,
                             index=pd.MultiIndex.from_arrays([idces,
                                                              idces])))
    df.loc[:, :] = stacked.unstack()
```
InformationsquelleAutor Pietro Battiston
1

Diese Lösung ist vektorisiert und sehr schnell, und wenn die andere vorgeschlagene Lösung funktioniert für jede Spalte die Namen und die Größe der matrix df.
```
def pd_fill_diagonal(df_matrix, value=0): 
    mat = df_matrix.values
    n = mat.shape[0]
    mat[range(n), range(n)] = value
    return pd.DataFrame(mat)
```
Leistung auf Dataframe 507 Spalten und Zeilen
```
% timeit pd_fill_diagonal(df, 0)
```
1000 loops, best of 3: 145 µs pro Schleife

InformationsquelleAutor Philipp Schwarz

Hier ist ein hack für mich gearbeitet:

def set_diag(self, values): 
    n = min(len(self.index), len(self.columns))
    self.values[[np.arange(n)] * 2] = values
pd.DataFrame.set_diag = set_diag

x = pd.DataFrame(np.random.randn(10, 5))
x.set_diag(0)

Wie unterscheidet sich das von der numpy.fill_diagonal? Auch, hinzufügen von Feldern zu bestehenden Bibliothek-Datentypen ist nicht eine gute Sache zu beraten.

InformationsquelleAutor qed

0

Mit np.fill_diagonal(df.values, 1) Ist die einfachste, aber Sie müssen sicherstellen, dass Ihre Spalten, die alle denselben Datentyp haben, ich hatte eine Mischung aus np.float64 und python schwimmt und es würde nur den Effekt der numpy-Werte. zu beheben, müssen Sie zu werfen, alles zu numpy.

InformationsquelleAutor Andrew Louw

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.