Gleichheit in Pandas DataFrames - Reihenfolge der Spalten?

Als Teil eines unit-test, brauche ich zum testen zwei DataFrames für die Gleichstellung. Die Reihenfolge der Spalten in der DataFrames ist mir nicht wichtig. Allerdings scheint es egal zu Pandas:

import pandas
df1 = pandas.DataFrame(index = [1,2,3,4])
df2 = pandas.DataFrame(index = [1,2,3,4])
df1['A'] = [1,2,3,4]
df1['B'] = [2,3,4,5]
df2['B'] = [2,3,4,5]
df2['A'] = [1,2,3,4]
df1 == df2

Ergebnisse in:

Exception: Can only compare identically-labeled DataFrame objects

Ich glaube, der Ausdruck df1 == df2 bewerten sollte, um ein DataFrame mit allen True Werte. Natürlich ist es fraglich, was die korrekte Funktionalität der == werden sollte in diesem Kontext. Meine Frage ist: gibt es Pandas Methode, die das tut, was ich will? Das heißt, gibt es eine Möglichkeit zu tun, der Geschlechter-Vergleich ignoriert, dass die Reihenfolge der Spalten?

Kommentar zu dem Problem

Sie können erzwingen, dass die Spalten identisch sein mit diesem: df1 == df2.reindex(Spalten=df1.Spalten) Kommentarautor: Zelazny7

@Zelazny7 eigentlich, dass es nicht immer tun Sie es, wenn z.B. df2 hat zusätzliche Spalten df1. Kommentarautor: Andy Hayden

InformationsquelleAutor der Frage jcrudy | 2013-01-08

pandas python

8

So Sortieren Sie die Spalten mit Sortieren:
```
df1.sort(axis=1) == df2.sort(axis=1)
```
Diese auswerten und zu einem dataframe alle True Werte.

Als @osa Kommentare diesem Auftritt NaN ' s und ist nicht besonders robust, üben Sie etwas, das ähnlich wie @quant Antwort ist wahrscheinlich empfohlen (Hinweis: wir möchten ein boolescher Wert, anstatt zu erhöhen, wenn es ein Problem):
```
def my_equal(df1, df2):
    from pandas.util.testing import assert_frame_equal
    try:
        assert_frame_equal(df1.sort(axis=1), df2.sort(axis=1), check_names=True)
        return True
    except (AssertionError, ValueError, TypeError):  perhaps something else?
        return False
```
InformationsquelleAutor der Antwort Andy Hayden

Die häufigste Vorsatz ist behandelt wie diese:

def assertFrameEqual(df1, df2, **kwds ):
    """ Assert that two dataframes are equal, ignoring ordering of columns"""
    from pandas.util.testing import assert_frame_equal
    return assert_frame_equal(df1.sort_index(axis=1), df2.sort_index(axis=1), check_names=True, **kwds )

Natürlich sehen pandas.util.testing.assert_frame_equal für die anderen Parameter, die Sie übergeben können,

InformationsquelleAutor der Antwort Quant

def equal( df1, df2 ):
    """ Check if two DataFrames are equal, ignoring nans """
    return df1.fillna(1).sort(axis=1).eq(df2.fillna(1).sort(axis=1)).all().all()

InformationsquelleAutor der Antwort Quant

2

In der Regel Sie gehen zu wollen, schnelle tests und die Sortierung kann Brutal ineffizient für größere Indizes (wie, wenn Sie wurden mit Zeilen statt Spalten für dieses problem). Die sort-Methode ist auch anfällig für falsch-negative Befunde auf nicht-eindeutige Indizes.

Glücklicherweise pandas.util.testing.assert_frame_equal hat seit aktualisiert wurde, mit einem check_like option. Setzen Sie dies auf true, und die Bestellung wird nicht berücksichtigt in der Prüfung.

Mit nicht eindeutigen Indizes, erhalten Sie die kryptische ValueError: cannot reindex from a duplicate axis. Dies ist die durch das unter-die-Haube reindex_like Betrieb, ordnet man der DataFrames zu entsprechen, die andere um. Reindexing ist viel schneller als das Sortieren, wie gezeigt, unten.
```
import pandas as pd
from pandas.util.testing import assert_frame_equal

df  = pd.DataFrame(np.arange(1e6))
df1 = df.sample(frac=1, random_state=42)
df2 = df.sample(frac=1, random_state=43)

%timeit -n 1 -r 5 assert_frame_equal(df1.sort_index(), df2.sort_index())
## 5.73 s ± 329 ms per loop (mean ± std. dev. of 5 runs, 1 loop each)

%timeit -n 1 -r 5 assert_frame_equal(df1, df2, check_like=True)
## 1.04 s ± 237 ms per loop (mean ± std. dev. of 5 runs, 1 loop each)
```
Für diejenigen, die genießen einen guten performance-Vergleich plot:

Reindexing vs Sortierung auf int und str Indizes (str noch drastischer)

InformationsquelleAutor der Antwort Murray Lynch

Sortier-Spalte funktioniert nur, wenn die Zeilen-und Spaltenbeschriftungen match über die Bilder. Sagen, Sie haben 2 dataframes mit identischen Werten in Zellen, sondern mit verschiedenen labels,dann die Art der Lösung wird nicht funktionieren. Ich lief in diesem Szenario bei der Umsetzung des k-modes-clustering mit pandas.

Bekam ich um es mit einem einfachen gleich-Funktion zu prüfen, Zelle Gleichheit(code unten)

def frames_equal(df1,df2) :
    if not isinstance(df1,DataFrame) or not isinstance(df2,DataFrame) :
        raise Exception(
            "dataframes should be an instance of pandas.DataFrame")

    if df1.shape != df2.shape:
        return False

    num_rows,num_cols = df1.shape
    for i in range(num_rows):
       match = sum(df1.iloc[i] == df2.iloc[i])
       if match != num_cols :
          return False
   return True

InformationsquelleAutor der Antwort Srijith Sreedharan

1

haben Sie versucht, mit df1.equals(df2)? ich denke, es ist mehr zuverlässig, dass df1==df2, aber ich bin mir nicht sicher, ob es der Lösung Ihrer Probleme mit Spalte um.

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.equals.html

InformationsquelleAutor der Antwort ccook5760

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.