Wie findet man doppelte Namen mit Pandas?

Ich habe eine pandas.DataFrame mit einer Spalte namens name mit strings.
Ich würde gerne eine Liste der Namen, die mehr als einmal vorkommen in der Spalte. Wie mache ich das?

Habe ich versucht:

funcs_groups = funcs.groupby(funcs.name)
funcs_groups[(funcs_groups.count().name>1)]

Aber nicht herausfiltern, die die singleton-Namen.

InformationsquelleAutor der Frage Yariv | 2013-03-06

Wenn Sie möchten, suchen Sie die Zeilen mit doppelten Namen (außer das erste mal, dass wir sehen, dass), können Sie versuchen, diese

In [16]: import pandas as pd
In [17]: p1 = {'name': 'willy', 'age': 10}
In [18]: p2 = {'name': 'willy', 'age': 11}
In [19]: p3 = {'name': 'zoe', 'age': 10}
In [20]: df = pd.DataFrame([p1, p2, p3])

In [21]: df
Out[21]: 
   age   name
0   10  willy
1   11  willy
2   10    zoe

In [22]: df.duplicated('name')
Out[22]: 
0    False
1     True
2    False

InformationsquelleAutor der Antwort waitingkuo

10

Einen one-liner können werden:
```
x.set_index('name').index.get_duplicates()
```
der index enthält eine Methode zum Auffinden von Duplikaten, Spalten, scheint nicht zu haben eine ähnliche Methode..

InformationsquelleAutor der Antwort idoda
5

value_counts geben Sie die Anzahl der Duplikate sowie.
```
names = df.name.value_counts()
names[names > 1]
```
InformationsquelleAutor der Antwort Doctor J
1

Ich hatte ein ähnliches problem und bin auf diese Antwort.

Ich denke, das funktioniert auch:
```
counts = df.groupby('name').size()
df2 = pd.DataFrame(counts, columns = ['size'])
df2 = df2[df2.size>1]
```
sowie df2.index wird Ihnen eine Liste von Namen mit Duplikaten

InformationsquelleAutor der Antwort mkln
1

Anderen one-liner können werden:
```
(df.name).drop_duplicates()
```
InformationsquelleAutor der Antwort G Gopi Krishna

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.