Ist es numpy group by-Funktion?

Gibt es eine Funktion in numpy zu Gruppe dieses array von unten durch die erste Spalte?

Konnte ich nicht finden, eine gute Antwort über das internet ist.

>>> a
array([[  1, 275],
       [  1, 441],
       [  1, 494],
       [  1, 593],
       [  2, 679],
       [  2, 533],
       [  2, 686],
       [  3, 559],
       [  3, 219],
       [  3, 455],
       [  4, 605],
       [  4, 468],
       [  4, 692],
       [  4, 613]])

Wollte output:

array([[[275, 441, 494, 593]],
       [[679, 533, 686]],
       [[559, 219, 455]],
       [[605, 468, 692, 613]]], dtype=object)

Ich denke, du meintest ein array von Listen, keine Listen von Listen?

InformationsquelleAutor John Dow | 2016-06-24

16

Inspiriert von Eelco Hoogendoorn Bibliothek, aber ohne seine Bibliothek, und mit der Tatsache, dass die erste Spalte des Arrays ist immer zu.
```
>>> np.split(a[:, 1], np.cumsum(np.unique(a[:, 0], return_counts=True)[1])[:-1])
[array([275, 441, 494, 593]),
 array([679, 533, 686]),
 array([559, 219, 455]),
 array([605, 468, 692, 613])]
```
Ich nicht "timeit" aber dies ist wahrscheinlich der schnellere Weg zur Erreichung der Frage :
- Keine python-native-Schleife
- Ergebnis-Listen numpy-arrays, in Fall, dass Sie brauchen, um andere numpy Operationen auf Ihnen, keine neue Konvertierung benötigt werden
- Komplexität wie O(n)
PS: ich schrieb eine ähnliche Linie, weil ich brauchte, um "group by" die Ergebnisse der np.ungleich null:
```
>>> indexes, values = np.nonzero(...)
>>> np.split(values, np.cumsum(np.unique(indexes, return_counts=True)[1]))
```
InformationsquelleAutor Vincent J

Numpy ist nicht sehr praktisch, weil hier die gewünschte Ausgabe nicht ein array von ganzen zahlen (es ist ein array mit der Liste der Objekte).

Schlage ich vor, entweder die Reine Python-Weg...

from collections import defaultdict

%%timeit
d = defaultdict(list)
for key, val in a:
    d[key].append(val)
10.7 µs ± 156 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

# result:
defaultdict(list,
        {1: [275, 441, 494, 593],
         2: [679, 533, 686],
         3: [559, 219, 455],
         4: [605, 468, 692, 613]})

...oder die pandas Weg:

import pandas as pd

%%timeit
df = pd.DataFrame(a, columns=["key", "val"])
df.groupby("key").val.apply(pd.Series.tolist)
979 µs ± 3.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# result:
key
1    [275, 441, 494, 593]
2         [679, 533, 686]
3         [559, 219, 455]
4    [605, 468, 692, 613]
Name: val, dtype: object

InformationsquelleAutor Piotr

11

Den numpy_indexed - Paket (disclaimer: ich bin sein Autor) zielt darauf ab, diese Lücke zu füllen, die in numpy. Alle Operationen in numpy-indiziert sind, vollständig vektorisiert, und nicht O(n^2) algorithmen, die verletzt wurden während der Produktion dieser library.
```
import numpy_indexed as npi
npi.group_by(a[:, 0]).split(a[:, 1])
```
Beachten Sie, dass es in der Regel effizienter, direkt berechnen relevanten Eigenschaften über solche Gruppen (ie, group_by(keys).Mittelwert(Werte)), eher als die erste Aufteilung in eine Liste /jagged array.
- Danke . Die Art, wie ich es auch gemeint ist, dass mit On2-algorithmen ist zutiefst schmerzhaft, sogar gesagt-Algorithmus selbst. Aber ja, ich denke, man muss davon ausgegangen werden der On2-Algorithmus heißt auch, sich selbst bewusst über seine Minderwertigkeit der Satz Sinn machen..
- "Nein O(n^2) algorithmen wurden verletzt" .. Warum willst du das "nett sein" zu Ihnen ? statt do, die Sie bedrohen: Sie zu zwingen, "mehr " lean"
InformationsquelleAutor Eelco Hoogendoorn
7
```
n = np.unique(a[:,0])
np.array( [ list(a[a[:,0]==i,1]) for i in n] )
```
Ausgänge:
```
array([[275, 441, 494, 593], [679, 533, 686], [559, 219, 455],
       [605, 468, 692, 613]], dtype=object)
```
- genau die gleiche Antwort, wie er will array([[x] for x in [ list(a[a[:,0]==i,1]) for i in n]])
- ja, deine Lösung gibt, was er verlangte. Aber ich bin einfach davon ausgegangen, dass er es eigentlich wollte, ein array von Listen und nicht eine nutzlose array von Listen von Listen mit einem einzigen element
- Beachten Sie, dass diese Lösung erfordert O(n^2) Operationen, so dass es sehr ineffizient ist.
- verwenden np.unique statt unique zu clearify code.
InformationsquelleAutor Gioelelm
6

Vereinfachung der Antwort von Vincent J kann man return_index = True statt return_counts = True und loszuwerden, die cumsum:
```
np.split(a[:,1], np.unique(idx,return_index = True)[1][1:])
```
Ausgabe
```
[array([275, 441, 494, 593]),
 array([679, 533, 686]),
 array([559, 219, 455]),
 array([605, 468, 692, 613])]
```
- Was, wenn die erste Spalte nicht sortiert? Kann man das irgendwie kombinieren, Sortieren und erstellen von Gruppen?
- wäre Sortieren Sie das array in-Place-von seiner ersten Spalte (unter der Annahme, dass die Indizes dort gespeichert sind)
InformationsquelleAutor ns63sr
0

Ich benutzt np.unique (), gefolgt von np.extract()
```
unique = np.unique(a[:, 0:1])
answer = []
for element in unique:
    present = a[:,0]==element
    answer.append(np.extract(present,a[:,-1]))
print (answer)
```
[array([275, 441, 494, 593]), array([679, 533, 686]), array([559, 219, 455]), array([605, 468, 692, 613])]

InformationsquelleAutor user2251346
0

gegeben X als array mit Elementen, die Sie wollen, werden gruppiert und y (1D-array) als die entsprechenden Gruppen, die folgende Funktion hat die Gruppierung mit numpy:
```
def groupby(X, y):
    y = np.asarray(y)
    X = np.asarray(X)
    y_uniques = np.unique(y)
    return [X[y==yi] for yi in y_uniques]
```
So, groupby(a[:,1], a[:,0]) gibt
[array([275, 441, 494, 593]), array([679, 533, 686]), array([559, 219, 455]), array([605, 468, 692, 613])]

InformationsquelleAutor Guido Mocha

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.