Kombinieren Sie Aufeinanderfolgende Zeilen mit Gleichen Spaltenwerten

Habe ich etwas, das so aussieht.
Wie komme ich von dieser:

    0             d
0   The         DT
1   Skoll       ORGANIZATION
2   Foundation  ORGANIZATION
3   ,           ,
4   based       VBN
5   in          IN
6   Silicon     LOCATION
7   Valley      LOCATION

zu diesem:

    0                       d
0   The                     DT
1   Skoll Foundation        ORGANIZATION
3   ,                       ,
4   based                   VBN
5   in                      IN
6   Silicon Valley          LOCATION

InformationsquelleAutor user3314418 | 2014-08-05

pandas python

9

@rfan Antwort funktioniert natürlich, als alternative, hier ist ein Ansatz mit pandas groupby.

Den .groupby() Gruppen der Daten, die durch die 'b' - Spalte - die sort=False ist notwendig, um die Ordnung intakt. Die .apply() gilt eine Funktion, die für jede Gruppe von b-Daten, in diesem Fall den Beitritt der string zusammen, getrennt durch Leerzeichen.
```
In [67]: df.groupby('b', sort=False)['a'].apply(' '.join)
Out[67]: 

b
DT                       The
Org         Skoll Foundation
,                          ,
VBN                    based
IN                        in
Location      Silicon Valley
Name: a, dtype: object
```
EDIT:

Griff der mehr Allgemeine Fall (wiederholte nicht-aufeinander folgende Werte) - ein Ansatz wäre zunächst hinzufügen eines sentinel-Spalte, die tracks, die Gruppe von aufeinander folgenden Daten jeder Zeile gilt, wie diese:
```
df['key'] = (df['b'] != df['b'].shift(1)).astype(int).cumsum()
```
Dann fügen Sie die-Taste, um die groupby-und sollte es auch bei wiederholten Werten. Zum Beispiel mit diesem dummy-Daten mit Wiederholungen:
```
df = DataFrame({'a': ['The', 'Skoll', 'Foundation', ',', 
                      'based', 'in', 'Silicon', 'Valley', 'A', 'Foundation'], 
                'b': ['DT', 'Org', 'Org', ',', 'VBN', 'IN', 
                      'Location', 'Location', 'Org', 'Org']})
```
Anwendung der groupby:
```
In [897]: df.groupby(['key', 'b'])['a'].apply(' '.join)
Out[897]: 
key  b       
1    DT                       The
2    Org         Skoll Foundation
3    ,                          ,
4    VBN                    based
5    IN                        in
6    Location      Silicon Valley
7    Org             A Foundation
Name: a, dtype: object
```
- Sie müssen nicht die Lambdasonden gibt.
- Ich erwogen, aber würde das nicht auch verketten nicht aufeinander, sondern wiederholte Werte in der zweiten Spalte? Wenn die zweite Spalte ist einzigartig neben aufeinanderfolgende Wiederholungen hat, dann wäre es in Ordnung.
- Vielen Dank ari. @rfan - guter Punkt, das wird sich keiner wiederholt werden, so Ihre Antwort Griffe diesem Fall korrekt, während dies nicht
- du hast Recht, wenn die Daten wiederholt, wäre es ein problem. Aber Sie sollten in der Lage sein mit einem zweiten Schlüssel Spalte, weitere Spalten die groupby-in vielen Fällen.
- Recht. Ich denke, mit der neben der Schaffung einer anderen Spalte "Schlüssel" zu verfolgen, die nicht aufeinander Folgen wiederholt werden, ist diese Methode wahrscheinlich besser skaliert als meine Lösung, um größere oder komplexere Probleme.
- Ein Beispiel, wie eine solche Spalte könnte (unter der Annahme, dass die DT-Taste kann verwendet werden als ein sentinel-Wert) df['helper'] = (np.where(df.d=='DT',df.index,np.nan)) df.helper.fillna(method='ffill')
- wenn Sie den sekundären Schlüssel zu verfolgen, die nicht aufeinander Folgen wiederholt, ich nehme das als Antwort. Weil, derzeit ist es alle Gruppen ähnliche Werte, das ist nicht das, was ich brauche.
- sorry, ich kopieren/eingefügt, was Sie haben, aber es gibt mir eine Liste von zahlen. Ich bin mir nicht ganz sicher, wie das funktionieren soll. Könnten Sie oder chrisb post eine integrierte Lösung, die kümmert sich um aufeinander folgende Wiederholungen nur?
- Sehen, Bearbeiten, sollte die Arbeit im Allgemeinen Fall.
InformationsquelleAutor chrisb
2

Eigentlich denke ich, die groupby-Lösung von @chrisb ist besser, aber würden Sie brauchen, um einen anderen zu erstellen groupby-key variable zu verfolgen, die nicht aufeinander Folgen wiederholt Werte, wenn diejenigen, die möglicherweise vorhanden sind. Dies funktioniert so, dass ein quick-and-dirty " für kleinere Probleme obwohl.

Ich denke, das ist eine situation, wo es einfacher ist, um die Arbeit mit basic mit Iteratoren, anstatt zu versuchen zu verwenden pandas Funktionen. Ich kann mir vorstellen, eine situation mittels groupby, aber es scheint schwer zu pflegen sind die aufeinanderfolgenden Zustand, wenn die zweite variable wiederholt.

Dies kann vermutlich gereinigt werden, aber ein Beispiel:
```
df = DataFrame({'a': ['The', 'Skoll', 'Foundation', ',', 
                      'based', 'in', 'Silicon', 'Valley'], 
                'b': ['DT', 'Org', 'Org', ',', 'VBN', 'IN', 
                      'Location', 'Location']})

# Initialize result lists with the first row of df
result1 = [df['a'][0]]  
result2 = [df['b'][0]]

# Use zip() to iterate over the two columns of df simultaneously,
# making sure to skip the first row which is already added
for a, b in zip(df['a'][1:], df['b'][1:]):
    if b == result2[-1]:        # If b matches the last value in result2,
        result1[-1] += " " + a  # add a to the last value of result1
    else:  # Otherwise add a new row with the values
        result1.append(a)
        result2.append(b)

# Create a new dataframe using these result lists
df = DataFrame({'a': result1, 'b': result2})
```
- erklären Sie Ihren Prozess ein bisschen? es scheint für mich arbeiten
- Etwas, das Sie tun konnte, um ihn zu beschleunigen, wäre die Boolesche Maske auf jene Zeilen, in denen Sie doppelte Werte: df[df.d.isin((df.d.value_counts() > 1).index[df.d.value_counts() > 1])] dieser liefert ein dataframe mit nur die doppelten Zeilen
InformationsquelleAutor Roger Fan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.