Zählen die Häufigkeit der Werte nach Datum mit pandas

Nehmen wir an ich habe folgende Zeitreihe:

Timestamp              Category
2014-10-16 15:05:17    Facebook
2014-10-16 14:56:37    Vimeo
2014-10-16 14:25:16    Facebook
2014-10-16 14:15:32    Facebook
2014-10-16 13:41:01    Facebook
2014-10-16 12:50:30    Orkut
2014-10-16 12:28:54    Facebook
2014-10-16 12:26:56    Facebook
2014-10-16 12:25:12    Facebook
...
2014-10-08 15:52:49    Youtube
2014-10-08 15:04:50    Youtube
2014-10-08 15:03:48    Vimeo
2014-10-08 15:02:27    Youtube
2014-10-08 15:01:56    DailyMotion
2014-10-08 13:27:28    Facebook
2014-10-08 13:01:08    Vimeo
2014-10-08 12:52:06    Facebook
2014-10-08 12:43:27    Facebook
Name: summary, Length: 600

Ich würde gerne die Anzahl der jeweiligen Kategorie (Eindeutiger Wert/Faktor in der Zeit-Serie) pro Woche und Jahr.

Example:

    Week/Year      Category      Count
    1/2014         Facebook      12
    1/2014         Google        5
    1/2014         Youtube       2
...    
    2/2014         Facebook      2
    2/2014         Google        5
    2/2014         Youtube       20
...

Wie kann das erreicht werden mit Python pandas?

InformationsquelleAutor jcborges | 2015-01-07

Könnte es am einfachsten sein, um Ihre Serie in einen DataFrame und verwenden Pandas' groupby Funktionalität (wenn Sie bereits ein DataFrame, dann geradeaus fahren, um das hinzufügen einer weiteren Spalte unten).

Wenn eine Reihe aufgerufen wird s, dann schalten Sie es in einen DataFrame, wie so:

>>> df = pd.DataFrame({'Timestamp': s.index, 'Category': s.values})
>>> df
       Category           Timestamp
0      Facebook 2014-10-16 15:05:17
1         Vimeo 2014-10-16 14:56:37
2      Facebook 2014-10-16 14:25:16
...

Fügen Sie nun eine weitere Spalte für die Woche und das Jahr (eine Möglichkeit ist die Verwendung apply und generieren ein string der Woche/Jahr zahlen):

>>> df['Week/Year'] = df['Timestamp'].apply(lambda x: "%d/%d" % (x.week, x.year))
>>> df
             Timestamp     Category Week/Year
0  2014-10-16 15:05:17     Facebook   42/2014
1  2014-10-16 14:56:37        Vimeo   42/2014
2  2014-10-16 14:25:16     Facebook   42/2014
...

Endlich, Gruppe von 'Week/Year' und 'Category' und Aggregat mit size() zu bekommen, das zählt. Für die Daten in Ihre Frage, daraus ergibt sich das folgende:

>>> df.groupby(['Week/Year', 'Category']).size()
Week/Year  Category   
41/2014    DailyMotion    1
           Facebook       3
           Vimeo          2
           Youtube        3
42/2014    Facebook       7
           Orkut          1
           Vimeo          1

InformationsquelleAutor Alex Riley

3

Ein bisschen mehr klar, Sie brauchen nicht, um eine neue Spalte namens 'week_num".
```
df.groupby(by=lambda x: "%d/%d" % (x.week(), x.year())).Category.value_counts()
```
Die Funktion, indem Sie automatisch einen call auf jedes Zeitstempel-Objekt des index zu konvertieren Woche und das Jahr und dann die Gruppe durch die Woche und das Jahr.

InformationsquelleAutor Leon
2

Konvertieren TimeStamp-Spalte-Nummer der Woche dann groupby, Nummer der Woche und die value_count die kategorische variable etwa so:
```
df.groupby('week_num').Category.value_counts()
```
Wo habe ich angenommen, dass eine neue Spalte week_num wurde von der TimeStamp-Spalte.

Ich habe eine ähnliche Aufgabe, aber ich möchte die Gruppe von Minuten, wie kann das erreicht werden?
Mit einem DataFrame df mit Datum-Spalten (Datentyp datetime) dateskönnten Sie df.groupby(df["dates"].dt.minute).size(). Dies sagt Ihnen, wie viel Zeilen fallen in jeder minute.

InformationsquelleAutor cwharland

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.