python pandas Extrakt Jahr von datetime — diff['year'] = df['Datum'].Jahr nicht arbeiten

Sorry für diese Frage, die so repetitiv - ich erwarte die Antwort, fühle ich mich wie ein Dummkopf... aber ich habe kein Glück gehabt mit Antworten auf ähnliche Fragen auf, SO.

Ich bin das importieren von Daten in durch read_csv, aber aus irgendeinem Grund kann ich nicht herausfinden, ich bin nicht in der Lage zu extrahieren, das Jahr oder der Monat aus dem dataframe-Serie df['date'].

date    Count
6/30/2010   525
7/30/2010   136
8/31/2010   125
9/30/2010   84
10/29/2010  4469

df = pd.read_csv('sample_data.csv',parse_dates=True)

df['date'] = pd.to_datetime(df['date'])

df['year'] = df['date'].year
df['month'] = df['date'].month

Aber dies gibt:

AttributeError: '- Serie,' Objekt hat kein Attribut 'Jahr'

Vielen Dank im Voraus.

UPDATE:

df = pd.read_csv('sample_data.csv',parse_dates=True)

df['date'] = pd.to_datetime(df['date'])

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

dieser erzeugt die gleiche "AttributeError:' - Serie,' Objekt hat kein Attribut 'dt' "

FOLLOW-UP:

Bin ich mit dem Spyder 2.3.1 mit Python 3.4.1 64-bit, aber nicht aktualisieren pandas auf eine neuere Version (derzeit auf 0.14.1). Jede der folgende Code erzeugt eine ungültige syntax Fehler:

HTML:

conda update pandas

conda install pandas==0.15.2

conda install -f pandas

Irgendwelche Ideen?

wo ist Jahr aus? Sind Sie versuchen, den Zugriff auf eine Reihe (df["date"][0].year?
Ich habe eine csv-Datei mit den Terminen und anderen Spalten, die kamen alle aus der SQL-Code als string-Daten. Versuchen, neue Jahres-und Monats-Spalten für die Gruppierung verwenden. die csv hat ~5000 Zeilen.
Ja aber die df["date"] ist ein 'pandas.core.series.Series' Objekt. was soll df['date'].year werden?
Wenn Sie mit version 0.15.0 oder höher, dann können Sie df['year'] = df['date'].dt.year
Ich möchte einfach 2 weitere Spalten... eine für das Jahr und eine für Monat als Integer-zahlen.
versuchte df['Datum'].dt.Jahr, EdChum.
siehe mein update, es sollte funktionieren in Ihrer version von pandas, können Sie nach, welche version du verwendest

InformationsquelleAutor MJS | 2015-05-22

Wenn Sie eine neue-ish-version von pandas dann können Sie die datetime-Attribut dt Zugriff auf die datetime-Komponenten:

In [6]:

df['date'] = pd.to_datetime(df['date'])
df['year'], df['month'] = df['date'].dt.year, df['date'].dt.month
df
Out[6]:
        date  Count  year  month
0 2010-06-30    525  2010      6
1 2010-07-30    136  2010      7
2 2010-08-31    125  2010      8
3 2010-09-30     84  2010      9
4 2010-10-29   4469  2010     10

BEARBEITEN

Wie es aussieht bist du mit einer älteren version von pandas in diesem Fall die folgenden funktionieren würde:

In [18]:

df['date'] = pd.to_datetime(df['date'])
df['year'], df['month'] = df['date'].apply(lambda x: x.year), df['date'].apply(lambda x: x.month)
df
Out[18]:
        date  Count  year  month
0 2010-06-30    525  2010      6
1 2010-07-30    136  2010      7
2 2010-08-31    125  2010      8
3 2010-09-30     84  2010      9
4 2010-10-29   4469  2010     10

Hinsichtlich, warum es nicht analysieren, diese in ein datetime in read_csv Sie brauchen, um passieren die ordinale position der Spalte ([0]) weil wenn True es versucht zu analysieren Spalten [1,2,3] siehe docs

In [20]:

t="""date   Count
6/30/2010   525
7/30/2010   136
8/31/2010   125
9/30/2010   84
10/29/2010  4469"""
df = pd.read_csv(io.StringIO(t), sep='\s+', parse_dates=[0])
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 0 to 4
Data columns (total 2 columns):
date     5 non-null datetime64[ns]
Count    5 non-null int64
dtypes: datetime64[ns](1), int64(1)
memory usage: 120.0 bytes

So, wenn Sie passieren param parse_dates=[0] zu read_csv es sollte keine Notwendigkeit zu nennen to_datetime auf der 'Datum' Spalte nach dem laden.

Ed, du hattest Recht, ich bin auf 0.14.1. entschuldigt, ich werde versuchen, zu aktualisieren.
Meine updates auf Ihre version, beachten Sie auch die parse_dates=[0] für read_csv wird richtig analysiert, die Datums-String in ein datetime-Objekte, so dass Sie nicht brauchen, die extra to_datetime nennen

InformationsquelleAutor EdChum

Dies funktioniert:

df['date'].dt.year

Nun:

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

gibt diese Daten Rahmen:

        date  Count  year  month
0 2010-06-30    525  2010      6
1 2010-07-30    136  2010      7
2 2010-08-31    125  2010      8
3 2010-09-30     84  2010      9
4 2010-10-29   4469  2010     10

InformationsquelleAutor Mike Müller

2

Was für mich gearbeitet wurde die Aktualisierung pandas auf die neueste version:

Von der Kommandozeile aus tun:
```
conda update pandas
```
InformationsquelleAutor Jimmy
1

Wann dt accessor

Eine gemeinsame Quelle der Verwirrung dreht sich um, wenn die Verwendung .year und Wann .dt.year.

Ersteres ist ein Attribut für pd.DatetimeIndex Objekte, die letztere für pd.Series Objekte. Betrachten Sie dieses dataframe:
```
df = pd.DataFrame({'Dates': pd.to_datetime(['2018-01-01', '2018-10-20', '2018-12-25'])},
                  index=pd.to_datetime(['2000-01-01', '2000-01-02', '2000-01-03']))
```
Die definition der Serie und der index ähnlich Aussehen, aber die pd.DataFrame Konstruktor konvertiert Sie in verschiedene Typen:
```
type(df.index)     # pandas.tseries.index.DatetimeIndex
type(df['Dates'])  # pandas.core.series.Series
```
Den DatetimeIndex Objekt hat eine direkte year Attribut, während die Series - Objekt verwenden müssen, die dt accessor. Ebenso für month:
```
df.index.month               # array([1, 1, 1])
df['Dates'].dt.month.values  # array([ 1, 10, 12], dtype=int64)
```
Ein feiner, aber wichtiger Unterschied erwähnenswert ist, dass df.index.month gibt ein NumPy-array, während df['Dates'].dt.month gibt eine Pandabären-Serie. Wir verwenden pd.Serie.Werte zum extrahieren der NumPy-array-Darstellung.

InformationsquelleAutor jpp

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Wann dt accessor

Wann `dt` accessor