Finden nächste Zeile des DataFrame zu gegebener Zeit in Pandas

Habe ich ein Pandas dataframe, das ist indiziert durch eine DatetimeIndex:

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 53732 entries, 1993-01-07 12:23:58 to 2012-12-02 20:06:23
Data columns:
Date(dd-mm-yy)_Time(hh-mm-ss)       53732  non-null values
Julian_Day                          53732  non-null values
AOT_870                             53732  non-null values
440-870Angstrom                     53732  non-null values
440-675Angstrom                     53732  non-null values
500-870Angstrom                     53732  non-null values
Last_Processing_Date(dd/mm/yyyy)    53732  non-null values
Solar_Zenith_Angle                  53732  non-null values
time                                53732  non-null values
dtypes: datetime64[ns](2), float64(6), object(1)

Ich soll die Zeile zu finden, die am nächsten ist zu einem bestimmten Zeitpunkt:

image_time = dateutil.parser.parse('2009-07-28 13:39:02')

finden und wie nah es ist. So weit, ich habe versucht, verschiedene Dinge, die auf der Idee basiert, rechnet man die Zeit, die ich möchte von allen die Zeiten und die Suche nach dem kleinsten absoluten Wert, aber nicht ganz zu funktionieren scheint.

Beispiel:

aeronet.index - image_time

Gibt eine Fehlermeldung, die ich denke, ist aufgrund der +/- auf einem Datetime-index shifting Dinge, also habe ich versucht, indem Sie den index in eine andere Spalte und dann arbeiten:

aeronet['time'] = aeronet.index
aeronet.time - image_time

Diese scheint zu funktionieren, aber das zu tun, was ich will, ich brauche, um die ABSOLUTE Zeit Unterschied, nicht der relative Unterschied. Allerdings läuft gerade abs oder np.abs auf gibt es einen Fehler:

abs(aeronet.time - image_time)

C:\Python27\lib\site-packages\pandas\core\series.pyc in __repr__(self)
   1061         Yields Bytestring in Py2, Unicode String in py3.
   1062         """
-> 1063         return str(self)
   1064 
   1065     def _tidy_repr(self, max_vals=20):

C:\Python27\lib\site-packages\pandas\core\series.pyc in __str__(self)
   1021         if py3compat.PY3:
   1022             return self.__unicode__()
-> 1023         return self.__bytes__()
   1024 
   1025     def __bytes__(self):

C:\Python27\lib\site-packages\pandas\core\series.pyc in __bytes__(self)
   1031         """
   1032         encoding = com.get_option("display.encoding")
-> 1033         return self.__unicode__().encode(encoding, 'replace')
   1034 
   1035     def __unicode__(self):

C:\Python27\lib\site-packages\pandas\core\series.pyc in __unicode__(self)
   1044                     else get_option("display.max_rows"))
   1045         if len(self.index) > (max_rows or 1000):
-> 1046             result = self._tidy_repr(min(30, max_rows - 4))
   1047         elif len(self.index) > 0:
   1048             result = self._get_repr(print_header=True,

C:\Python27\lib\site-packages\pandas\core\series.pyc in _tidy_repr(self, max_vals)
   1069         """
   1070         num = max_vals //2
-> 1071         head = self[:num]._get_repr(print_header=True, length=False,
   1072                                     name=False)
   1073         tail = self[-(max_vals - num):]._get_repr(print_header=False,

AttributeError: 'numpy.ndarray' object has no attribute '_get_repr'

Bin ich an dieses der richtige Weg? Wenn ja, wie sollte ich abs zu arbeiten, so dass ich wählen kann dann das minimum der absoluten Zeit Unterschied, und so bekommen die nächste Zeit. Wenn nicht, was ist der beste Weg, dies zu tun mit Pandas Zeit-Serie?

InformationsquelleAutor robintw | 2013-02-27

7

Ich denke, man kann versuchen DatetimeIndex.asof zu finden, die letzten Etikett mit bis zu und einschließlich der Eingabe. Dann benutzen Sie die zurückgegebene datetime-wählen Sie die entsprechende Zeile.
Wenn Sie nur die Werte für eine bestimmte Spalte Series.asof vorhanden ist und kombiniert die zwei oben genannten Schritte in einem.

Dies setzt Voraus, Sie wollen die nächsten datetime. Wenn Sie kümmern sich nicht um das Datum und die wollen einfach nur die gleiche Zeit jeden Tag verwenden at_time im DataFrame.

Follow-up:

Edit: falscher alarm, ich hatte eine ältere version lokal. Das neueste von master-arbeiten sollten mit np.abs.
```
In [10]: np.abs(df.time - image_time)
Out[10]: 
0    27 days, 13:39:02
1    26 days, 13:39:02
2    25 days, 13:39:02
3    24 days, 13:39:02
4    23 days, 13:39:02
5    22 days, 13:39:02
```
Auch nur um zu klären:

aeronet.index - image_time funktioniert nicht, da die Subtraktion auf den Index ist ein Unterschied zwischen (zurück in den Tag-Index verwendet werden, eingeschränkt werden, um eindeutig zu sein).

Vielen Dank - das hilft. Allerdings glaube ich nicht, es werde tun, was ich will, die ganze Zeit. Zum Beispiel, wenn ich die Daten mit 10:25, 10:32 und rufen asof mit 10:30, es werde 10:25 anstatt 10:32 was ist eigentlich näher. Das ist, was ich will, die nächste Zeit, nicht unbedingt in der nächsten Zeit, bevor die Zeit, die ich gegeben habe. Vielleicht werde ich brauchen, um es mit meiner manuellen Methode, aber ich kann nicht sehen, warum np.abs wird nicht funktionieren.
Vielen Dank für das follow-up. Ich installierte die neueste Entwickler-version von pandas.pydata.org/pandas-build/dev heute früh (etwa gegen 3 Uhr UTC) - hat es sich seitdem verändert zu ermöglichen np.abs? (Werde ich testen mit der neuesten dev-version morgen bei der Arbeit)
Ich denke nicht so. Auch Blick auf die Fehler, es ist nicht in der Berechnung, sondern in der Ausgabe der Ergebnisse. Ordnen Sie die Ergebnisse auf eine variable, die Sie vielleicht in der Lage zu kramen und herauszufinden, was das Problem ist
Ich habe versucht, die Zuordnung zu einer Variablen, bekam aber genau die gleichen Ergebnisse. Scheint ziemlich seltsam. Sollte ich heben einen bug mit den pandas team?
Ja, bitte mache ein Thema auf github. Wenn Sie das tun, können Sie bitte klarere details, also, können Sie schneiden Sie mit dem dataset auf eine kleine Größe und eine geschlossene, reproduzierbare Beispiel? Das wird uns helfen, die debug-Ausgabe. Dank

InformationsquelleAutor Chang She
15

Diese einfache Methode zurück, die (integer index) TimeSeriesIndex Eintrag am nächsten zu einem datetime-Objekt. Es gibt keine Notwendigkeit, kopieren Sie den index, um eine regelmäßige Kolumne - nutzen Sie einfach den .to_pydatetime Methode statt.
```
import numpy as np

i = np.argmin(np.abs(df.index.to_pydatetime() - image_time))
```
Dann verwenden Sie einfach den DataFrame ist .iloc indexer:
```
df.iloc[i]
```
Hier ist eine Funktion um dies zu tun:
```
def fcl(df, dtObj):
    return df.iloc[np.argmin(np.abs(df.index.to_pydatetime() - dtObj))]
```
Können Sie dann weiter filtern, nahtlos, z.B.
```
fcl(df, dtObj)['column']
```
scheint, wie es sollte ein einfacher Weg, dies war aber eine schöne Lösung, die mir geholfen weiterzumachen!

InformationsquelleAutor cmeeren
0

War ich konfrontiert das gleiche problem heute. Ich wollte eine Funktion in der Lage, um mir den nächsten Wert vor einem bestimmten timestamp. Hier ist die Funktion, die ich bekam:
```
def get_nearest_past(data, timestamp):
    index = data.index.get_loc(timestamp,"ffill")
    return data.iloc[index]
```
In dem Fall, dass Sie die weltweite nächste (und nicht der nächsten sich vor wie in meinem Fall), die Sie verwenden können:
```
def get_nearest(data, timestamp):
    index = data.index.get_loc(timestamp,"nearest")
    return data.iloc[index]
```
Weitere Informationen finden Sie in der get_loc Dokumentation.

InformationsquelleAutor silgon

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Follow-up: