Konvertieren Liste der datestrings datetime sehr langsam mit Python-strptime

Habe ich die Daten-Dateien mit Listen von Zeichenfolgen, die ISO-Datumsformat. Derzeit, ich lese Sie in der Nutzung:

mydates = [ datetime.datetime.strptime(timdata[x], "%Y-%m-%dT%H:%M:%S") for x in range(len(timedata)) ]

Sieht das ziemlich einfach, aber ist wahnsinnig langsam, wenn der Betrieb auf riesige Listen von ~25000 dates -> etwa bei 0,34 Sekunden pro umgewandelt Liste.
Da habe ich Tausende von solchen Listen bin ich auf der Suche nach einem schnelleren Weg. Allerdings konnte ich nicht finden bisher. Die dateutil-parser führt sogar noch schlimmer...

Du meinst, Sie denken, Parsen und konvertieren von 25.000 Termine, einschließlich der Bau einer neuen Liste von der gleichen Größe sollte schneller sein als ein Drittel einer Sekunde in eine interpretierte Sprache? Möchten Sie vielleicht zu wechseln eine kompilierte Sprache.
Sie können Lesen und analysieren einer Datei mit mehr als 25000 Termine und 10 mehr Spalten in weniger als einer Drittel Sekunde mit numpy/pandas.
Das ist, was ich erlebt habe, zu....

InformationsquelleAutor HyperCube | 2013-01-04

numpy python

Indizierung /slicing scheint schneller zu sein als die regex verwendet, die von @NPE:

In [47]: def with_indexing(dstr):                              
   ....:     return datetime.datetime(*map(int, [dstr[:4], dstr[5:7], dstr[8:10],
   ....:                               dstr[11:13], dstr[14:16], dstr[17:]])) 

In [48]: p = re.compile('[-T:]')

In [49]: def with_regex(dt_str):
   ....:     return datetime.datetime(*map(int, p.split(dt_str)))

In [50]: %timeit with_regex(dstr)
100000 loops, best of 3: 3.84 us per loop

In [51]: %timeit with_indexing(dstr)
100000 loops, best of 3: 2.98 us per loop

Ich denke, wenn man mit einem Datei-parser, wie numpy.genfromtxt, die converters argument und eine schnelle string-parsing-Methode können Sie Lesen und analysieren eine ganze Datei in weniger als einer halben Sekunde.

Ich habe folgende Funktion zum erstellen einer Beispiel-Datei mit über 25000 Zeilen, ISO-Datums-Zeichenketten als index-und 10 Daten-Spalten:

import numpy as np
import pandas as pd

def create_data():
    # create dates
    dates = pd.date_range('2010-01-01T00:30', '2013-01-04T23:30', freq='H')
    # convert to iso
    iso_dates = dates.map(lambda x: x.strftime('%Y-%m-%dT%H:%M:%S'))
    # create data
    data = pd.DataFrame(np.random.random((iso_dates.size, 10)) * 100,
                        index=iso_dates)
    # write to file
    data.to_csv('dates.csv', header=False)

Als ich verwendet folgenden code zum Parsen der Datei:

In [54]: %timeit a = np.genfromtxt('dates.csv', delimiter=',',
                                   converters={0:with_regex})
1 loops, best of 3: 430 ms per loop

In [55]: %timeit a = np.genfromtxt('dates.csv', delimiter=',',
                                   converters={0:with_indexing})
1 loops, best of 3: 391 ms per loop

pandas (basierend auf numpy) hat eine C-basierte Datei-parser, der ist noch schneller:

In [56]: %timeit df = pd.read_csv('dates.csv', header=None, index_col=0, 
                                  parse_dates=True, date_parser=with_indexing)
10 loops, best of 3: 167 ms per loop

Vielen Dank für die aufwändige Antwort. Das hilft viel!

InformationsquelleAutor bmu

Hier ist ein Weg, es zu tun zu 3x schneller.

Original version:

In [23]: %timeit datetime.datetime.strptime("2013-01-01T01:23:45", "%Y-%m-%dT%H:%M:%S")
10000 loops, best of 3: 21.8 us per loop

Die schnellere version:

In [24]: p = re.compile('[-T:]')

In [26]: %timeit datetime.datetime(*map(int, p.split("2013-01-01T01:23:45")))
100000 loops, best of 3: 7.28 us per loop

Dies ist natürlich bei weitem nicht so flexibel wie strptime().

edit: Mit einem einzigen regex zu extrahieren Sie die Komponenten Datum ist unwesentlich schneller:

In [48]: pp = re.compile(r'(\d{4})-(\d{2})-(\d{2})T(\d{2}):(\d{2}):(\d{2})')

In [49]: %timeit datetime.datetime(*map(int, pp.match("2013-01-01T01:23:45").groups()))
100000 loops, best of 3: 6.92 us per loop

Danke für die schnelle Antwort! 3-mal schneller ist eine große Verbesserung!! 🙂

InformationsquelleAutor NPE

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.