Tag: dask

Dask ist ein flexibles parallel-computing-Bibliothek für die analytische computing. Es unterstützt dynamisches task-scheduling optimiert für die Berechnung sowie big-data-Sammlungen.

wie zu parallelisieren viele (fuzzy -) string-Vergleiche, die mit gelten Pandas?

Anzahl der Antworten 3 Antworten
Ich habe Folgendes problem Ich habe einen dataframe master enthält Sätze wie master Out[8]: original 0 this is a nice sentence 1 this is another one 2 stackoverflow is nice Für jede Zeile in Master -, I-lookup

einfache dask map_partitions Beispiel

Anzahl der Antworten 2 Antworten
Lese ich Folgendes SO thead und nun versuche, es zu verstehen. Hier ist mein Beispiel: import dask.dataframe as dd import pandas as pd from dask.multiprocessing import get import random df = pd.DataFrame({'col_1':random.sample(range(10000), 10000), 'col_2': random.sample(range(10000), 10000) })

python dask DataFrame, Unterstützung für (trivial parallelisierbare) Zeile anwenden?

Anzahl der Antworten 2 Antworten
Vor kurzem fand ich dask Modul zielt darauf ab, dass ein einfach zu bedienendes python-parallel-processing-Modul. Großer Pluspunkt für mich ist, dass es funktioniert mit pandas. Nach der Lektüre ein wenig auf seiner manual-Seite, ich kann nicht einen

Konvertieren Pandas dataframe zu Dask dataframe

Anzahl der Antworten 1 Antworten
Nehme an, dass ich pandas dataframe als: df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) Wenn ich konvertieren es in dask dataframe was soll name und divisions parameter bestehen aus: from dask import dataframe as dd sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index)) TypeError: init() fehlt 1 erforderliche positionelle argument:

Wie kann man parallelisieren apply() auf Pandas Dataframes Nutzung aller Kerne auf einer Maschine?

Anzahl der Antworten 2 Antworten
Ab August 2017, Pandas DataFame.anwenden() ist leider noch beschränkt auf die Zusammenarbeit mit einem single-core, was bedeutet, dass eine multi-core-Maschine wird Abfall die Mehrheit der compute-Zeit, wenn Sie laufen df.apply(myfunc, axis=1). Wie können Sie all Ihren Kernen