sklearn und große datasets

Ich habe einen Datensatz von 22 GB. Ich möchte, um es zu verarbeiten auf meinem laptop. Natürlich kann ich nicht laden, es im Gedächtnis.

Ich benutze eine Menge sklearn aber für viel kleinere Datensätze.

In diesen Situationen ist der klassische Ansatz sollte sein etwas wie.

Lesen nur ein Teil der Daten -> Teilweise trainieren Sie Ihre estimator -> Daten löschen -> Lesen Sie weitere Artikel des Daten -> weiter zu trainieren und Ihre Schätzer.

Habe ich gesehen, dass einige sklearn Algorithmus die partielle fit-Methode, sollte es uns zu trainieren, der Schätzer mit verschiedenen teilproben der Daten.

Nun Frage ich mich gibt es einen einfachen Grund, warum das in sklearn?
Ich bin auf der Suche nach so etwas wie

r = read_part_of_data('data.csv')
m = sk.my_model
`for i in range(n):
     x = r.read_next_chunk(20 lines)
     m.partial_fit(x)

m.predict(new_x)

Vielleicht sklearn ist nicht das richtige Werkzeug für diese Art von Dingen?
Lassen Sie es mich wissen.

  • Siehe Verwandte: stackoverflow.com/questions/17017878/..., je nach Aufgabe, sollte es möglich sein
  • Ich habe einige Beispiele für Situationen mit zu vielen Variablen. Aber was ist, wenn wir zu viele Proben?
  • Ich bin kein Experte, aber ich würde denken, es sollte keine Rolle spielen, Ihr Modell trainiert wird an den ein-und es sollte nur die params/GEWICHTE gespeichert sind. Dies ist anders, wenn Sie einen Entscheidungsbaum als würde dieser Anstieg in der Größe so erhöhen Sie die Anzahl der Parameter und wahrscheinlich sample-Größen.
  • das eigentliche problem ist, dass ich kann nicht laden Sie die csv-Datei, weil es zu groß ist
InformationsquelleAutor Donbeo | 2014-05-26
Schreibe einen Kommentar