Mithilfe von Kaggle-Datensätze in Google Colab
Ist es möglich, beliebige Datensätze zur Verfügung, die über die kaggle
- API in Google Colab? Ich sehe die Kaggle-API verwendet wird, in das Colab notebook, aber es ist ein bisschen unklar ist mir, welche Datensätze es Zugriff bietet.
Du musst angemeldet sein, um einen Kommentar abzugeben.
Schritt-für-Schritt -
Erstellen Sie einen API-Schlüssel in der Kaggle.
Um dies zu tun, gehen Sie zu kaggle.com/und öffnen Sie Ihren Benutzer-Einstellungen-Seite.
Weiter nach unten scrollen, um den API-Zugriff den Abschnitt und klicken Sie auf generieren
herunterladen, um einen API-Schlüssel.
Dieser download wird eine Datei namens
kaggle.json
auf Ihrem computer.Verwenden Sie diese Datei im Colab Zugriff auf Kaggle-datasets und
Wettbewerbe.
Navigieren Sie zu https://colab.research.google.com/.
Laden Sie Ihre
kaggle.json
- Datei mit dem folgenden snippet ineine code Zelle:
from google.colab import files
files.upload()
Installieren Sie die kaggle-API mithilfe
!pip install -q kaggle
Bewegen Sie den
kaggle.json
Datei in~/.kaggle
, die ist, wo dieAPI-client erwartet, dass Sie Ihre token zu befinden:
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
Jetzt können Sie auf Datensätze mit dem client, z.B.
!kaggle datasets list
.Hier ist ein vollständiges Beispiel notebook der Colab Teil dieses Prozesses:
https://colab.research.google.com/drive/1DofKEdQYaXmDWBzuResXWWvxhLgDeVyl
Dieses Beispiel zeigt das hochladen der
kaggle.json
- Datei, die Kaggle-API-Clients, und mit der Kaggle-client herunterladen, ein dataset.!if [ ! -f ~/.kaggle/kaggle.json ]; then python "from google.colab import files \n files.upload()" && mkdir -p ~/.kaggle && cp kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json; fi
Sollten Sie in der Lage sein, um Zugriff auf jeden Datensatz auf Kaggle über die API. In diesem Beispiel werden nur die Datensätze für die Wettbewerbe aufgelistet. Sie können sehen, dass die Datensätze, die Sie zugreifen können, mit diesem Befehl:
Außerdem können Sie die Suche für Datensätze, indem die -s-tag und dann der Suchbegriff, der Sie interessiert. So würde Ihnen eine Liste von datasets über Hunde:
Finden Sie weitere Informationen über die API und wie Sie es in der Dokumentation hier.
Hoffe, das hilft! 🙂
!df -h
finden Sie heraus, wie viel freien Speicherplatz es auf der Festplatte.Ich habe dieses tutorial, um zu verwenden, Kaggle-API auf Google Colab direkt ohne Download und Upload der Daten über den lokalen Rechner.
Kaggle-API + Colaboratory
Haben Sie einen Blick auf diese.
Es werden offizielle kaggle-api hinter der Szene, sondern automatisiert den Prozess, so dass Sie nicht haben, um re-download manuell jedes mal, wenn Sie Ihre VM genommen wird. Auch, ein weiteres Problem, das ich konfrontiert mit Kaggle-API direkt auf Colab war der Aufwand der übertragung von Kaggle-API-token über Google Drive. Oben beschriebene Methode automatisiert werden, dass als gut.
Disclaimer: ich bin einer der Schöpfer der Clouderizer.
nachdem die Schritte (1-6) genannten, zu verwenden dataset-Objekt aus einer bestimmten Wettbewerb im colab,
Sie können mit dem Befehl:
!kaggle-Wettbewerbe-download -c elo-Kaufmann-Kategorie-Empfehlung
( elo-Kaufmann-Kategorie-Empfehlung ist der name des Wettbewerbs. )
Zunächst, führen Sie diesen Befehl, um herauszufinden, wo diese colab-Datei vorhanden ist, wie es ausgeführt wird.
!ls -d $PWD/*
Es wird sich zeigen
/content/data /content/gdrive /content/models
In anderen Worten, das aktuelle Verzeichnis ist root/content/. Working directory(pwd) ist /content/. also, wenn Sie
!ls
, es wird sich zeigendata gdrive models
.FYI, ! ermöglicht die Ausführung von linux-Befehlen innerhalb colab.
Google Drive hält die Säuberung der /content Ordner. Daher, jede Sitzung, die Sie verwenden, colab, das herunterladen von Daten-sets, kaggle json-Datei wird verschwunden sein. Deshalb ist es wichtig, den Prozess zu automatisieren, also können Sie konzentrieren sich auf das schreiben von code, nicht die Einrichtung der Umgebung, jeder Zeit.
Führen Sie diese im colab-code-block als Beispiel mit Ihren eigenen api-key. öffnen kaggle.json-Datei. finden Sie Sie heraus.
Führen
!ls
wieder. Finden Sie alle Daten, die Sie brauchen.Hoffe, es hilft!
Kombiniert die top-Antwort auf diese Github-gist als Colab Umsetzung. Sie können direkt kopieren Sie den code und verwenden Sie es.
So Importieren Sie einen Datensatz aus Kaggle im Colab
Methode:
Zuerst ein paar Dinge, die Sie tun müssen:
kaggle.json
Nun überprüfen, ob es geklappt hat!
Herunterladen die competitve-Daten auf google-colab von kaggle.
Ich arbeite auf google colab und ich habe durch das gleiche problem. aber ich habe zwei Dinge getan .
Zuerst müssen Sie sich registrieren Ihre Handy-Nummer zusammen mit Ihrer country-code.
Zweite, klicken Sie auf den letzten Beitrag auf der kaggle-dataset Seite
Dann laden Sie kaggle.json-Datei von kaggle.upload kaggle.json auf der google-colab
Danach auf google colab führen Sie diesen code ist unten angegeben.