Lesen Sie csv aus Google Cloud storage pandas dataframe

Ich versuche, mich zum Lesen einer csv-Datei vorhanden auf der Google Cloud Storage-bucket auf Pandas dataframe.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from io import BytesIO

from google.cloud import storage

storage_client = storage.Client()
bucket = storage_client.get_bucket('createbucket123')
blob = bucket.blob('my.csv')
path = "gs://createbucket123/my.csv"
df = pd.read_csv(path)

Es zeigt diese Fehlermeldung:

FileNotFoundError: File b'gs://createbucket123/my.csv' does not exist

Was mache ich falsch, ich bin nicht in der Lage zu finden, jede Lösung, die nicht mit google datalab?

InformationsquelleAutor user1838940 | 2018-03-19

UPDATE

Ab der version 0.24 von pandas, read_csv unterstützt das Lesen direkt aus Google Cloud Storage. Geben Sie einfach link zu dem Eimer wie diese:

df = pd.read_csv('gs://bucket/your_path.csv')

Lasse ich die drei anderen Optionen der Vollständigkeit halber.

Home-made-code
gcsfs
dask

Ich werde Sie unten.

Die harte Tour: do-it-yourself-code

Ich geschrieben habe, einige Komfort-Funktionen zum Lesen von Google-Speicherplatz. Um Sie lesbarer zu machen, fügte ich Typ-Annotationen. Wenn Sie zufällig auf Python 2, einfach entfernen Sie diese und code wird funktionieren alle gleich.

Es funktioniert gleichermaßen auf öffentliche und private Daten-sets, vorausgesetzt, Sie sind zugelassen. In diesem Ansatz müssen Sie nicht zuerst herunterladen der Daten auf Ihrem lokalen Laufwerk.

Wie es zu benutzen:

fileobj = get_byte_fileobj('my-project', 'my-bucket', 'my-path')
df = pd.read_csv(fileobj)

Code:

from io import BytesIO, StringIO
from google.cloud import storage
from google.oauth2 import service_account

def get_byte_fileobj(project: str,
                     bucket: str,
                     path: str,
                     service_account_credentials_path: str = None) -> BytesIO:
    """
    Retrieve data from a given blob on Google Storage and pass it as a file object.
    :param path: path within the bucket
    :param project: name of the project
    :param bucket_name: name of the bucket
    :param service_account_credentials_path: path to credentials.
           TIP: can be stored as env variable, e.g. os.getenv('GOOGLE_APPLICATION_CREDENTIALS_DSPLATFORM')
    :return: file object (BytesIO)
    """
    blob = _get_blob(bucket, path, project, service_account_credentials_path)
    byte_stream = BytesIO()
    blob.download_to_file(byte_stream)
    byte_stream.seek(0)
    return byte_stream

def get_bytestring(project: str,
                   bucket: str,
                   path: str,
                   service_account_credentials_path: str = None) -> bytes:
    """
    Retrieve data from a given blob on Google Storage and pass it as a byte-string.
    :param path: path within the bucket
    :param project: name of the project
    :param bucket_name: name of the bucket
    :param service_account_credentials_path: path to credentials.
           TIP: can be stored as env variable, e.g. os.getenv('GOOGLE_APPLICATION_CREDENTIALS_DSPLATFORM')
    :return: byte-string (needs to be decoded)
    """
    blob = _get_blob(bucket, path, project, service_account_credentials_path)
    s = blob.download_as_string()
    return s


def _get_blob(bucket_name, path, project, service_account_credentials_path):
    credentials = service_account.Credentials.from_service_account_file(
        service_account_credentials_path) if service_account_credentials_path else None
    storage_client = storage.Client(project=project, credentials=credentials)
    bucket = storage_client.get_bucket(bucket_name)
    blob = bucket.blob(path)
    return blob

gcsfs

gcsfs ist "Pythonic Datei-system für Google Cloud Storage".

Wie es zu benutzen:

import pandas as pd
import gcsfs

fs = gcsfs.GCSFileSystem(project='my-project')
with fs.open('bucket/path.csv') as f:
    df = pd.read_csv(f)

dask

Dask "bietet erweiterte Parallelität für Analysen, sodass die Leistung bei der Skala für die tools, die Sie lieben". Es ist toll, wenn Sie brauchen, um den Umgang mit großen Datenmengen in Python. Dask versucht zu imitieren, um viel von der pandas API, so dass es einfach zu bedienen für Einsteiger.

Hier ist die read_csv

Wie es zu benutzen:

import dask.dataframe as dd

df = dd.read_csv('gs://bucket/data.csv')
df2 = dd.read_csv('gs://bucket/path/*.csv') # nice!

# df is now Dask dataframe, ready for distributed processing
# If you want to have the pandas version, simply:
df_pd = df.compute()

Hinzufügen @LukaszTracewski finde ich, dass die fs_gcsfs ist robuster als gcsfs. Vorbei Eimer-Objekt zu einem BytesIO für mich funktioniert.

InformationsquelleAutor Lukasz Tracewski

Andere Möglichkeit ist die Verwendung TensorFlow, die kommt mit der Fähigkeit zu tun, ein streaming-Lesen von Google-Cloud-Speicher:

from tensorflow.python.lib.io import file_io
with file_io.FileIO('gs://bucket/file.csv', 'r') as f:
  df = pd.read_csv(f)

Mit tensorflow gibt Ihnen auch eine bequeme Art und Weise zu handhaben wildcards im Dateinamen. Zum Beispiel:

Lesen wildcard CSV in Pandas

Hier ist code, der gelesen wird, alle CSVs entsprechen einem bestimmten Muster (e.g: gs://bucket/some/dir/Zug-*) in ein Pandas dataframe:

import tensorflow as tf
from tensorflow.python.lib.io import file_io
import pandas as pd

def read_csv_file(filename):
  with file_io.FileIO(filename, 'r') as f:
    df = pd.read_csv(f, header=None, names=['col1', 'col2'])
    return df

def read_csv_files(filename_pattern):
  filenames = tf.gfile.Glob(filename_pattern)
  dataframes = [read_csv_file(filename) for filename in filenames]
  return pd.concat(dataframes)

Nutzung

DATADIR='gs://my-bucket/some/dir'
traindf = read_csv_files(os.path.join(DATADIR, 'train-*'))
evaldf = read_csv_files(os.path.join(DATADIR, 'eval-*'))

InformationsquelleAutor Lak

3

read_csv nicht unterstützen gs://

Aus der Dokumentation:

Könnte der string eine URL. Gültigen URL-Schemata sind http, ftp, s3,
und die Datei. Für Datei-URLs, ein Gastland wird erwartet. Zum Beispiel eine lokale
Datei file ://localhost/path/to/Tisch.csv -

Können Sie laden Sie die Datei herunter oder Holen Sie als string, um Sie zu manipulieren.
- neue version ist 0.24.2
InformationsquelleAutor Burhan Khalid
2

Als der pandas==0.24.0 dieses nativ unterstützt wird, wenn Sie gcsfs installiert: https://github.com/pandas-dev/pandas/pull/22704.

Bis zum offiziellen release können Sie versuchen, es mit pip install pandas==0.24.0rc1.

InformationsquelleAutor bnaul
1

Gibt es drei Möglichkeiten für den Zugriff auf Dateien in der GCS:
1. Herunterladen der client-Bibliothek (diese für Sie)
2. Verwendung von Cloud Storage-Browser in der Google-Cloud-Plattform Konsole
3. Mit gsutil, ein Befehlszeilen-Werkzeug für die Arbeit mit Dateien im Cloud-Speicher.
Unter Anwendung von Schritt 1, setup der GSC für Ihre Arbeit. Nach dem haben Sie:
```
import cloudstorage as gcs
from google.appengine.api import app_identity
```
Dann müssen Sie die Cloud-Storage-bucket-Namen und erstellen von lese - /schreib-Funktionen für den Zugriff auf Ihre Eimer ein:

Finden Sie die restlichen Lesen/schreiben-tutorial hier:

InformationsquelleAutor Ahmad M.
1

Wenn ich deine Frage verstanden korrekt, dann vielleicht dieser link kann u helfen sich einen besseren URL für Ihre read_csv() Funktion :

https://cloud.google.com/storage/docs/access-public-data
- einfache, aber ausgezeichnete Lösung.
InformationsquelleAutor shubham

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.