Pandas read_csv von der URL

Ich bin mit Python 3.4 mit IPython und habe den folgenden code. Ich bin nicht in der Lage zum Lesen einer csv-Datei von der angegebenen URL:

import pandas as pd
import requests

url="https://github.com/cs109/2014_data/blob/master/countries.csv"
s=requests.get(url).content
c=pd.read_csv(s)

Habe ich die folgende Fehlermeldung

"Erwartet-Datei Pfad name oder Datei-ähnliches Objekt, got type"

Wie kann ich dieses Problem beheben?

Kommentar zu dem Problem

Müssten Sie so etwas wie c=pd.read_csv(io.StringIO(en.decode("utf-8"))), aber Sie sind immer html nicht hin, eine csv-Datei, so dass es nicht zur Arbeit zu gehen Kommentarautor: Padraic Cunningham

Ich bin mir ziemlich sicher, das URL, die Sie wollen, ist "https://raw.github.com/cs109/2014_data/blob/master/countries.csv". Kommentarautor: IanAuld

InformationsquelleAutor der Frage venom | 2015-09-04

65

Genau wie der Fehler schon sagt , pandas.read_csv braucht ein file-like-Objekt als erstes argument.

Wenn Sie möchten, Lesen Sie die csv aus einer Zeichenfolge, die Sie verwenden können, io.StringIO (Python 3.x) oder StringIO.StringIO (Python-2.x) .

Auch für die URL - https://github.com/cs109/2014_data/blob/master/countries.csv - Sie sind immer wieder html Antwort , nicht roh-csv verwenden, sollten Sie die url von der Raw link in der github-Seite für die erste raw-csv-Antwort , die - https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv

Beispiel -
```
import pandas as pd
import io
import requests
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
s=requests.get(url).content
c=pd.read_csv(io.StringIO(s.decode('utf-8')))
```
Update

Von pandas 0.19.2 jetzt können Sie nur übergeben Sie die url direkt.

InformationsquelleAutor der Antwort Anand S Kumar
94

In der neuesten version des pandas (0.19.2) können Sie direkt die Weitergabe der url
```
import pandas as pd

url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
c=pd.read_csv(url)
```
InformationsquelleAutor der Antwort inodb

Wie ich sagte, die Sie benötigen, um ein StringIO-Objekt und-Dekodierung ich.e c=pd.read_csv(io.StringIO(s.decode("utf-8"))) wenn Sie mit Anfragen, die Sie brauchen, um zu entschlüsseln, wie .Inhalt zurück bytes, wenn Sie verwendet werden .text würden Sie gerade brauchen, um passieren s wie s = requests.get(url).text c = pd.read_csv(StringIO(s)).

Einfacher Ansatz ist, um das korrekte url des raw Daten direkt an read_csv Sie nicht haben, um einen Datei-wie-Objekt, übergeben Sie eine url, so brauchen Sie nicht Anfragen an alle:

c = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")

print(c)

Ausgabe:

                              Country         Region
0                             Algeria         AFRICA
1                              Angola         AFRICA
2                               Benin         AFRICA
3                            Botswana         AFRICA
4                             Burkina         AFRICA
5                             Burundi         AFRICA
6                            Cameroon         AFRICA
..................................

Aus der docs:

filepath_or_buffer :

string oder Datei-handle /StringIO
Der string könnte eine URL. Gültigen URL-Schemata sind http, ftp, s3, und die Datei. Für Datei-URLs, die ein host zu rechnen. Zum Beispiel eine lokale Datei sein könnte, file ://localhost/path/to/Tisch.csv -

InformationsquelleAutor der Antwort Padraic Cunningham

3

Des Problems, das Sie haben ist, dass die Ausgabe in die variable 's' ist nicht um eine csv -, sondern eine html-Datei.
Um die raw-csv, müssen Sie ändern Sie die url zu:

'https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv'

Ihre zweite problem ist, dass read_csv erwartet einen Dateinamen, wir können dies lösen, indem Sie mit StringIO von io-Modul.
Drittes problem ist, dass Anfrage.get(url).die Inhalte liefert ein byte-stream, wir lösen können, dies mit der Anfrage.get(url).text statt.

Ergebnis ist dieser code:
```
from io import StringIO

import pandas as pd
import requests
url='https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv'
s=requests.get(url).text

c=pd.read_csv(StringIO(s))
```
Ausgabe:
```
>>> c.head()
    Country  Region
0   Algeria  AFRICA
1    Angola  AFRICA
2     Benin  AFRICA
3  Botswana  AFRICA
4   Burkina  AFRICA
```
InformationsquelleAutor der Antwort PabTorre

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Update