Verwendung von sqlalchemy zu laden, csv Datei in eine Datenbank

Ich versuche zu lernen Programmieren in Python. Ich möchte uns von csv-Dateien in eine Datenbank. Ist es eine gute Idee,

InformationsquelleAutor alex chan | 2015-07-13

Weil die macht von SQLAlchemy, ich bin auch mit es an ein Projekt. Seine power kommt aus der Objekt-orientierten Art und Weise "sprechen" zu einer Datenbank statt hardcoding SQL-Anweisungen, die ein Schmerz sein kann, zu verwalten. Nicht zu erwähnen, es ist auch viel schneller.

Zur Beantwortung Ihrer Frage sagen, ja! Speicherung von Daten aus einer CSV in eine Datenbank mit SQLAlchemy ist ein Stück Kuchen. Hier ist ein voll funktionsfähiges Beispiel (ich habe SQLAlchemy 1.0.6 und Python 2.7.6):

from numpy import genfromtxt
from time import time
from datetime import datetime
from sqlalchemy import Column, Integer, Float, Date
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

def Load_Data(file_name):
    data = genfromtxt(file_name, delimiter=',', skip_header=1, converters={0: lambda s: str(s)})
    return data.tolist()

Base = declarative_base()

class Price_History(Base):
    #Tell SQLAlchemy what the table name is and if there's any table-specific arguments it should know about
    __tablename__ = 'Price_History'
    __table_args__ = {'sqlite_autoincrement': True}
    #tell SQLAlchemy the name of column and its attributes:
    id = Column(Integer, primary_key=True, nullable=False) 
    date = Column(Date)
    opn = Column(Float)
    hi = Column(Float)
    lo = Column(Float)
    close = Column(Float)
    vol = Column(Float)

if __name__ == "__main__":
    t = time()

    #Create the database
    engine = create_engine('sqlite:///csv_test.db')
    Base.metadata.create_all(engine)

    #Create the session
    session = sessionmaker()
    session.configure(bind=engine)
    s = session()

    try:
        file_name = "t.csv" #sample CSV file used:  http://www.google.com/finance/historical?q=NYSE%3AT&ei=W4ikVam8LYWjmAGjhoHACw&output=csv
        data = Load_Data(file_name) 

        for i in data:
            record = Price_History(**{
                'date' : datetime.strptime(i[0], '%d-%b-%y').date(),
                'opn' : i[1],
                'hi' : i[2],
                'lo' : i[3],
                'close' : i[4],
                'vol' : i[5]
            })
            s.add(record) #Add all the records

        s.commit() #Attempt to commit all the records
    except:
        s.rollback() #Rollback the changes on error
    finally:
        s.close() #Close the connection
    print "Time elapsed: " + str(time() - t) + " s." #0.091s

(Hinweis: dies ist nicht notwendigerweise der "beste" Weg, dies zu tun, aber ich denke, dieses format ist sehr gut lesbar, für einen Anfänger; es ist auch sehr schnell: 0.091 s für 251 Datensätze eingefügt!)

Ich denke, wenn Sie durch Sie gehen Zeile für Zeile, du wirst sehen, was für ein Kinderspiel es zu bedienen ist. Beachten Sie das fehlen von SQL-Anweisungen -- Hurra! Ich nahm auch die Freiheit der Verwendung von numpy zum laden der CSV-Inhalt in zwei Zeilen, aber es kann getan werden, ohne es, wenn Sie mögen.

Wenn Sie wollten, zu vergleichen, gegen die traditionelle Art und Weise, es zu tun, hier ist ein voll funktionsfähiges Beispiel für Referenz:

import sqlite3
import time
from numpy import genfromtxt

def dict_factory(cursor, row):
    d = {}
    for idx, col in enumerate(cursor.description):
        d[col[0]] = row[idx]
    return d


def Create_DB(db):      
    #Create DB and format it as needed
    with sqlite3.connect(db) as conn:
        conn.row_factory = dict_factory
        conn.text_factory = str

        cursor = conn.cursor()

        cursor.execute("CREATE TABLE [Price_History] ([id] INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL UNIQUE, [date] DATE, [opn] FLOAT, [hi] FLOAT, [lo] FLOAT, [close] FLOAT, [vol] INTEGER);")


def Add_Record(db, data):
    #Insert record into table
    with sqlite3.connect(db) as conn:
        conn.row_factory = dict_factory
        conn.text_factory = str

        cursor = conn.cursor()

        cursor.execute("INSERT INTO Price_History({cols}) VALUES({vals});".format(cols = str(data.keys()).strip('[]'), 
                    vals=str([data[i] for i in data]).strip('[]')
                    ))


def Load_Data(file_name):
    data = genfromtxt(file_name, delimiter=',', skiprows=1, converters={0: lambda s: str(s)})
    return data.tolist()


if __name__ == "__main__":
    t = time.time() 

    db = 'csv_test_sql.db' #Database filename 
    file_name = "t.csv" #sample CSV file used:  http://www.google.com/finance/historical?q=NYSE%3AT&ei=W4ikVam8LYWjmAGjhoHACw&output=csv

    data = Load_Data(file_name) #Get data from CSV

    Create_DB(db) #Create DB

    #For every record, format and insert to table
    for i in data:
        record = {
                'date' : i[0],
                'opn' : i[1],
                'hi' : i[2],
                'lo' : i[3],
                'close' : i[4],
                'vol' : i[5]
            }
        Add_Record(db, record)

    print "Time elapsed: " + str(time.time() - t) + " s." #3.604s

(Hinweis: auch in den "alten" Weg, das ist keineswegs der beste Weg, dies zu tun, aber es ist sehr gut lesbar und ein "1 zu 1" - übersetzung aus dem SQLAlchemy Weg vs. den "alten" Weg.)

Beachten Sie die SQL-Anweisungen: eine, um die Tabelle zu erstellen, die andere zum einfügen von Datensätzen. Beachten Sie auch, dass es ein bisschen mehr umständlich zu pflegen langen SQL-strings vs. ein einfaches class-Attribut hinzu. Wünschen SQLAlchemy so weit?

Als für Ihre ausländischen key Abfrage, natürlich. SQLAlchemy hat die macht, dies auch tun. Hier ist ein Beispiel, wie ein class-Attribut Aussehen würde, wie eine foreign key-Zuordnung (vorausgesetzt, die ForeignKey Klasse wurde auch importiert aus der sqlalchemy Modul):

class Asset_Analysis(Base):
    #Tell SQLAlchemy what the table name is and if there's any table-specific arguments it should know about
    __tablename__ = 'Asset_Analysis'
    __table_args__ = {'sqlite_autoincrement': True}
    #tell SQLAlchemy the name of column and its attributes:
    id = Column(Integer, primary_key=True, nullable=False) 
    fid = Column(Integer, ForeignKey('Price_History.id'))

welche Punkte der "fid" - Spalte als Fremdschlüssel zu Price_History die id-Spalte.

Hoffe, das hilft!

Ich nehme den alten Weg mit der sql.
Dies ist nützlich, code, aber es wäre hilfreich, wenn die Daten-Datei wurde im Beispiel enthalten. Dann wäre es wirklich eigenständig.
Ich habe nicht geprüft, warum dies geschieht, aber genfromtxt gibt den Fehler zurück: genfromtxt() got an unexpected keyword argument 'skiprows'. Numpy ist 1.12.1-3 (Debian 9.0).
Faheem, eine Beispiel-CSV-Datei-URL enthalten ist in einem der Kommentare; erste Zeile in der try - Anweisung. Laden Sie es, legen wenn Sie im gleichen Verzeichnis wie dieses Skript, und führen Sie es.
Faheem, als pro docs.scipy.org/doc/numpy/reference/generated/..., skiprows war veraltet. Ersetzen skiprows=1 mit skip_header=1. Ich bearbeitet meine Antwort, um diese änderung widerzuspiegeln.

InformationsquelleAutor Manuel J. Diaz

28

Falls Ihre CSV-Datei ist Recht groß, mit INSERTS ist sehr ineffektiv. Sollten Sie eine bulk-loading-Mechanismen, die sich von Basis zu Basis. E. g. in PostgreSQL sollten Sie "KOPIEREN AUS" - Methode:
```
with open(csv_file_path, 'r') as f:    
    conn = create_engine('postgresql+psycopg2://...').raw_connection()
    cursor = conn.cursor()
    cmd = 'COPY tbl_name(col1, col2, col3) FROM STDIN WITH (FORMAT CSV, HEADER FALSE)'
    cursor.copy_expert(cmd, f)
    conn.commit()
```
Für etwas ernstes, die Sie tatsächlich verwenden möchten copy_from oder copy_expert von psycopg direkt. Diese Lösung macht es möglich, Sie Millionen von Zeilen auf einmal.
gibt es eine Möglichkeit, dies zu erreichen, ohne Sie zu importieren einige riesige Bibliothek?

InformationsquelleAutor ARA1307
1

Ich habe genau das gleiche problem, und ich fand es paradoxerweise einfacher mit einem 2-Schritt-Prozess mit den pandas:
```
import pandas as pd
with open(csv_file_path, 'r') as file:
    data_df = pd.read_csv(file)
data_df.to_sql('tbl_name', con=engine, index=True, index_label='id', if_exists='replace')
```
Beachten Sie, dass mein Ansatz ist ähnlich diese eine, aber irgendwie Google schickte mich zu diesem thread statt, so dass ich dachte, ich würde teilen.

InformationsquelleAutor BehavioralScientist

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.