Kopieren von Daten von Amazon S3, um die Rotverschiebung und vermeiden Sie doppelte Zeilen

Ich bin kopieren von Daten von Amazon S3, um die Rotverschiebung. Während dieses Prozesses, ich brauche zu vermeiden, die gleichen Dateien wieder geladen. Ich habe keine eindeutige Einschränkungen auf meinem Rotverschiebung Tabelle. Gibt es eine Möglichkeit dies umzusetzen mit dem Befehl copy?

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Ich habe versucht, das hinzufügen unique-Einschränkung und Einstellung-Spalte als primary key mit kein Glück. Die Rotverschiebung scheint das nicht zu unterstützen unique/primary key-Einschränkungen.

InformationsquelleAutor Rupesh Nangalia | 2013-03-29

5

Meine Lösung ist, führen Sie eine 'löschen' - Befehl vor 'copy' auf dem Tisch. In meinem Anwendungsfall, jedes mal muss ich zum kopieren der Datensätze einer täglichen snapshot, um die Rotverschiebung Tabelle, so kann ich auch mit dem folgenden "löschen" - Befehl, um sicherzustellen doppelte Datensätze gelöscht werden, dann führen Sie den "copy" - Befehl.

DELETE from t_data where snapshot_day = 'xxxx-xx-xx";
- Ich habe eine ähnliche Lösung.
- preemptying der Tabellen ist immer eine gute Praxis
InformationsquelleAutor ciphor
15

Als user1045047 erwähnt, Amazon Redshift unterstützen nicht, unique-Einschränkungen, also ich war auf der Suche nach der Möglichkeit zum löschen von doppelten Datensätzen aus einer Tabelle mit einem delete-Anweisung.
Schließlich fand ich heraus, ein vernünftiger Weg.

Amazon Redshift unterstützt das erstellen einer IDENTITY-Spalte gespeichert ist, eine automatisch generierte, eindeutige Nummer.
http://docs.aws.amazon.com/redshift/latest/dg/r_CREATE_TABLE_NEW.html

Den folgenden sql für PostgreSQL zu löschen doppelte Datensätze mit der OID ist eine eindeutige Spalte, und Sie können diese sql durch den Austausch OID mit der identity-Spalte.
```
DELETE FROM duplicated_table WHERE OID > (
　SELECT MIN(OID) FROM duplicated_table d2
　　WHERE column1 = d2.dupl_column1
　　AND column2 = d2.column2
);
```
Hier ist ein Beispiel, getestet habe ich auf mein Amazon Redshift-cluster.
```
create table auto_id_table (auto_id int IDENTITY, name varchar, age int);

insert into auto_id_table (name, age) values('John', 18);
insert into auto_id_table (name, age) values('John', 18);
insert into auto_id_table (name, age) values('John', 18);
insert into auto_id_table (name, age) values('John', 18);
insert into auto_id_table (name, age) values('John', 18);
insert into auto_id_table (name, age) values('Bob', 20);
insert into auto_id_table (name, age) values('Bob', 20);  
insert into auto_id_table (name, age) values('Matt', 24); 

select * from auto_id_table order by auto_id; 
 auto_id | name | age 
---------+------+-----
       1 | John |  18
       2 | John |  18
       3 | John |  18
       4 | John |  18
       5 | John |  18
       6 | Bob  |  20
       7 | Bob  |  20
       8 | Matt |  24    
(8 rows) 

delete from auto_id_table where auto_id > (
  select min(auto_id) from auto_id_table d
    where auto_id_table.name = d.name
    and auto_id_table.age = d.age
);

select * from auto_id_table order by auto_id;
 auto_id | name | age 
---------+------+-----
       1 | John |  18
       6 | Bob  |  20
       8 | Matt |  24
(3 rows)
```
Außerdem funktioniert es mit dem KOPIEREN-Befehl wie diesen.
- auto_id_table.csv -
```
John,18
Bob,20
Matt,24
```
- kopieren der sql
```
copy auto_id_table (name, age) from '[s3-path]/auto_id_table.csv' CREDENTIALS 'aws_access_key_id=[your-aws-key-id] ;aws_secret_access_key=[your-aws-secret-key]' delimiter ','; 
```
Der Vorteil dieser Möglichkeit ist, dass Sie nicht brauchen, um ausführen von DDL-Anweisungen. Aber es funktioniert nicht mit vorhandenen Tabellen, die nicht über eine identity-Spalte, da eine identity-Spalte kann nicht Hinzugefügt werden, um eine vorhandene Tabelle. Der einzige Weg, um löschen Sie doppelte Datensätze mit vorhandenen Tabellen ist die Migration sämtlicher Datensätze wie diese. (gleiche wie user1045047 Antwort)
```
insert into temp_table (select distinct from original_table);
drop table original_table;
alter table temp_table rename to original_table;
```
- Es ist mir nicht klar, wie Ihre copy sql zeigt, dass es behandelt Duplikate richtig. Für die Daten, die Sie laden, audo_id_table.csv, es hat einfach 3 eindeutige Zeilen, Nein?
- Der Punkt ist, dass Sie können löschen Sie doppelte Datensätze leicht. Auch wenn Sie copy auto_id_table drei mal bekommen und drei doppelte Datensätze, werden diese duplizierten Datensätze gelöscht werden, die mit den oben genannten delete from auto_id_table.... Abfrage.
- Mit diesem Ansatz brauchst du, um die VAKUUM - Befehl? Ich lese hier: If you use multiple concurrent COPY commands to load one table from multiple files, Amazon Redshift is forced to perform a serialized load, which is much slower and requires a VACUUM at the end if the table has a sort column defined
- Läuft VAKUUM und ANALYSIEREN ist besser, nach diesem, aber nicht notwendig, da VAKUUM dauert einige Kosten. In meinem Fall, da die Anzahl der doppelten Datensätze sind klein, ich Zeitplan ausgeführt VAKUUM einmal pro Tag, so dass ich nicht laufen Sie mit dieser Abfrage.
InformationsquelleAutor Masashi Miyazaki
6

Mmm..

Was einfach nie das laden von Daten in das master-Tabelle direkt.

Schritte, um Doppelarbeit zu vermeiden:
1. begin transaction
2. massenladevorgang in eine temp-staging-Tabelle
3. löschen von master-Tabelle, wo Zeilen = staging-Tabelle Zeilen
4. insert into master-Tabelle aus der staging-Tabelle (merge)
5. drop-staging-Tabelle
6. Ende der Transaktion.
dies ist auch ~~super~~ etwas schnell, und empfohlen von Rotverschiebung docs.
- Können Sie bitte näher auf die "das ist auch super schnell" - Teil dieser Antwort? Wir haben eine Tabelle, die viele Milliarden von Zeilen, und wir verwenden diese Methode, wie empfohlen von der Amazon-docs, aber es sei denn, wir machen etwas falsch, es ist sicherlich nicht super schnell. Dies ist mit Abstand der Engpass unserer ETL-Prozess.
- Ich denke, super schnell, ist sehr subjektiv. Ich habe nur gearbeitet, in den Millionen von Zeilen, nicht von vielen Milliarden...aber gibt es nicht einen schnelleren Prozess als das, um sicherzustellen, dass keine doppelten Datensätze, die ich gehört habe, noch. (Daran interessiert zu hören, wenn Sie etwas haben)
- Problem mit diesem ist, wenn die staging-Tabelle doppelte Datensätze.
- Ja, wenn die staging-Tabelle bekommt doppelte Zeilen Sie einfügen Duplikate. Was wir tun, ist schreiben unsere merge-sql mit dem im Verstand...mehr oder weniger group by des zusammengesetzten Schlüssels und tun alle notwendigen Aggregate oder first_value um Duplikate zu vermeiden, wenn Sie.
InformationsquelleAutor Kyle Gobel
4

Derzeit gibt es keine Möglichkeit, Duplikate entfernen von Rotverschiebung. Rotverschiebung nicht unterstützt, primary key/unique key constraints, und auch das entfernen von Duplikaten mit Hilfe von Zeilennummern ist nicht eine option (löschen von Zeilen mit Zeilen-Zahl größer als 1) als die delete-operation auf die Rotverschiebung nicht erlaubt komplexe Aussagen (Auch das Konzept der Zeilennummer nicht vorhanden in Rotverschiebung).

Der beste Weg, um Duplikate entfernen ist das erstellen eines cron/Quarz-job, würden Sie alle eindeutigen Zeilen, steckte Sie in einer separaten Tabelle und benennen Sie die Tabelle mit Ihrer ursprünglichen Tabelle.

Insert into temp_originalTable (Select Distinct from originalTable)

Drop table originalTable

Alter table temp_originalTable rename to originalTable
- Können wir dies umsetzen, während wir fügen neue Datensätze in die Tabelle. Wir checkten in der Tabelle zunächst, bevor Sie es.Falls Datensätze vorhanden sind, würden wir löschen Sie die Zeile vor einfügen.
- Haben Sie sich überlegt mit einer Transaktion?
InformationsquelleAutor user1045047

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.