Informatica - Duplikat-Eliminierung
Bin ich mit einem flachen Datei mit 10 Datensätzen, und heraus 5 Datensätze doppelte Datensätze (unique key column: Customer_Id
und source_system
). Diese flat-Datei zu laden, um eine Oracle-Tabelle-und dies ist der erste laden.
Wie kann ich das beseitigen der Duplikate?
InformationsquelleAutor Muthukumar | 2012-01-30
Du musst angemeldet sein, um einen Kommentar abzugeben.
Es gibt durchaus ein paar Möglichkeiten, dies zu behandeln:
InformationsquelleAutor nolt2232
Können Sie immer verwenden, einen Aggregator zu verwandeln und die Gruppe von allen Daten, die Sie behalten möchten es unterschiedliche für. Also, wenn Sie group by alle Spalten nur diejenigen, die distinct wird kommen das Ende.
InformationsquelleAutor dark sun
Können Sie verwenden, sorter und prüfen Sie die Last deutliche Reihen.
InformationsquelleAutor Nitin
SRC-->SQ-->SRT-->EXP-->RTR-->TGT
Du inout von der Quelle ist
Col1 Col2
1 A
1 B
2 C
2 D
1 E
1 F
3 G
4 H
5 ich
6 J
4 K
3 L
In sorter Sortieren von Daten von col1 und nach sorter Daten sieht wie folgt aus
Col1 Col2
1 A
1 B
1 E
1 F
2 C
2 D
3 G
3 L
4 K
4 H
5 ich
6 J
In exp man hat zwei input-ports
in_col1
in_col2
variable erstellen-ports und Ausgangs-ports in der Reihenfolge, wie unten
v_FLAG= IIF(v_col1=in_col1,2,1)
v_col1=in_col1
out_FLAG=v_FLAG
Dann heraus setzen Ausdruck von Daten sieht wie folgt aus
Col1 Col2 FLAGGE
1,A, 1
1, B, 2
1, E, 2
1, F, 2
2, C, 1
2, D, 2
3, G, 1
3, L, 2
4, K,1
4, H, 2
5, I, 1
6, J, 1
Im router erstellen Sie zwei Gruppen, eine für eindeutige Datensätze und weiterer für Sie doppelte Datensätze.
einzigartigen=(FLAG=1)
doppelte=(FLAG=2)
verbinden von zwei Gruppen, um zwei Ziele.SRC-->SQ-->SRT-->EXP-->RTR-->TGT
Du inout von der Quelle ist
Col1 Col2
1 A
1 B
2 C
2 D
1 E
1 F
3 G
4 H
5 ich
6 J
4 K
3 L
In sorter Sortieren von Daten von col1 und nach sorter Daten sieht wie folgt aus
Col1 Col2
1 A
1 B
1 E
1 F
2 C
2 D
3 G
3 L
4 K
4 H
5 ich
6 J
In exp man hat zwei input-ports
in_col1
in_col2
variable erstellen-ports und Ausgangs-ports in der Reihenfolge, wie unten
v_FLAG= IIF(v_col1=in_col1,2,1)
v_col1=in_col1
out_FLAG=v_FLAG
Dann heraus setzen Ausdruck von Daten sieht wie folgt aus
Col1 Col2 FLAGGE
1,A, 1
1, B, 2
1, E, 2
1, F, 2
2, C, 1
2, D, 2
3, G, 1
3, L, 2
4, K,1
4, H, 2
5, I, 1
6, J, 1
Im router erstellen Sie zwei Gruppen, eine für eindeutige Datensätze und weiterer für Sie doppelte Datensätze.
einzigartigen=(FLAG=1)
doppelte=(FLAG=2)
verbinden von zwei Gruppen, um zwei Ziele.
InformationsquelleAutor arjoon