Proc SQL und entfernen von Duplikaten, die durch eine einzelne variable

PROC SQL Neuling hier - ich will Proc SQL verketten (stack), ID und Rasse die Daten aus zwei verschiedenen datasets, während auch das entfernen von Duplikaten durch die ID (und NICHT von beiden-ID und Race) - ist das möglich? Zum Beispiel, nach dem kombinieren der Daten unten, ich will nur die erste Instanz der ID=1 (wo Rennen=weiß), und nicht sowohl {(1, Weiß) und (1, Schwarz)}

Beispieldaten:

DATA SAMPLE1;
    INPUT ID RACE$;
    DATALINES;
    1 WHITE
    2 BLACK
    3 WHITE
    4 BLANK
    ;
RUN; 
DATA SAMPLE2;
    INPUT ID RACE$;
    DATALINES;
    5 HISPANIC
    6 ASIAN
    7 HISPANIC
    8 ASIAN
    1 BLACK
    ;
RUN;

InformationsquelleAutor user2657946 | 2013-08-06

3

Dies ist nicht etwas, das SQL ist so gut wie normal SAS, aber es ist sicherlich möglich.

Wenige Optionen:

Outer join, mit COALESCE. Schwerer zu schreiben als andere Optionen, wie Sie schreiben, jede variable zweimal in den ersten wählen.
```
proc sql;
select coalesce(s1.id,s2.id) as id, coalescec(s1.race,s2.race) as race from (
(select * from sample2) s2
full outer join
(select *,"1" as sample1 from sample1) s1
on s2.id=s1.id);
quit;
```
Union mit einer EXISTS-Unterabfrage. Langsamer je nach der Größe der Tabellen, ist das ein 10k-Tabelle kombiniert mit einer 10-Zeilen-Tabelle, ist dies eine schnelle Lösung, wenn es 2 10k-Tabellen, das ist langsam.
```
proc sql;
select * from sample1
union
select * from sample2 where not exists (
  select 1 from sample1 where sample1.id=sample2.id
);
quit;
```
Union BEITRETEN. Möglicherweise schneller als die obige Abfrage, je nach Indizierung und so.
```
proc sql;
select * from sample1
union
select sample2.* from sample2 
  left join sample1
  on sample1.id=sample2.id
  where missing(sample1.id);
quit;
```
Aber die einfachste Lösung in SAS ist zweifellos, es zu tun in SAS.
```
data sample12_view/view=sample12_view;
set sample1 sample2;
run;

proc sort nodupkey data=sample12_view out=sample12;
by id;
run;
```
oder
```
data sample12;
merge sample1(in=s1) sample2(in=s2);
by id;
run;
```
In diesem Fall s2 ersetzt in s1, also, wenn Sie lieber die andere option ändern Sie die Reihenfolge der merge-Anweisung.
- Der beste Weg ist es, tun Sie es mit proc sort und option nodupkeys. Hinzufügen dupout=dups, um alle duplicats in einem sas-dataset.
InformationsquelleAutor Joe

Tatsächlich, Sie sollten angeben, welche Duplikate zu halten - SQL versucht deterministisch sein. So etwas wie dies funktionieren sollte:

proc sql;
    create table both_samples as
        select * from (
            (select *
            from sample1 )
            union ( select *
                    from sample2 )
        )
        group by id
        having race = max( race )
    ;
quit;
proc print data = both_samples noobs;
run;

1    WHITE
2    BLACK
3    WHITE
4    BLANK
5    HISPANIC
6    ASIAN
7    HISPANIC
8    ASIAN

InformationsquelleAutor Anton

Dieser gibt Ihnen die Antwort, die Sie angegeben:

proc sql;
create table all as 
    select monotonic() as _n_, * from sample1
union all
    select monotonic() as _n_, * from sample2; 

create table distinct_ids as 
    select id, min(_n_) as _n_ from all group by 1;

create table results as
    select a.id
        ,(select race from all where all.id=a.id and all._n_=a._n_) as race
    from distinct_ids a;

InformationsquelleAutor Allan Bowe

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.