Hive: Wie man eine SELECT-Abfrage für die Ausgabe der eindeutige Primärschlüssel mit HiveQL?

Habe ich Folgendes schema dataset, das will ich verwandeln in eine Tabelle, die exportiert werden können, um SQL. Ich bin mit HIVE. Eingabe wie folgt

call_id,stat1,stat2,stat3
1,a,b,c,
2,x,y,z,
3,d,e,f,
1,j,k,l,

Den output-Tabelle haben muss, um call_id als seine primäre Schlüssel, also muss er einzigartig sein. Die output-schema werden sollte

call_id,stat2,stat3,
1,b,c, or (1,k,l)
2,y,z,
3,e,f,

Das problem ist, dass wenn ich das Stichwort DISTINCT im HIVE Abfrage, die DISTINCT gilt für alle Spalten zusammen. Ich möchte die DISTINCT-Vorgang nur die call_id. Etwas auf den Linien der

SELECT DISTINCT(call_id), stat2,stat3 from intable;

Dies ist jedoch nicht gültig in HIVE(ich bin nicht sehr versiert in SQL, entweder).

Nur rechtliche Fragen zu sein scheint

SELECT DISTINCT call_id, stat2,stat3 from intable; 

Aber dieser liefert mehrere Zeilen mit gleichen call_id wie die anderen Spalten sind andere und die Zeile auf die gesamte unterscheidbar ist.

HINWEIS: Es ist keine arithmetische Beziehung zwischen a,b,c,x,y,z, etc. Also irgendeinen trick der Mittelwertbildung oder Summierung ist nicht lebensfähig.

Irgendwelche Ideen, wie ich dies tun kann?

InformationsquelleAutor auny | 2013-02-22
Schreibe einen Kommentar