hive-sql finden Sie die neuesten Datensatz

dem Tisch ist:

create table test (
id string,
name string,
age string,
modified string)

Daten wie diese:

id    name   age  modifed
1     a      10   2011-11-11 11:11:11
1     a      11   2012-11-11 12:00:00
2     b      20   2012-12-10 10:11:12
2     b      20   2012-12-10 10:11:12
2     b      20   2012-12-12 10:11:12
2     b      20   2012-12-15 10:11:12

Ich möchte den aktuellen Datensatz(jede Spalten-id,name,Alter,modifiziert) group by id,wie die oben angeführten Daten,das richtige Ergebnis ist:

1     a      11   2012-11-11 12:00:00
2     b      20   2012-12-15 10:11:12

Ich dies so tun:

insert overwrite table t 
select b.id, b.name, b.age, b.modified 
from (
        select id,max(modified) as modified 
        from test 
        group by id
) a 
left outer join test b on (a.id=b.id  and a.modified=b.modified);

Diese sql kann das richtige Ergebnis,aber bei der Masse von Daten，es läuft langsam.

**Gibt es eine Möglichkeit, dies zu tun, ohne left-outer-join? **

InformationsquelleAutor der Frage qiulp | 2012-11-23

41

Gibt es eine fast nicht dokumentierte Funktion von Hive-SQL (ich fand es in einem Ihrer Jira-bug-reports), können Sie etwas tun, wie argmax() mit struct()s ist. Zum Beispiel, wenn Sie haben eine Tabelle wie:
```
test_argmax
id,val,key
1,1,A
1,2,B
1,3,C
1,2,D
2,1,E
2,1,U
2,2,V
2,3,W
2,2,X
2,1,Y
```
Können Sie dies tun:
```
select 
  max(struct(val, key, id)).col1 as max_val,
  max(struct(val, key, id)).col2 as max_key,
  max(struct(val, key, id)).col3 as max_id
from test_argmax
group by id
```
erhalten Sie das Ergebnis:
```
max_val,max_key,max_id
3,C,1
3,W,2
```
Ich denke, im Fall von Bindungen auf val (das erste struct element) wird wieder zum Vergleich auf die zweite Spalte. Ich habe auch noch nicht herausgefunden, ob es ein ordentlicher syntax für das abrufen der einzelnen Spalten wieder aus der resultierenden Struktur, die vielleicht named_struct irgendwie?

InformationsquelleAutor der Antwort patricksurry
6

Es ist eine relativ neue Funktion von Hive-SQL, analytische Funktionen und die over-Klausel. Dies sollte den job tun, ohne joins
```
select id, name, age, last_modified 
from ( select id, name, age, modified, 
              max( modified) over (partition by id) as last_modified 
       from test ) as sub
where   modified = last_modified 
```
Was hier Los ist, dass die Unterabfrage erzeugt eine neue Zeile mit einer zusätzlichen Spalte last_modified, die hat die neueste modified-Zeitstempel für die entsprechende person-id. (Ähnlich zu dem, was group by würde das tun), Der Schlüssel hier ist, dass die Unterabfrage bekommt Sie wieder eine Zeile pro Zeile in der ursprünglichen Tabelle, und klicken Sie filter aus.

Gibt es eine chance, dass auch die einfachere Lösung funktioniert:
```
select  id, name, age,  
        max( modified) over (partition by id) last_modified 
from test 
where   modified = last_modified 
```
Durch die Art und Weise, der gleiche code funktioniert in Impala, auch.

InformationsquelleAutor der Antwort Mateo

Geben diesem einen Versuch:

select t1.* from test t1
join (
  select id, max(modifed) maxModified from test
  group by id
) s
on t1.id = s.id and t1.modifed = s.maxModified

Fiddle hier.

Left-outer-join-Lösung hier.

Lassen Sie uns wissen, welches schneller läuft 🙂

InformationsquelleAutor der Antwort Mosty Mostacho

Nur etwas anderer Ansatz als das, was bereits beantwortet wurde in früheren Antwort.

Folgende Beispiel verwendet hive-windowing Funktion, um herauszufinden, den neuesten Datensatz, Lesen Sie mehr hier

SELECT t.id
    ,t.name
    ,t.age
    ,t.modified
FROM (
    SELECT id
        ,name
        ,age
        ,modified
        ,ROW_NUMBER() OVER (
            PARTITION BY id ORDER BY unix_timestamp(modified,'yyyy-MM-dd hh:mm:ss') DESC
            ) AS ROW_NUMBER   
    FROM test
    ) t
WHERE t.ROW_NUMBER <= 1;

Den geänderten string so konvertieren timestamp mit unix_timestamp(modified,'yyyy-MM-dd hh:mm:ss') dann anwenden, um durch auf-und Zeitstempel.

InformationsquelleAutor der Antwort Rahul Sharma

versuchen, diese

select id,name,age,modified from test
 where modified=max(modified)
 group by id,name

InformationsquelleAutor der Antwort SRIRAM

0

Wenn u können, stellen Sie sicher, dass die Zeile, die geändert hat, max hat auch max Alter in der gleichen Zeile id gesetzt.

Versuchen
```
select id, name, max(age), max(modified) 
from test
group by id, name
```
InformationsquelleAutor der Antwort pensz

Vermuten, dass der Daten ist wie folgt:

    id      name    age     modifed
    1       a       10      2011-11-11 11:11:11
    1       a       11      2012-11-11 12:00:00
    2       b       23      2012-12-10 10:11:12
    2       b       21      2012-12-10 10:11:12
    2       b       22      2012-12-15 10:11:12
    2       b       20      2012-12-15 10:11:12

dann das Ergebnis der obigen Abfrage werden Ihnen - (beachten Sie bitte, wiederholt 2, b mit dem gleichen Datum, Zeit)

    1       a       11      2012-11-11 12:00:00
    2       b       22      2012-12-15 10:11:12
    2       b       20      2012-12-15 10:11:12

Diese Abfrage läuft eine zusätzliche Gruppe durch und ist weniger effizient, sondern Sie gibt das richtige Ergebnis -

    select collect_set(b.id)[0], collect_set(b.name)[0], collect_set(b.age)[0], b.modified
    from
        (select id, max(modified) as modified from test group by id) a
      left outer join
        test b
      on
        (a.id=b.id and a.modified=b.modified)
    group by
      b.modified;

dann das Ergebnis der obigen Abfrage werden Ihnen

    1       a       11      2012-11-11 12:00:00
    2       b       20      2012-12-15 10:11:12

Nun, wenn wir die Verbesserung der Abfrage ein wenig - dann statt der 3 MRs-es läuft nur eine Keping das Ergebnis dasselbe -

    select id, collect_set(name)[0], collect_set(age)[0], max(modified)
    from test 
    group by id;

Beachten Sie, dass dieser langsamer wird, im Falle Ihrer Gruppe durch Feld produziert große Ergebnisse.

InformationsquelleAutor der Antwort user 923227

0

Können Sie das gewünschte Ergebnis ohne Verwendung der left-outer-join wie diesem:

select * from test where (id, modifiziert) in(select id, max(modifiziert) from test group by id)

http://sqlfiddle.com/#!2/bfbd5/42

InformationsquelleAutor der Antwort aditya

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.