So berechnen Sie den median von AWS Redshift?

Meisten Datenbanken verfügen über eine integrierte Funktion zur Berechnung des median, aber ich sehe nichts für median in Amazon Redshift.

Könnte man berechnet den median mit einer Kombination der nth_value() und count() Analyse-Funktionen, aber das scheint kitschige. Ich wäre sehr überrascht, wenn Sie ein analytics-db nicht über eine eingebaute Methode zur Berechnung der median-also ich nehme an, ich bin etwas fehlt.

http://docs.aws.amazon.com/redshift/latest/dg/r_Examples_of_NTH_WF.html
http://docs.aws.amazon.com/redshift/latest/dg/c_Window_functions.html

InformationsquelleAutor tayl0rs | 2014-01-07

amazon-redshift

5

Und als der 2014-10-17, Rotverschiebung unterstützt die MEDIAN Fenster-Funktion:
```
# select min(median) from (select median(num) over () from temp);
 min 
-----
 4.0
```
- Bessere Antwort verlinkt
- select distinct median(Bereich) over () from table
InformationsquelleAutor Doctor J
4

Versuchen die NTILE Funktion.

Würden Sie teilen Ihre Daten in 2 Ranglisten-Gruppen und wählen Sie den minimalen Wert aus der ersten Gruppe. Das ist, weil in datasets mit einer ungeraden Anzahl von Werten, die ersten ntile 1 mehr Wert als der zweite. Diese Annäherung sollte die Arbeit sehr gut für große datasets.
```
create table temp (num smallint);
insert into temp values (1),(5),(10),(2),(4);

select num, ntile(2) over(order by num desc) from temp ;
 num | ntile 
-----+-------
  10 |     1
   5 |     1
   4 |     1
   2 |     2
   1 |     2

select min(num) as median from (select num, ntile(2) over(order by num desc) from temp) where ntile = 1;
 median 
--------
      4
```
- Markieren diese als die akzeptierten Antworten, da es scheint, wie es sollte funktionieren, in der Theorie, aber ich habe nicht wirklich getestet. Gute Idee!
InformationsquelleAutor dima
1

Hatte ich Schwierigkeiten mit diesem auch, aber es hat einige Hilfe von Amazon. Da die 2014-06-30-version von Redshift, Sie können dies tun, mit der PERCENTILE_CONT oder PERCENTILE_DISC Fenster-Funktionen.

Sind Sie etwas seltsam zu verwenden, wie Sie tack wird der median (oder was auch immer-Perzentil, die Sie wählen) auf jeder Zeile. Dass man in einer Unterabfrage, und dann nehmen Sie die MIN (oder was auch immer) der mittleren Spalte.

# select count(num), min(median) as median from (select num, percentile_cont (0.5) within group (order by num) over () as median from temp); count | median -------+-------- 5 | 4.0

(Der Grund, warum es kompliziert ist, die Fenster-Funktionen können auch Ihre eigenen mini-group-by und-Bestellung geben Sie den median von vielen Gruppen, alle auf einmal, und andere tricks.)

Im Falle einer geraden Anzahl von Werten, CONT(inuous) interpolieren zwischen den beiden mittleren Werte, bei denen DISC-Netz(rete), Holen einer von Ihnen.

InformationsquelleAutor Doctor J
0

Ich in der Regel verwenden die NTILE Funktion zum aufteilen der Daten in zwei Gruppen, wenn ich bin auf der Suche nach einer Antwort, die nahe genug ist. Allerdings, wenn ich die exakten median (z.B. der Mittelpunkt einer geraden Satz von Zeilen), benutze ich eine Technik vorgeschlagen, die auf der AWS Redshift Diskussionsforum.

Diese Technik sortiert die Zeilen in sowohl aufsteigender und absteigender Reihenfolge, dann, wenn es eine ungerade Anzahl von Zeilen, es gibt den Mittelwert der mittleren Reihe (das ist, wo row_num_asc = row_num_desc), die einfach in der mittleren Zeile selbst.
```
CREATE TABLE temp (num SMALLINT);

INSERT INTO temp VALUES (1),(5),(10),(2),(4);

SELECT
  AVG(num) AS median
FROM
(SELECT
  num,
  SUM(1) OVER (ORDER BY num ASC) AS row_num_asc,
  SUM(1) OVER (ORDER BY num DESC) AS row_num_desc
FROM
  temp) AS ordered
WHERE
  row_num_asc IN (row_num_desc, row_num_desc - 1, row_num_desc + 1);

 median 
--------
      4
```
Wenn es eine gerade Anzahl von Zeilen, es gibt den Durchschnitt der beiden mittleren Zeilen.
```
INSERT INTO temp VALUES (9);

SELECT
  AVG(num) AS median
FROM
(SELECT
  num,
  SUM(1) OVER (ORDER BY num ASC) AS row_num_asc,
  SUM(1) OVER (ORDER BY num DESC) AS row_num_desc
FROM
  temp) AS ordered
WHERE
  row_num_asc IN (row_num_desc, row_num_desc - 1, row_num_desc + 1);

 median 
--------
    4.5
```
InformationsquelleAutor Jeremy Salfen

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.