Berechnung der Anzahl der gleichzeitigen Ereignisse in SQL

Ich habe eine Tabelle, die Sie hält anrufen, mit den folgenden Feldern:

ID
STARTTIME
ENDTIME
STATUS
CALL_FROM
CALL_TO

Gibt es 2,9 Millionen Datensätze werden in eine lokale PostgreSQL-Datenbank. Ich fügte hinzu, Indizes-ID (unique index), starttime und endtime.

Suche auf stackoverflow fand ich einige nützliche SQL so geändert, daß, was ich denke logisch funktionieren sollte. Das problem ist, dass die Abfrage läuft für viele Stunden und kehrt nie zurück:

SELECT T1.sid, count(*) as CountSimultaneous
FROM calls_nov T1, calls_nov T2
WHERE
     T1.StartTime between T2.StartTime and T2.EndTime
     and T1.StartTime between '2011-11-02' and '2011-11-03'
GROUP BY
     T1.sid
ORDER BY CountSimultaneous DESC;

Kann mir bitte jemand entweder einen Weg vorschlagen, um fix die Abfrage/index, so dass es tatsächlich funktioniert, oder schlagen einen anderen Weg zur Berechnung der gleichzeitigen Anrufe?

EDIT:

Erklären, plan:

Sort  (cost=11796758237.81..11796758679.47 rows=176663 width=35)
  Sort Key: (count(*))
  ->  GroupAggregate  (cost=0.00..11796738007.56 rows=176663 width=35)
        ->  Nested Loop  (cost=0.00..11511290152.45 rows=57089217697 width=35)

Skript zur Erstellung der Tabelle:

CREATE TABLE calls_nov (
  sid varchar,
  starttime timestamp, 
  endtime timestamp, 
  call_to varchar, 
  call_from varchar, 
  status varchar);

Index-Erstellung:

CREATE UNIQUE INDEX sid_unique_index on calls_nov (sid);

CREATE INDEX starttime_index on calls_nov (starttime);

CREATE INDEX endtime_index on calls_nov (endtime);

T1 und T2 sind die gleichen??
Können Sie uns das erklären-plan? postgresql.org/docs/8.1/static/sql-explain.html Auch, vorausgesetzt, dass "sid" ist die ID, wie es in der und wählen Sie die Gruppierung, indem es nicht sinnvoll ist, die "zählen" würde immer 1.
Natürlich sind Sie das...es ist ein Protokoll der Aufrufe. Er möchte wissen, wie viele gleichzeitige Anrufe waren auch geschieht, bei jedem Anruf.
Was t1.sid?
SID ist die eindeutige ID von jedem Anruf.
In diesem Fall, was passiert, wenn Sie tun: SELECT count(*) as CountSimultaneous VON calls_nov T1, calls_nov T2 WHERE T1.Startzeit zwischen T2.StartTime und T2.EndTime und T1.Startzeit zwischen '2011-11-02' und '2011-11-03'
dies ist das Ergebnis von explain plan " - Aggregats (Kosten=11144150221.35..11144150221.36 rows=1 width=0)"
Sieht aus wie es ist nicht mit der Indizes - können Sie auch die Skripts zur Erstellung der Tabelle?
Hinzugefügt create table-und index-scripts. Danke!!!
Ich würde versuchen, einen zusammengesetzten index auf start-und end-Zeit - sieht aus wie es ' s nicht mit den einzelnen Tasten.
Bitte verwenden Sie keine implizite join-syntax (Komma-getrennte Liste nach FROM), da es einfach zu einfach, um in cross-joins, oder andere Dinge (ich glaube, es kann out-of-standard, jetzt, aber auch für rückwärts-Kompatibilität). Verwenden Sie immer explizite syntax, wie in @Eric ' s Antwort.
einigten sich auf die implizite joins. Auch Hinzugefügt-index für starttime, endtime, aber keinen performance-Gewinn.

InformationsquelleAutor Sologoub | 2012-01-04

6

1.) Die Abfrage hat nicht fangen alle überlappungen - dies wurde behoben, indem die anderen Antworten schon.

2.) Der Datentyp der Spalten starttime und endtime ist timestamp. So Ihr WHERE - Klausel ist leicht falsch, zu:
```
BETWEEN '2011-11-02' AND '2011-11-03'
```
Dazu gehören '2011-11-03 00:00'. Die Obere Grenze muss ausgeschlossen.

3.) Entfernt den gemischten Fall syntax ohne Anführungszeichen. Nicht gequotete Identifizierer sind gegossen, um den unteren Fall automatisch. Um es einfach auszudrücken: am Besten nicht verwenden Sie groß-und Kleinschreibung von Bezeichnern in allen in PostgreSQL.

4.) Verwandelt sich die Abfrage auf die explizite JOIN-das ist immer vorzuziehen. Tatsächlich, ich habe es ein LEFT [OUTER] JOIN, weil ich will, zu zählen, fordert, dass keine überschneidungen mit anderen Aufrufe, zu.

5.) Vereinfacht die syntax ein bisschen zum erreichen dieses base-Abfrage:
```
SELECT t1.sid, count(*) AS ct
FROM   calls_nov t1
LEFT   JOIN calls_nov t2 ON t1.starttime <= t2.endtime
                        AND t1.endtime >= t2.starttime
WHERE  t1.starttime >= '2011-11-02 0:0'::timestamp
AND    t1.starttime <  '2011-11-03 0:0'::timestamp
GROUP  BY 1
ORDER  BY 2 DESC;
```
Diese Abfrage ist extrem langsam für einen großen Tisch, weil jede Zeile ab '2011-11-02' verglichen werden, um jede Zeile die gesamte Tabelle, die führt zu (fast) O(n2) Kosten.

Schneller

Können wir drastisch reduzieren die Kosten durch der Vorauswahl der möglichen Kandidaten. Wählen Sie nur die Spalten und Zeilen Sie benötigen. Ich mache das mit zwei CTE.
1. Wählen Sie Anrufe, beginnend am Tag in Frage. -> CTE x
2. Berechnen Sie die neuesten am Ende der Anrufe. (Unterabfrage in CTE y)
3. Wählen Sie nur Anrufe, die überschneidungen mit der gesamten Palette von CTE x. -> CTE y
4. Die Letzte Abfrage ist viel schneller als das Abfragen der großen zugrunde liegenden Tabelle.
```
WITH x AS (
    SELECT sid, starttime, endtime
    FROM   calls_nov
    WHERE  starttime >= '2011-11-02 0:0'
    AND    starttime <  '2011-11-03 0:0'
    ), y AS (
    SELECT starttime, endtime
    FROM   calls_nov
    WHERE  endtime >= '2011-11-02 0:0'
    AND    starttime <= (SELECT max(endtime) As max_endtime FROM x)
    )
SELECT x.sid, count(*) AS count_overlaps
FROM   x
LEFT   JOIN y ON x.starttime <= y.endtime
             AND x.endtime >= y.starttime
GROUP  BY 1
ORDER  BY 2 DESC;
```
Schneller noch

Ich habe ein real life table von 350.000 Zeilen mit überlappenden Beginn /Ende-Zeitstempel gleicht. Ich verwendet, die für eine quick benchmark. PostgreSQL 8.4, knappe Ressourcen, weil es eine test-DB. Indizes auf start und end. (Index auf die Spalte ID ist hier irrelevant.) Getestet mit EXPLAIN ANALYZE, best of 5.

Gesamt-Laufzeit: 476994.774 ms

CTE Variante:

Gesamt-Laufzeit: 4199.788 ms-das ist > den Faktor 100.

Nach dem hinzufügen eines mehrspaltigen index der form:
```
CREATE INDEX start_end_index on calls_nov (starttime, endtime);
```
Gesamt-Laufzeit: 4159.367 ms

Ultimate Speed

Wenn das nicht genug ist, gibt es eine Möglichkeit es zu beschleunigen noch eine andere Größenordnung. Anstelle des CTEs oben, materialisieren die temp-Tabellen und - das ist der entscheidende Punkt - erstellen Sie eine index auf den zweiten. Könnte so Aussehen:

Ausführen als einer Transaktion:
```
CREATE TEMP TABLE x ON COMMIT DROP AS   
    SELECT sid, starttime, endtime
    FROM   calls_nov
    WHERE  starttime >= '2011-11-02 0:0'
    AND    starttime <  '2011-11-03 0:0';

CREATE TEMP TABLE y ON COMMIT DROP AS
    SELECT starttime, endtime
    FROM   calls_nov
    WHERE  endtime >= '2011-11-02 0:0'
    AND    starttime <= (SELECT max(endtime) FROM x);

CREATE INDEX y_idx ON y (starttime, endtime); -- this is where the magic happens

SELECT x.sid, count(*) AS ct
FROM   x
LEFT   JOIN y ON x.starttime <= y.endtime
             AND x.endtime >= y.starttime
GROUP  BY 1
ORDER  BY 2 DESC;
```
Lesen über temporäre Tabellen in der Anleitung.

Ultimative Lösung
- Erstellen Sie eine plpgsql-Funktion, welches die Magie.
- Diagnostizieren, die typische Größe des temp-Tabellen. Erstellen Sie eigenständige und Messen:
```
SELECT pg_size_pretty(pg_total_relation_size('tmp_tbl'));
```
- Wenn Sie größer sind als Ihre Einstellung für temp_buffers dann vorübergehend legen Sie Sie hoch genug, in Ihrer Funktion zu halten, sowohl Ihre temporären Tabellen im RAM. Es ist eine große Beschleunigung, die, wenn Sie nicht haben, um die swap disc. (Kann, muss zuerst die Verwendung von temporären Tabellen in der Sitzung wirksam sind.)
```
CREATE OR REPLACE FUNCTION f_call_overlaps(date)
  RETURNS TABLE (sid varchar, ct integer) AS
$BODY$
DECLARE
    _from timestamp := $1::timestamp;
    _to   timestamp := ($1 +1)::timestamp;
BEGIN

SET temp_buffers = 64MB'; -- example value; more RAM for temp tables;

CREATE TEMP TABLE x ON COMMIT DROP AS   
    SELECT c.sid, starttime, endtime  -- avoid naming conflict with OUT param
    FROM   calls_nov c
    WHERE  starttime >= _from
    AND    starttime <  _to;

CREATE TEMP TABLE y ON COMMIT DROP AS
    SELECT starttime, endtime
    FROM   calls_nov
    WHERE  endtime >= _from
    AND    starttime <= (SELECT max(endtime) FROM x);

CREATE INDEX y_idx ON y (starttime, endtime);

RETURN QUERY
SELECT x.sid, count(*)::int -- AS ct
FROM   x
LEFT   JOIN y ON x.starttime <= y.endtime AND x.endtime >= y.starttime
GROUP  BY 1
ORDER  BY 2 DESC;

END;
$BODY$   LANGUAGE plpgsql;
```
Nennen:
```
SELECT * FROM f_call_overlaps('2011-11-02') -- just name your date
```
Gesamt-Laufzeit: 138.169 ms-das ist Faktor 3000

Was kann man tun, um ihn zu beschleunigen?

Allgemeine performance-Optimierung.
```
CLUSTER calls_nov USING starttime_index; -- this also vacuums the table fully

ANALYZE calls_nov;
```
- Danke. Die explain-plan ist immer noch nicht begeistern: ort (Kosten=4785158982.43..4785158982.93 Zeilen=200 Breite=32) allerdings erscheint es 10x besser als die vorherigen. Läuft die Abfrage jetzt, hoffentlich wird es wieder.
- Ich fügte hinzu, ein bisschen mehr auf meine Antwort.
- Ok... einfach nur WOW! Danke für die info. Arbeiten an der Aufnahme der Kenntnisse 🙂
- gut, bekam eine Fehlermeldung: FEHLER: Struktur der Abfrage entspricht nicht der Funktion result type " SQL-Status: 42804 Detail: Zurückgegebene Typ character varying nicht mit gerechnet Typ integer in Spalte 1. Kontext: PL/pgSQL-Funktion "f_call_overlaps" Linie 23-die RÜCKKEHR-ABFRAGE
- ändern dies scheint damit die Funktion ausgeführt werden: RETURNS TABLE (sid varchar, ct bigint)
- Recht, Ihre Tabellendefinition sagte varchar. Feste meine Antwort auch. Ich bin sehr neugierig, wenn Sie bekommen einen ähnlichen speedup? BTW, die Anpassung temp_buffers ist wahrscheinlich nicht nötig, wenn deine db config hat sane Parameter. Die temp-Tabellen sollten nicht so groß ist. (Aber testen >> raten)
- Ich werde ekstatisch, wenn das Ding nur Ergebnisse, die diese Seite des Jahrhunderts 🙂 Alle meine bisherigen versuche liefen über 10 Stunden, danach würd ich Sie killen und neu zu starten.
- Du solltest besser testen, mit einem kleinen time-slice zuerst, wie `starttime >= '2011-11-02 0:0" UND " starttime < '2011-11-02 1:0'.
- Performance-Weise, diese hat Super funktioniert - Abfrage zurückgegeben 1,520,759 ms. Jedoch, die daraus resultierenden Daten, ist rätselhaft - so habe ich 37k gleichzeitige Anrufe. Das ist nicht möglich. Ich brauche, um durch zu gehen und dies herausfinden, aber deine Antwort hat sicherlich geholfen, mit Leistung. Nochmals vielen Dank!
InformationsquelleAutor Erwin Brandstetter

Hier ist, was die möglichen überschneidungen Aussehen, wo " A " ist die "Referenz" - Intervall. Beachten Sie, dass die Abfrage unten (ganz weit unten) nicht das gleiche Ergebnis wie eine der Antworten noch nicht gepostet.

-- A            |------|
-- B |-|
-- C        |---|
-- D          |---|
-- E             |---|
-- F               |---|
-- G                 |---|
-- H                   |---|
-- I                       |---|

"B" überlappt "Ein" an alle. "C" stößt es. {"D", "E", "F", "G"} überlappt. "H" anliegt, es. "Ich" überlappt es überhaupt nicht.

create table calls_nov (
  sid varchar(5) primary key,
  starttime timestamp not null,
  endtime timestamp not null
);  

insert into calls_nov values
('A', '2012-01-04 08:00:00', '2012-01-04 08:00:10'),
('B', '2012-01-04 07:50:00', '2012-01-04 07:50:03'),
('C', '2012-01-04 07:59:57', '2012-01-04 08:00:00'),
('D', '2012-01-04 07:59:57', '2012-01-04 08:00:03'),
('E', '2012-01-04 08:00:01', '2012-01-04 08:00:04'),
('F', '2012-01-04 08:00:07', '2012-01-04 08:00:10'),
('G', '2012-01-04 08:00:07', '2012-01-04 08:00:13'),
('H', '2012-01-04 08:00:10', '2012-01-04 08:00:13'),
('I', '2012-01-04 08:00:15', '2012-01-04 08:00:18');

Sehen Sie alle überlappenden Intervallen wie diese. (Ich habe gerade verwendet to_char() machen es einfach, zu sehen alle Daten. Sie können es weglassen in der Produktion.)

select t1.sid, to_char(t1.starttime, 'HH12:MI:SS'), 
               to_char(t1.endtime,   'HH12:MI:SS'), 
       t2.sid, to_char(t2.starttime, 'HH12:MI:SS'), 
               to_char(t2.endtime,   'HH12:MI:SS')
from calls_nov t1
inner join calls_nov t2 on (t2.starttime, t2.endtime) 
                  overlaps (t1.starttime, t1.endtime) 
order by t1.sid, t2.sid;

A   08:00:00   08:00:10   A   08:00:00   08:00:10
A   08:00:00   08:00:10   D   07:59:57   08:00:03
A   08:00:00   08:00:10   E   08:00:01   08:00:04
A   08:00:00   08:00:10   F   08:00:07   08:00:10
A   08:00:00   08:00:10   G   08:00:07   08:00:13
B   07:50:00   07:50:03   B   07:50:00   07:50:03
C   07:59:57   08:00:00   C   07:59:57   08:00:00
C   07:59:57   08:00:00   D   07:59:57   08:00:03
D   07:59:57   08:00:03   A   08:00:00   08:00:10
D   07:59:57   08:00:03   C   07:59:57   08:00:00
D   07:59:57   08:00:03   D   07:59:57   08:00:03
D   07:59:57   08:00:03   E   08:00:01   08:00:04
E   08:00:01   08:00:04   A   08:00:00   08:00:10
E   08:00:01   08:00:04   D   07:59:57   08:00:03
E   08:00:01   08:00:04   E   08:00:01   08:00:04
F   08:00:07   08:00:10   A   08:00:00   08:00:10
F   08:00:07   08:00:10   F   08:00:07   08:00:10
F   08:00:07   08:00:10   G   08:00:07   08:00:13
G   08:00:07   08:00:13   A   08:00:00   08:00:10
G   08:00:07   08:00:13   F   08:00:07   08:00:10
G   08:00:07   08:00:13   G   08:00:07   08:00:13
G   08:00:07   08:00:13   H   08:00:10   08:00:13
H   08:00:10   08:00:13   G   08:00:07   08:00:13
H   08:00:10   08:00:13   H   08:00:10   08:00:13
I   08:00:15   08:00:18   I   08:00:15   08:00:18

Können Sie sehen aus dieser Tabelle, dass der "Eine" sollte zählen 5, einschließlich sich selbst. "B" sollte count-1; es überlappt sich selbst, aber keine anderen Intervalle überlappen. Das scheint die richtige Sache zu tun.

Zählen ist einfach, aber läuft wie ein gerissener Schildkröte. Das ist, weil die Bewertung einer überlappung nimmt eine Menge Arbeit.

select t1.sid, count(t2.sid) as num_concurrent
from calls_nov t1
inner join calls_nov t2 on (t2.starttime, t2.endtime) 
                  overlaps (t1.starttime, t1.endtime) 
group by t1.sid
order by num_concurrent desc;

A   5
D   4
G   4
E   3
F   3
H   2
C   2
I   1
B   1

Um bessere Leistung zu erhalten, können Sie die "Tabelle" oben in einer common table expression, und die Zählung basiert auf , dass.

with interval_table as (
select t1.sid as sid_1, t1.starttime, t1.endtime,
       t2.sid as sid_2, t2.starttime, t2.endtime
from calls_nov t1
inner join calls_nov t2 on (t2.starttime, t2.endtime) 
                  overlaps (t1.starttime, t1.endtime) 
order by t1.sid, t2.sid
) 
select sid_1, count(sid_2) as num_concurrent
from interval_table
group by sid_1
order by num_concurrent desc;

vielen Dank für die sehr informative Antwort! Jedoch, wenn lief ich den plan erklären, wird die Abfrage mit der Tabelle der Ausdruck ist um Zehnerpotenzen schlimmer: "Sort (Kosten=2566228269298.11..2566228269298.61 Zeilen=200 Breite=64)" vs "Sortieren (Kosten=11294858654.81..11294859096.47 Zeilen=176663 Breite=35)" für @Erics Antwort. Könnte dies ein Fall von einem fehlenden index?
Ich habe Indizes auf starttime und endtime. Die CTE ist viel schneller hier, aber ich weiß nicht 2,9 Millionen Zeilen.
Ja, ich habe indiziert, dass als gut, aber vielleicht ist es nur meine lokale Kiste ist nicht stark genug für diese.

InformationsquelleAutor Mike Sherrill 'Cat Recall'

2

Ich nehme an, Sie wollen wissen, die Menge der aktiven Anrufe zu einem bestimmten Zeitpunkt. Andere Antworten geben Sie, wie viele andere Anrufe wurden aktiv, während der aktuelle Anruf aktiv war. Für sehr lange fordert, dies können Ihnen sehr hohe zahlen. Es wurde mir angedeutet, dass die Anzahl der aktiven Anrufe, was Sie wollte, von einem Ihrer Kommentare zu den anderen Antworten (außerdem arbeite ich auch in der Telekommunikation). Leider habe ich nicht genug Ruf zu kommentieren, die Antwort noch, als ich mein Konto erstellt um diese Frage zu beantworten. Um die Anzahl der aktiven Anrufe, könntest du eine variable um eins erhöht, wenn ein Anruf gestartet wird, und verringert sich um eins, wenn es endete. Ich habe getestet, die auf eine MySQL-Datenbank mit über 50 Millionen Aufrufe. Sorry wegen der syntax Unterschiede zwischen MySQL und pgsql.

Fügte ich temporäre Tabellen für die Geschwindigkeit, aber mit nur 2m Zeilen und Indizes, die Sie möglicherweise nicht erforderlich. MySQL kann nicht auf die gleiche temporäre Tabelle doppelt, so hatte ich zwei.
```
CREATE TEMPORARY TABLE a
SELECT sid, StartTime, EndTime 
FROM calls_nov
WHERE StartTime between '2011-11-02' and '2011-11-03';

CREATE TEMPORARY TABLE b
SELECT *
FROM a;

SET @i := 0;

SELECT *, @i := @i + c.delta AS concurrent
FROM (
  SELECT StartTime AS time, 1 AS delta
  FROM a
  UNION ALL
  SELECT EndTime AS time, -1 AS delta
  FROM b
  ORDER BY time
) AS c
ORDER BY concurrent DESC
;
```
Den inneren SELECT gibt zwei Spalten. Die Spalte Zeit enthält jede Startzeit und jede EndTime aus der ursprünglichen Tabelle (zweimal die Menge der Zeilen), und die delta-Spalte ist +1 oder -1, je nachdem, welche Spalte wurde in 'die Zeit'. Dieses set ist bestellt durch die Zeit, die wir dann Durchlaufen, die in der äußeren SELECT.

Anstelle von", UM DURCH gleichzeitige DESC" wie, Sie hatten in Ihrer Anfrage, ich würde den Einsatz eines zusätzlichen äußeren AUSWÄHLEN, wo ich Sie bekommen könnte MAX, MIN etc. Werte und ich konnte auch GROUP BY Datum, Stunde usw. Dieser Teil der Abfrage (ORDER BY Auger DESC), eigentlich wollte ich das nicht testen. Ich habe meinen eigenen Vorschlag mit einer zusätzlichen äußeren Abfrage, wie UM VON sich nicht wie erwartet in MySQL bei der Bestellung durch eine variable gesetzt wurde, in der gleichen WÄHLEN. Er befiehlt, indem der Vorherige Wert der Variablen statt. Wenn Sie unbedingt müssen, um durch gleichzeitige Anrufe (und pgsql hat das gleiche problem), ich glaube, Sie könnten dies umgehen, indem Sie erneut mit Hilfe einer zusätzlichen äußeren AUSWÄHLEN und bestellen dort.

Die Abfrage, die ich lief war sehr schnell! Es durchsucht jede temporäre Tabelle, die einmal, und dann die Kombination der beiden einst (mit weniger Daten pro Zeile), und für meine eigene version mit einer zusätzlichen äußeren Abfrage durchsucht werden durch die Kombination noch einmal und dann Gruppen. Jeder Tisch wird nur einmal gescannt! Dies wird alles im RAM wenn Ihre hardware-Konfiguration und ermöglicht es. Andere Antworten (oder Fragen) wird Ihnen helfen, wenn es nicht.

InformationsquelleAutor Pan Christensen
1

Versuchen Sie, diese anstelle Ihrer zwischen-und einen cross join:
```
select
    t1.sid,
    count(1) as CountSimultaneous
from
   calls_nov t1
   inner join nov t2 on
       t1.starttime <= t2.endtime
       and t1.endtime >= t2.starttime
where
    t1.starttime between '2011-11-02' and '2011-11-03'
group by
    t1.sid
order by CountSimultaneous desc
```
- Dies ist in der Nähe, muss aber and t1.sid != t2.sid um die gleiche Zeile nicht mit sich selbst verknüpft
- Ich dachte darüber nach, aber ich hatte es nicht. In der Realität, könnte man diese Bedingung in, machen es zu einem left join, und count(t2.sid), und es würde nur geben Sie 1 weniger für jede Zahl. Oder Sie tun können count(1)-1. Wahrscheinlich waschen oder so.
- sollte es ok sein, ohne es, wie ich bin auf der Suche nach der Anzahl der gleichzeitigen Anrufe. Das zählen selbst ist ok.
- Die Abfrage Kosten ist ein wenig besser, aber insgesamt ist es immer noch in die Milliarden... Kosten für ein Ergebnis, mit 1 Reihe ist 91k. Nicht wirklich sicher, was hier Los ist.
- Die join-Bedingung ist falsch, Sie wiederholen den gleichen Zustand
- Versuchen Sie, dass-ich irrte in meiner join-Bedingungen. Lamak, danke für den Hinweis it out.
- Nun, es sollte funktionieren.
InformationsquelleAutor Eric

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Schneller

Schneller noch

Ultimate Speed

Ultimative Lösung

Was kann man tun, um ihn zu beschleunigen?