finden median in eine Feste Größe-verschieben-Fenster über eine lange Abfolge von Daten

Gegeben eine Sequenz von Daten (es kann Duplikate), eine Feste Größe verschieben
Fenster, verschieben Sie das Fenster bei jeder iteration aus dem Anfang der Daten
Sequenz, so dass
(1) die ältesten Daten element wird entfernt aus dem Fenster und eine neue Daten
element drückt man in die Fenster
(2) finden Sie den median der Daten innerhalb des Fensters bei jeder Bewegung.

Die folgenden Beiträge sind nicht hilfreich.

Effektiv zu finden, der Mittelwert einer zufälligen Reihenfolge

Datenverknüpfung auf Basis eines gleitenden Zeitfensters in R

Meine Idee:

Verwenden Sie 2 Haufen zu halten median. In der Seite, die das Fenster, Sortieren Sie die Daten in das Fenster
in der ersten iteration werden die min-heap-hält der größere Teil und die max-heap -
hält der kleinere Teil. Wenn das Fenster hat ungerade Anzahl von Daten, die max-heap -
gibt den median andernfalls das arithmetische Mittel der oberen Elemente der
zwei heaps ist der median.

Wenn eine neue Daten geschoben, um die Fenster, entfernen Sie die ältesten Daten von einem
der heap und vergleichen Sie die neuen Daten mit dem top-max und min-heap, so
dass zu entscheiden, welche heap die Daten gestellt werden. Suchen Sie dann den median nur
wie in der ersten iteration.

Aber, wie zu finden, ein Daten-element in einem heap ist ein problem. Heap ist ein binärer
Baum nicht eine binäre Suchbaum.

Ist es möglich, um es zu lösen mit O(n) oder O(n * lg m) wobei m die Größe des Fensters und
Platz: O(1) ?

Jede Hilfe wird wirklich geschätzt.

Dank

Sind stackoverflow.com/questions/5527437/... oder stackoverflow.com/questions/1309263/... nützlich?
Die neuesten Daten, die das nächste Element, oder gibt es einige andere Kriterien? Sind Sie der Verarbeitung dieser Elemente in einem first-in-first-out-Art und Weise?
in jeder iteration werden die ältesten Daten gelöscht, die Fenster und eine neue Daten in das Fenster und suchen Sie dann den neuen median im Fenster. Für die ältesten Daten , es ist FIFO. Dank
Ich glaube nicht, Platz O(1) möglich ist. Sie müssen speichern Sie den Inhalt des Fensters, so dass Sie nicht unter O(m).
Wie Sie entfernen die ältesten Daten aus einem der Haufen ?

InformationsquelleAutor user1002288 | 2012-03-23

algorithm c++data-structures median

10

O(n*lg m) ist einfach:

Nur pflegen Sie Ihre Fenster, wie zwei std::sets, eine für die untere Hälfte, eine für die Obere Hälfte. Einfügen eines neuen Elements Kosten O(lg m), zur Feststellung und Entfernung der alten-element kostet das gleiche. Die Bestimmung der median mithilfe der Methode, die Sie beschrieben, in Ihrer Frage kostet O(1).

Wie Sie schieben Sie das Fenster über der Sequenz, in jeder iteration entfernen Sie das Element, Sturz aus dem Fenster (O(lg m)), fügen das neue Element ein (O(lg m)) und berechnen Sie den median (O(1)), was eine Gesamtanzahl von O(n lg m).

Diese Lösung verwendet Speicherplatz O(m), natürlich, aber ich glaube nicht, dass Sie Weg erhalten können, ohne speichern das Fenster Inhalt.
- stl:festgelegt ist ein binärer Suchbaum. heap ist ein binärer Baum. Finden Sie den median, das oben auf einem heap mit O(1), aber Sie können es nicht in O(1) zu finden, die median in einem binären Suchbaum, weil das oberste element in der Spitze einer binären Suche Baum kann nicht sein, die max-oder min-der Baum-Struktur (im Gegensatz zu einem Haufen). danke !
- Er sagt: mit beiden BST - der eine für den unteren m/2 - 1 Elemente, und eine für die Obere m/2 - 1 Elemente, und speichern auch der median. Beim verschieben des Fensters über: 1. Entfernen Sie das alte element wird entweder in der unteren oder oberen Baum (O(log m)), dann 2. Legen Sie das neue element in die untere - oder Obere-Baum, basierend auf, wenn es < oder > der median. Wenn einer der Bäume hat jetzt zu viele Elemente, entfernen Sie die größte (für das untere) oder kleinste (für den oberen) - element (O(log m)), rufen, dass die neuen median, und legen Sie die alte median in der anderen Struktur (O(log m)). Insgesamt O(log m)
- Auch das finden der min/max aus ein binärer Baum kann werden O(1) - halten Sie einfach einen Verweis zu Ihnen. C++'s stl::set tut dies bereits, über *stl::set::rbegin()
- es ist eine gute Idee. Aber, es möglicherweise Duplikate. z.B. 3 , 6 , 6 , 7 , 9, wenn man von 6s ist das älteste und es entfernt, aber eine 6 ist immer noch Links. In AWL:set keine Duplikate erlaubt sind. Wenn wir multiset, die alle Daten, die im Zusammenhang mit dem gleichen Schlüssel alle gelöscht werden. Es bedeutet, dass beide 6s gelöscht werden. Ist es falsch. danke .
- So verwenden Sie eine andere BST, die es ermöglicht, die Duplikate? Die Idee ist immer noch richtig.
- wenn ein Knoten mehr als 2 Kinder haben, ist es immer noch ein BST ? Wenn Nein, wie zu überprüfen, ob Ihre Idee richtig ist ? danke !
- Nein, nutzen Sie einfach die BST, die es ermöglicht, die Duplikate zB. Anstelle des linken teilbaums wird < dem Elternteil und dem Recht > machen die linken <= und das Recht >. Jeder Knoten sollte immer noch zwei (oder weniger) Kinder.
- Ok, ich sehe, die Raum-Komplexität ist O(Fenster-Größe), ist es möglich, um es zu O(1) oder O(lg window-Größe) ? danke !
- Nein, es ist O(log m) (m = Fenster-Größe) jeder Schritt, indem er das gesamte Algorithmus O(n log m); siehe die Antwort und/oder meinen ersten Kommentar oben für Einzelheiten. Es kann ein Weg, um es O(1) pro Schritt, aber wenn das so ist, weiß ich nicht, wie.
- verwenden Sie zwei Bäumen zu halten, das Fenster Daten, die Gesamtgröße ist O(m), richtig ?
- Oh sorry, ich habe übersehen, dass Sie gebeten, zu Speicherplatz-Komplexität, keine Zeit Komplexität. Ich Zweifel kann es besser als O(m), aber ich könnte falsch sein.
- Ich bin damit einverstanden, dass O(m) ist der beste Speicherplatz-Komplexität. Es ist unmöglich, sich zu re-berechnen Sie den median, ohne zu halten Spur von alle der Werte. Sie könnten in der Lage sein, zu halten, zu zählen, wie viele von jeder Wert, aber dass nur noch reduziert zu O(p*m), wo p ist der Prozentsatz eindeutige Werte: numUnique/m. Diese kann kleiner sein, für einige Daten, aber es ist immer noch O(m).
- Dies ist wahrscheinlich der beste Weg, es zu tun mit STL nur, aber es ist immer noch umständlich, wie dieses problem zeigt perfekt, dass Baum-Behälter sind in der Tat fehlt in der STL. Mit der AVL-Baum, zum Beispiel, könnte man nur einen einzigen Baum (für den Fensterinhalt).
- Wie Sie entfernen die ältesten Daten aus einem der Haufen ?
InformationsquelleAutor hc_
7

Implementierte ich fast genau dem Algorithmus, den Sie hier beschreiben: http://ideone.com/8VVEa, und beschrieb es hier: Rolling median in C - Turlach Umsetzung

Den Weg, um die "find ältesten" problem ist, dass die Werte in einem Ringpuffer, so haben Sie immer einen Zeiger auf die ältesten. Was Sie store in der heap-Puffer-Indizes.
Also der Platzbedarf ist 2M, und jedes update ist O(lg M).
- Kernaussage hier: gist.github.com/ashelly/5665911
InformationsquelleAutor AShelly
1

Gleiche Antwort wie hc_ aber statt mit einem stock BST verwenden Sie eine version, bei der jeder Knoten die Anzahl der Elemente im sub-Baum. Auf diese Weise finden median in O(log(m)).
- Ist es möglich, um es zu lösen mit O(n) Zeit ? danke .
InformationsquelleAutor ElKamina
1

Gab ich diese Antwort für den "rolling median C" - Frage

Konnte ich nicht finden, eine moderne Implementierung einer c++ - Datenstruktur mit order-Statistik so endete die Umsetzung der Ideen in top-Coder-link ( Match-Redaktion: nach unten scrollen, um FloatingMedian).

Zwei multimengen

Ersten Idee Partitionen die Daten in zwei Datenstrukturen (heaps, multimengen etc) mit O(ln N) pro einfügen/löschen nicht zulassen, dass die quantile zu dynamisch geändert werden, ohne große Kosten. I. e. wir haben eine rollende median, oder ein rolling-75%, aber nicht beides zur gleichen Zeit.

Segment-Baum

Die zweite Idee verwendet eine segment-Baum ist O(ln N) für einfügen/löschen/Abfragen, aber flexibler ist. Am besten von allen das "N" ist die Größe der Daten-Bereich. Also, wenn Sie Ihre Rollen median hat ein Fenster von einer million Elemente, aber Ihre Daten variiert von 1..65536, dann nur 16 Operationen sind erforderlich, die pro-Bewegung der rollenden Fenster von 1 million Euro!! (Und Sie müssen nur 65536 * sizeof(counting_type) bytes, z.B. 65536*4).

GNU Ordnung Statistik Bäumen

Kurz vor dem aufgeben fand ich, dass stdlibc++ enthält, um statistische Bäumen!!!

Diese zwei wichtigen Operationen:
```
iter = tree.find_by_order(value)
order = tree.order_of_key(value)
```
Sehen libstdc++ - Handbuch policy_based_data_structures_test (Suche nach "split-and-join").

Ich gewickelt habe den Baum für die Verwendung in einem convenience-header für Compiler, die c++0x/c++11 Stil partiellen Typdefinitionen:
```
#if !defined(GNU_ORDER_STATISTIC_SET_H)
#define GNU_ORDER_STATISTIC_SET_H
#include <ext/pb_ds/assoc_container.hpp>
#include <ext/pb_ds/tree_policy.hpp>

//A red-black tree table storing ints and their order
//statistics. Note that since the tree uses
//tree_order_statistics_node_update as its update policy, then it
//includes its methods by_order and order_of_key.
template <typename T>
using t_order_statistic_set = __gnu_pbds::tree<
                                  T,
                                  __gnu_pbds::null_type,
                                  std::less<T>,
                                  __gnu_pbds::rb_tree_tag,
                                  //This policy updates nodes'  metadata for order statistics.
                                  __gnu_pbds::tree_order_statistics_node_update>;

#endif //GNU_ORDER_STATISTIC_SET_H
```
InformationsquelleAutor Leo Goodstadt

Lege ich meine segment-Baum (siehe meinen anderen post), das es erlaubt, die Frequenz-Verteilung der Zählungen sehr effizient abgefragt werden.

Diese implementiert die folgende Datenstruktur:

|-------------------------------|
|--------------- | ---------------|
|------- | ------- | ------- | -------|
|--- | --- | --- | --- | --- | --- | --- | ---|
  0   1   2   3   4   5   6   7

Jedes segment hält die Anzahl der Elemente in der Reihe, die es abdeckt.
Ich benutze 2N Segmente für einen Wertebereich von 1..N.
Diese befinden sich in einer einzigen ausgerollt Vektor anstatt die Baum-format zeigen bildlich vor.

Also, wenn Sie berechnen, die rolling gemittelt über eine Reihe von ganzen zahlen, die variieren von 1..65536, dann brauchen Sie nur 128kb zu speichern, und können die insert/delete/query mit O(ln N), wobei N = die Größe des Bereichs, d.h. 2**16 Operationen.

Dies ist ein großer Gewinn, wenn die Daten-Bandbreite ist viel kleiner als Ihre rollenden Fenster.

#if !defined(SEGMENT_TREE_H)
#define SEGMENT_TREE_H
#include <cassert>
#include <array>
#include <algorithm>
#include <set>

#ifndef NDEBUG
#include <set>
#endif

template<typename COUNTS, unsigned BITS>
class t_segment_tree
{
    static const unsigned                       cnt_elements    = (1 << BITS);
    static const unsigned                       cnt_storage     = cnt_elements << 1;
    std::array<COUNTS, cnt_elements * 2 - 1>    counts;
    unsigned                                    count;

#ifndef NDEBUG
    std::multiset<unsigned>                     elements;
#endif
    public:

    //____________________________________________________________________________________

    // constructor

    //____________________________________________________________________________________
    t_segment_tree(): count(0)
    {
        std::fill_n(counts.begin(), counts.size(),  0);
    }
    //~t_segment_tree();

    //____________________________________________________________________________________

    // size

    //____________________________________________________________________________________
    unsigned size() const  { return count; }

    //____________________________________________________________________________________

    // constructor

    //____________________________________________________________________________________
    void insert(unsigned x)
    {
#ifndef NDEBUG
        elements.insert(x);
        assert("...............This element is too large for the number of BITs!!..............." && cnt_elements > x);
#endif
        unsigned ii = x + cnt_elements;
        while (ii)
        {
            ++counts[ii - 1];
            ii >>= 1;
        }
        ++count;
    }

    //____________________________________________________________________________________

    // erase 

    //     assumes erase is in the set
    //____________________________________________________________________________________
    void erase(unsigned x)
    {
#ifndef NDEBUG
        //if the assertion failed here, it means that x was never "insert"-ed in the first place
        assert("...............This element was not 'insert'-ed before it is being 'erase'-ed!!..............." && elements.count(x));
        elements.erase(elements.find(x));
#endif
        unsigned ii = x + cnt_elements;
        while (ii)
        {
            --counts[ii - 1];
            ii >>= 1;
        }
        --count;
    }

    //
    //____________________________________________________________________________________

    // kth element

    //____________________________________________________________________________________
    unsigned operator[](unsigned k)
    {
        assert("...............The kth element: k needs to be smaller than the number of elements!!..............." && k < size());
        unsigned ii = 1;
        while (ii < cnt_storage)
        {
            if (counts[ii - 1] <= k)
               k -= counts[ii++ - 1];
            ii <<= 1;
        }
        return (ii >> 1) - cnt_elements;
    }

};
#endif

InformationsquelleAutor Leo Goodstadt

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Zwei multimengen

Segment-Baum

GNU Ordnung Statistik Bäumen