Finden running median aus einem stream von ganzen zahlen

Mögliche Duplikate:

Rolling-median-Algorithmus in C

Gegeben, dass ganze zahlen sind, Lesen aus einem Datenstrom. Finden median der Elemente Lesen so weit in effizienter Weise.

Lösung, die ich gelesen habe: Wir können ein max-heap auf der linken Seite zu repräsentieren Elemente, die kleiner sind als der effektive Mittelwert (median), und ein min-heap auf der rechten Seite zur Darstellung von Elementen, die größer sind als der effektive Mittelwert.

Nach der Verarbeitung einer eingehenden element, die Anzahl der Elemente in den heaps unterscheiden sich höchstens um 1 element. Wenn beide Haufen enthalten die gleiche Anzahl von Elementen, finden wir den Durchschnitt heap Stamm-Daten als effektive median. Wenn der Haufen nicht ausgeglichen sind, wählen wir die effektive median von der Wurzel des heap-enthält mehr Elemente.

Aber wie würden wir konstruieren ein max-heap und min-heap, d.h. wie würden wir wissen, die effektive median hier? Ich glaube, wir würden Sie 1 ein element in max-heap und dann die nächsten 1-element in min-heap, und so weiter für alle Elemente. Korrigieren Sie mich, Wenn ich falsch bin hier.

Clevere Algorithmus, mit Haufen. Aus dem Titel konnte ich nicht sofort denken Sie an eine Lösung.
Wesir Lösung, sieht gut aus für mich, außer, dass ich war der Annahme (wenn Sie nicht zum Staat), dass dieser Strom kann beliebig lang sein, so dass Sie konnte nicht alles behalten im Gedächtnis. Ist das der Fall?
Für beliebig lange streams, kann man den Mittelwert der letzten N Elemente durch die Verwendung von Fibonacci-heaps (Sie erhalten also log(N) löscht) und die Speicherung von Zeigern auf Elemente eingefügt, um (in z.B. ein deque), dann entfernen Sie die älteste element bei jedem Schritt, wenn der Haufen voll sind (vielleicht auch an beweglichen Sachen von einem Haufen auf den anderen). Sie könnten etwas besser als N durch das speichern der Anzahl von wiederholten Elementen (bei vielen Wiederholungen), aber im Allgemeinen, ich denke, Sie haben eine Art von Verteilungsgerechtigkeit Annahmen, wenn Sie möchten, dass der median für den gesamten Strom.
Sie können beginnen, mit beiden heaps leer. Erste int geht auf einen Haufen; das zweite geht entweder in die andere, oder bewegen Sie den ersten Artikel in den anderen Haufen und dann einfügen. Dieser Satz verallgemeinert auf "nicht erlauben einen heap zu gehen größer ist als der andere +1" und keine speziellen Gehäuse erforderlich ist (die "root-Wert" eines leeren heap kann definiert werden als 0)
NUR ich habe diese Frage auf einem MSFT-interview. Vielen Dank für die Buchung
Wieder geöffnet, da die vorgeschlagene doppelte ist zu Fragen, die speziell für eine effiziente Umsetzung, und es geht mehr um die Allgemeine Vorgehensweise. Auch top-stimmten Antwort hier hat weit über zehn mal die Punktzahl des top-stimmten Antwort auf die doppelte, was bedeutet, dass, wenn überhaupt, die anderen posten sollten die sein, die geschlossen werden sollte, oder die Beiträge, die zusammengeführt werden sollen.

InformationsquelleAutor Luv | 2012-05-18

370

Gibt es eine Reihe von verschiedenen Lösungen für die Suche nach running median von gestreamten Daten, werde ich kurz darüber sprechen, ganz am Ende der Antwort.

Die Frage ist, über die details der eine bestimmte Lösung (max-heap/min-heap-Lösung), und wie heap-basierte Lösung funktioniert, ist unten erklärt:

Für die ersten beiden Elemente hinzufügen kleineres zum maxHeap auf der linken Seite, und der größere zu der minHeap auf der rechten Seite. Dann den Prozess Strom-Daten eins nach dem anderen,
```
Step 1: Add next item to one of the heaps

   if next item is smaller than maxHeap root add it to maxHeap,
   else add it to minHeap

Step 2: Balance the heaps (after this step heaps will be either balanced or
   one of them will contain 1 more item)

   if number of elements in one of the heaps is greater than the other by
   more than 1, remove the root element from the one containing more elements and
   add to the other one
```
Dann zu einem gegebenen Zeitpunkt können Sie berechnen den median so:
```
   If the heaps contain equal amount of elements;
     median = (root of maxHeap + root of minHeap)/2
   Else
     median = root of the heap with more elements
```
Jetzt werde ich sprechen über das problem im Allgemeinen, wie versprochen, die Antwort beginnt. Suche nach running median aus einem Strom von Daten ist ein schwieriges problem, und der Suche nach einem genau die Lösung, die mit Speicher-Einschränkungen effizient ist wahrscheinlich unmöglich für den Allgemeinen Fall. Auf der anderen Seite, wenn die Daten hat einige Eigenschaften, die wir ausnutzen können, entwickeln wir für Sie effiziente Lösungen spezialisiert. Zum Beispiel, wenn wir wissen, dass die Daten ist ein integraler Typ ist, dann können wir zählen, Sortieren, das kann Ihnen eine ständige Erinnerung Konstante Zeit-Algorithmus. Heap-basierten Lösung ist eine Allgemeine Lösung, weil es kann verwendet werden, für andere Datentypen (Double) als gut. Und schließlich, wenn der genaue median ist nicht erforderlich und eine Angleichung genug ist, können Sie nur versuchen, Schätzung einer Wahrscheinlichkeits-Dichte-Funktion für die Daten und Schätzung median benutzen.
- Diese heaps wachsen, ohne gebunden (d.h. eine 100-element-Fenster, Schiebe-über 10 Millionen Elemente erfordern würde, die 10 Millionen Elemente, um alle im Speicher abgelegt werden). Siehe weiter unten für eine Lösung mit Wendeplatten skiplists, das nur der zuletzt 100-Elemente werden im Speicher gehalten.
- Sie haben ein begrenztes Speicher-Lösung mit Haufen so gut, wie in einem der Kommentare zur Frage selbst.
- Finden Sie eine Implementierung des heap-basierten Lösung in c hier.
- Wissen Sie, wo bekomme ich die Java-Implementierung dieser heap-basierten Lösung?
- Wow, das hat mir geholfen nicht nur ist die Lösung dieses konkreten Problems, sondern auch mir geholfen, zu lernen Haufen hier ist mein basic-Implementierung in python : github.com/PythonAlgo/DataStruct
- Finden Sie eine C++ - Implementierung hier code.geeksforgeeks.org/8eO055
- Können Sie bitte erklären, warum wir Taten, was wir Taten? Ich meine, ich kann sehen, dass das funktioniert, aber ich bin nicht in der Lage, es zu verstehen, intuitiv.
- youtube.com/watch?v=VmogG01IjYc
InformationsquelleAutor Hakan Serce
49

Wenn Sie nicht halten kann alle Elemente im Arbeitsspeicher auf einmal, wird dieses problem sehr viel schwieriger. Die heap-Lösung erfordert, dass Sie halten alle Elemente, die im Speicher auf einmal. Dies ist nicht möglich in den meisten realen Anwendungen dieses Problems.

Statt, wie Sie sehen, zahlen, behalten Sie die zählen von der Anzahl der Zeiten, die Sie sehen, jede ganze Zahl. Vorausgesetzt, 4-byte-Ganzzahlen, die 2^32 Eimer, oder höchstens 2^33 ganze zahlen (Schlüssel und die Anzahl für jede int), die 2^35 bytes oder 32 GB. Es wird wahrscheinlich viel weniger als dies, weil Sie nicht brauchen, um zu speichern die Taste oder, zählen für jene Einträge, die von 0 (dh. wie ein defaultdict in python). Dies benötigt Konstante Zeit zum einlegen jeder neuen integer.

Dann an einem beliebigen Punkt zu finden, der median, verwenden Sie einfach die Grafen zu bestimmen, welche ganze Zahl ist das mittlere element. Dies benötigt Konstante Zeit (wenn auch eine große Konstante, aber dennoch konstant).
- Wenn fast alle zahlen sind einmal gesehen, als eine spärliche Liste wird auch mehr Speicher. Und es scheint eher wahrscheinlich, dass, wenn Sie haben so viele zahlen, die Sie nicht in passen Nummer, die meisten der zahlen einmal erscheinen wird. Trotz, dass dies eine clevere Lösung, die für massive zählt von zahlen.
- Für eine sparse-Liste bin ich einverstanden, das ist noch schlimmer in Bezug auf Speicher. Obwohl, wenn die ganzen zahlen sind zufällig verteilt, werden Sie beginnen, um Duplikate viel früher als intuition impliziert. Siehe mathworld.wolfram.com/BirthdayProblem.html. Also ich bin mir ziemlich sicher, dass diese wirksam wird, sobald Sie auch nur ein paar GBs an Daten.
- können Sie pls erklären, wie es dauert Konstante Zeit, um den median. Wenn ich gesehen habe n verschiedene Art von Ganzzahlen, die dann im schlimmsten Fall Letzte element den median. Dies macht median Suche O(n) Aktivität.
- Ist das nicht n die Gesamtzahl der Elemente, die >>> 2^35 in diesem Fall?
- Du hast Recht, dass es immer noch linear in der Anzahl der verschiedenen ganzen zahlen haben Sie gesehen, wie VishAmdi sagte, die Annahme, die ich mache für diese Lösung ist, dass n die Anzahl der zahlen, die Sie gesehen haben, sehr viel größer ist als 2^33. Wenn Sie nicht sehen, dass viele zahlen, die maxheap-Lösung ist definitiv besser.
InformationsquelleAutor Andrew C
46

Wenn die Varianz der Eingang ist statistisch verteilt (z.B. normal -, log-normal ... usw) dann reservoir sampling ist eine sinnvolle Schätzung der Perzentile/Mediane aus einer beliebig langen Strom von zahlen.
```
int n = 0;  //Running count of elements observed so far  
#define SIZE 10000
int reservoir[SIZE];  

while(streamHasData())
{
  int x = readNumberFromStream();

  if (n < SIZE)
  {
       reservoir[n++] = x;
  }         
  else 
  {
      int p = random(++n); //Choose a random number 0 >= p < n
      if (p < SIZE)
      {
           reservoir[p] = x;
      }
  }
}
```
"reservoir" ist dann ein Lauf, gleichmäßige (gerechte), die Probe von allen Eingangs - unabhängig von der Größe. Das finden der median (oder jedem Perzentil) ist dann ein straight-forward Angelegenheit der Sortierung der Stausee und der Abruf der interessante Punkt.

Da das reservoir ist mit fester Größe, der Art angesehen werden können, effektiv O(1) - und diese Methode wird ausgeführt, sowohl mit konstanter Zeit-und Speicherbedarf.
- aus Neugier, warum brauchen Sie dann die Varianz?
- Stream Rückkehr weniger als GRÖßE Elemente lassen Ausgleichsbehälter halb leer. Dies sollte berücksichtigt werden bei der Berechnung des median.
InformationsquelleAutor Colm MacCárthaigh
28

Den effizientesten Weg berechnen einen prozentualen einen stream, den ich gefunden habe, ist der P2-Algorithmus: Raj Jain, Imrich Chlamtac: Die P2-Algorithmus für die Dynamische Berechnung von Quantiiles und Histogramme Ohne die Speicherung der Beobachtungen. Commun. ACM 28(10): 1076-1085 (1985)

Der Algorithmus ist einfach zu implementieren und funktioniert sehr gut. Es ist eine Schätzung, die allerdings, so man im Hinterkopf behalten. Aus dem abstract:

Heuristischen Algorithmus wird vorgeschlagen, für die dynamische Berechnung von qf, den median und andere Quantile. Die Schätzungen produziert werden dynamisch als die Beobachtungen erzeugt werden. Die Beobachtungen werden nicht gespeichert; daher der Algorithmus hat einen sehr kleinen und festen Speicherbedarf unabhängig von der Anzahl der Beobachtungen. Dies macht es ideal für die Umsetzung in eine Quantil-chip, können verwendet werden, in Industrie-Controller und-Rekorder. Der Algorithmus wird weiter ausgebaut, um Histogramm Plotten. Die Genauigkeit des Algorithmus analysiert.
- Count-Min-Sketch ist besser als P^2, es gibt auch Fehler gebunden, während die letzteren nicht.
- Auch als "Raum-Effiziente Online-Berechnung der Quantile-Summaries", die von Greenwald und Khanna, der gibt auch Fehler, Grenzen, und hat eine gute Speicher-Anforderungen.
- Auch für einen probabilistischen Ansatz, finden Sie in diesem blog post: Forschung.neustar.biz/2013/09/16/... und das Papier, auf das es verweist, ist hier: arxiv.org/pdf/1407.1121v1.pdf Dies nennt man "Sparsam Streaming"
InformationsquelleAutor Hellblazer
27

Dieses problem hat eine exakte Lösung, muss nur die n zuletzt gesehen Elemente werden im Speicher gehalten. Es ist schnell und skaliert gut.

Einer Wende skiplist unterstützt O(ln n) - einfügen, entfernen, und die indizierte Suche von beliebigen Elementen, während die Aufrechterhaltung der sortierten Reihenfolge. Wenn gepaart mit einem FIFO-Warteschlange, dass die tracks, die n-te ältesten Eintrag, die Lösung ist einfach:
```
class RunningMedian:
    'Fast running median with O(lg n) updates where n is the window size'

    def __init__(self, n, iterable):
        self.it = iter(iterable)
        self.queue = deque(islice(self.it, n))
        self.skiplist = IndexableSkiplist(n)
        for elem in self.queue:
            self.skiplist.insert(elem)

    def __iter__(self):
        queue = self.queue
        skiplist = self.skiplist
        midpoint = len(queue) //2
        yield skiplist[midpoint]
        for newelem in self.it:
            oldelem = queue.popleft()
            skiplist.remove(oldelem)
            queue.append(newelem)
            skiplist.insert(newelem)
            yield skiplist[midpoint]
```
Hier sind die links zu den kompletten funktionierenden code (ein einfach-zu-verstehen-Klasse-version und eine optimierte generator-version mit der Wende skiplist-code inlined):
- http://code.activestate.com/recipes/576930-efficient-running-median-using-an-indexable-skipli/
- http://code.activestate.com/recipes/577073 .
- Wenn ich verstehe zwar, das gibt Ihnen nur ein Mittelwert der letzten N Elemente gesehen, nicht alle Elemente, die bis zu diesem Punkt. Dies scheint wie ein wirklich glatten Lösung für diesen Vorgang aber.
- Recht. Die Antwort klingt so, als ob es möglich war, zu finden, der median aller Elemente einfach immer die letzten n Elemente in den Speicher - das ist unmöglich im Allgemeinen. Der Algorithmus findet Sie einfach den Mittelwert aus den letzten n Elementen.
- Der Begriff "running median" wird normalerweise verwendet, um beziehen sich auf den median einer Untermenge von Daten. Der OP verwendet ein gebräuchlicher Begriff in einem nicht-standard-Weg.
InformationsquelleAutor Raymond Hettinger
16

Einer intuitiven Weg, um darüber nachzudenken ist, dass, wenn Sie hatte einen vollen ausgeglichenen binären Suchbaum, dann die Wurzel wäre das median-element, da es die gleiche Anzahl von kleineren und größeren Elementen.
Nun, wenn der Baum nicht voll ist dies nicht ganz der Fall sein, da es Elemente fehlen aus der letzten Ebene.

Also, was können wir stattdessen tun haben, ist der median, und zwei symmetrische binäre Bäume, einer für Elemente, die kleiner als der median, und eine für Elemente, die größer als der median. Die beiden Bäume müssen gehalten werden, in der gleichen Größe.

Wenn wir einen neuen integer aus dem Datenstrom, vergleichen wir es auf den median. Wenn er größer ist als der median, die wir hinzufügen, um den richtigen Baum. Wenn die beiden Baum-Größen unterscheiden sich um mehr als 1, nehmen wir die min element im rechten Baum, machen es die neuen median, und das alte median im linken Baum. Ähnlich wie für kleinere.
- Wie wollen Sie das tun?", wir entfernen die min element im rechten Baum"
- Ich meinte, binäre suchbäume, also die min element wird Links von der Wurzel.
- oh, die am weitesten Links stehende element, danke.
InformationsquelleAutor Irene Papakonstantinou
6

Effiziente, ist ein Wort, das abhängig vom Kontext. Die Lösung für dieses problem hängt von der Anzahl der Anfragen erfolgt im Vergleich zu der Menge von Einfügungen. Angenommen, Sie sind das einfügen von N zahlen und K-mal gegen Ende waren Sie interessiert an den median. Die heap-basierten Algorithmus die Komplexität wäre O(N log N + K).

Betrachten Sie die folgende alternative. Zupfen Sie die zahlen in ein array, und für jede Abfrage, ausführen der linear-Auswahl-Algorithmus (unter Verwendung des quicksort-pivot, sagen). Jetzt haben Sie einen Algorithmus mit Laufzeit O(K N).

Nun, wenn K hinreichend klein ist (seltene Abfragen), letzterer Algorithmus ist effizienter und Umgekehrt.
- In der heap-Beispiel-lookup ist in konstanter Zeit, so dass ich denke, es sollte O(N log N + K), aber Ihren Standpunkt noch hält.
- Ja, guter Punkt, Bearbeiten Sie diese aus. Du hast Recht N log N ist immer noch die führende Begriff.
InformationsquelleAutor Peteris
-1

Können nicht dies tun Sie mit nur einem heap? Update: nicht. Siehe auch den Kommentar.

Invariante: Nach dem Lesen 2*n Eingänge, die min-heap enthält die n größte von Ihnen.

Schleife: Lesen, 2 Eingänge. Fügen Sie beide auf dem heap, und entfernen Sie die heap min. Diese wieder her, die invariant.

So, wenn 2n Eingänge, die gelesen wurden, die heap min ist die N-te größte. Es müssen ein wenig zusätzliche Komplikation, den Durchschnitt der zwei Elemente rund um die median-position und zu behandeln Abfragen, nachdem eine ungerade Anzahl von Eingängen.
- Funktioniert nicht: Sie können Dinge fallen lassen, die sich später herausstellen werden, in der Nähe der Spitze. Zum Beispiel, versuchen Sie, den Algorithmus mit den zahlen 1 bis 100, aber in umgekehrter Reihenfolge: 100, 99, ..., 1.
- Danke, zellyn. Dumm von mir, mich davon zu überzeugen, die die invariante wiederhergestellt wurde.
InformationsquelleAutor Darius Bacon

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.