Wie schnell können Sie lineare Suche?

Ich bin auf der Suche um dies zu optimieren, lineare Suche:

static int
linear (const int *arr, int n, int key)
{
        int i = 0;
        while (i < n) {
                if (arr [i] >= key)
                        break;
                ++i;
        }
        return i;
}

Das array sortiert ist und die Funktion zurückgeben sollte, wird der index des ersten Elements größer oder gleich dem Schlüssel. Sie-array ist nicht groß (unter 200 Elemente) und wird bereit sein, einmal für eine große Anzahl von Suchanfragen. Array-Elemente nach dem n-TEN kann bei Bedarf initialisiert werden, um etwas passendes, wenn das beschleunigt die Suche.

Keine, binäre Suche ist nicht erlaubt, nur lineare Suche.

Bearbeiten: All mein wissen über dieses Thema ist jetzt zusammengefasst in diesem blog-post.

Wo ist die Frage?
Die einzige Sache, die Sie tun können, ist, profitieren Sie von allen SIMD-Befehle zur Verfügung, die auf Ihre Plattform. (Test vier gleichzeitig, zum Beispiel.) Obwohl, warum würden Sie nicht die binäre Suche, weiß ich nicht.
Sie nicht haben, um zu testen, jedes element; Sie können testen, alle kth-element, wenn Sie sind dann erlaubt, wieder zu gehen. Auch, wenn Sie wissen, die Anzahl der Elemente, die Sie können ein array / hash-Tabelle, die nur gibt Ihnen die Antwort. Aber, könnte man nicht überlegen, diese "lineare Suche".
Warum ist die binäre Suche (willkürlich?) nicht erlaubt ist? Ist das ein echtes problem oder irgendeine Art von Hausaufgaben? Denn wenn du gehst, zu gehen durch die Mühe der Sortierung der Daten, wird eine binäre Suche ist dein bester Darsteller.
(Random thought: eins, zwei, überspringen Sie ein paar-aber das könnte fallen in 'nicht-linear', und wenn es schon sortiert, da jede nicht-triviale n ohne das match zu erwarten in der Nähe der front und der zugehörigen Lokalität Fragen ...)
Das ist im Grunde eine binäre Suche, wobei "ein paar" ist die "verbleibenden array-Größe / 2".
Binäre searsh wird am besten ausgeführt werden, nur wenn Sie wissen, dass das element, das Sie suchen, befindet sich in einem komplett unvorhersehbaren position. Wenn Sie wissen, dass die target-element ist wahrscheinlich in der Nähe der Anfang des Arrays, lineare Suche besser abschneiden werden als die binäre Suche. Klassisches Beispiel ist der bekannte Algorithmus für das Zusammenführen von zwei sortierten arrays. Wenn die arrays haben in etwa die gleiche Länge, die Verschmelzung erfolgt mit linearen Suche, da binäre wird viel langsamer.
Denken Sie daran binäre Suche erfordert Ihre eingestellten Daten sortiert werden.
tatsächlich, ich habe irgendwo gelesen, dass für kleine Arrays, lineare Suche schneller sein können: lwn.net/Articles/255364 - (Diskussion in den Kommentaren)
Wäre es als Cheaten angesehen, wenn Sie gescannt werden (jedes zehnte element erste und nach dem finden der ersten nicht weniger als der Schlüssel, gehen Sie zurück und Scannen letzten zehn element eins nach dem anderen? Wie wäre es mit einer Quadratwurzel von n anstelle von 10?
Das ist toll für bestimmte Fälle, aber es gibt nichts zu zeigen, dass es etwas besonderes über diesen Datensatz. Im generischen Fall, ein sortiert, aber sonst Fußgänger Satz von Daten wird am besten funktionieren in den meisten Anwendungsfällen mit einer binären Suche.
Ja, nicht das Scannen jedes element wäre Cheaten. @GMan: Es gibt eine MENGE Sie tun können, bevor Rückgriff auf SIMD. @Joe: Das ist der "Hausaufgaben", die ich gegeben habe, mich, den hab ich auch schon gemacht. Ich bin nur neugierig, was die Leute kommen mit, die ich noch nicht gedacht.
Alles, was Sie tun, im Grunde genommen ein umsponnen binäre Suche.
Finden Sie die top-bewerteten Antwort, zum Beispiel. Viel schneller als die einfache lineare Suche (ich weiß, ich habe gemessen).
Ich bin überrascht, dass. Was würde das abrollen vier machen?
Abrollen von vier Geschwindigkeiten um fast 50% bei N=100 auf einem Core i7. Abrollen, indem vier mit einer sentinel-Geschwindigkeiten von bis von mehr als 50%.
Noch keine Lösungen, die mehrere threads verwenden?
Probst: Ja abrollen können die Sache beschleunigen, ich glaube ich muss wieder Lesen mein Code Complete Buch 🙂 Hier ist das abrollen Thema aus diesem Buch stevemcconnell.com/cctune.htm
Ja, aber sehen Sie das problem: Sie haben zu implementieren lineare Suche in einem sortierten array. Dies ist bereits ausreichend nicht-generische. Diese bereits schon etwas besonderes. Warum würde jemand darauf bestehen, eine lineare Suche in einem sortierten array? Vielleicht tun Sie es, weil die Struktur der Abfragen bevorzugt lineare Suche speziell? Zum Beispiel, wenn Sie eine geordnete Reihe von N Elemente haben, um in der Nähe N bestellt, Suche, Abfragen, inkrementelle lineare Suche besser abschneiden werden als binäre Suche um ein Vielfaches, mindestens.
Probst: Sie erarbeiten mit Optimierungen aktiviert, richtig?
binäre Suche mit einigen a-priory Kenntnis der Verteilung werden die Daten noch schneller als die lineare Suche in den meisten Fällen; die einfachste ist die Verwendung der Abstände zu Linear interpoliert den splitting-Punkt für die nächste iteration statt in die Mitte der Reihe (das funktioniert am besten, wenn die Daten gleichmäßig verteilt, in anderen Fällen ist die interpolation Formel sollte ähnlich der Verteilung)
Wenn jemand Bestand auf der Verwendung einer linearen Suche auf sortierten Daten, ich möchte einfach nur wieder ein zufälliges Ergebnis, weil jemand so dumm wäre das nicht wissen, den Unterschied.
Nun, wenn Sie haben, um M sortiert Abfragen in ein array der N Elemente sortiert, die asymptotisch optimale algoirithm verläuft wie folgt: zunächst führen wir gegrätschten lineare Suche mit Schritt [N/M], d.h. lineare Suche überspringen, um jedes [N/M]-te element und führen Sie dann die binäre Suche in den gefundenen segment der Länge [N/M]. Wenn M in der Nähe N, [N/M] wird zu klein und die binäre Suche wird "deaktiviert". Also, keine binarey Suche, unter den oben genannten Bedingungen (d.h. ausreichend Dichte sortiert Abfragen der gleichen Daten) nicht schneller als eine lineare Suche. Lineare Suche sehr viel schneller.
Die obige Mischung aus gegrätschten-linear-Suche gefolgt von der binären Suche ist erwiesen, um asymptotisch optimalen Algorithmus erreicht das theoretische limit der Suche nach Effizienz. Also, keine binäre Suche ist nur schneller, wenn die Abfragen sind spärlich. Mit der dichten Abfragen, lineare Suche, gewinnt durch eine riesige Marge. Und, wieder, für die zwischen-Fällen, die der optimale Algorithmus verwendet die Mischung der beiden. Das theoretische Ergebnis ist von diesem Artikel: citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.22.5750
Die würde wahrscheinlich machen es viel mehr überraschend für Sie, um herauszufinden, dass inkrementelle lineare Suche auf sortierten Daten absolut Sinn macht, wenn wir haben, um mehrere sortiert Abfragen. Wenn die Anzahl der Abfragen Ansätze die Größe der Daten, lineare Suche als die binäre Suche um ein Vielfaches. Darüber hinaus werden aus diesem Grund praktisch jeder kann es benutzen (d.h. lineare Suche) beim mischen von sortierten Daten. Sie einfach nicht erkennen, dass.
dies ist nicht eine [code-golf] problem. Wenn es Links tagged wie, dass es geschlossen werden würde, weil die code-golf-Probleme, die nicht CW bekommen ständig geschlossen
Zusammenführen der sortierten Daten dauert lineare Zeit, aber es ist nicht eine lineare Suche. Sie sind richtig, über die Suche nach mehreren Werten auf einmal, aber das war nicht Teil der OP die Problematik.
Ja, es ist die lineare Suche 🙂 Die klassische merging-Algorithmus für sortierte arrays basiert auf der aktuellen minimales element aus dem array und sendet es zur Ausgabe. Es ist nicht offensichtlich, aber dies ist in der Tat nichts anderes als eine einfache lineare Suche eines elements von einem array in ein anderes array. Es ist einfach verschleiert ein wenig, so dass Sie nicht sehen es sofort, aber es Wirklichkeit ist es schlicht und unkompliziert lineare Suche.
Darüber hinaus ist die gleiche Logik gilt auch für die Zusammenführung so gut: wenn Sie das Zusammenführen von zwei arrays von deutlich unterschiedlicher Länge, es ist besser zu wechseln, um binäre Suche für die Zusammenführung aus. Aber wenn die Länge etwa gleich sind, nutzen wir die klassischen Algorithmus mit linearer Suche.
Ich bin nicht einverstanden, da die Listen sortiert sind, haben Sie die Zeiger auf die kleinste (oder größte) element im einzelnen, so sind Sie nie auf der Suche für das nächste element von einer der Teillisten, Sie sind nur zu entscheiden, welche Teilliste zu nehmen, das element aus.
Nein, Sie sind einfach das beharren auf eine bestimmte vision von dem, was passiert. Hier ist die althernative vision für Sie: zum ausführen der merge-wir nehmen das erste element a aus sortierten array A und führen Sie die lineare Suche nach element im sortierten array B. Das gibt uns eine [eventuell leer] Reihenfolge der führenden Elemente in B, die kleiner sind als a. Wir bewegen uns, die gesamte Sequenz zu Ausgabe, gefolgt von a. Dann wiederholen wir: nehmen Sie das nächste element a aus A... und so weiter. Das ist es.
Auf den ersten Blick klingt es vielleicht wie einen anderen Algorithmus, während, wenn Sie ein wenig darüber nachdenken, werden Sie sehen, dass dies genau der selben Klassiker-merging-Algorithmus, beschrieben nur in unterschiedliche Begriffe 🙂 Wieder, die klassische merging-Algorithmus ist nichts anderes als eine leicht verschleierte lineare Suche. Und wieder, wenn die arrays haben unterschiedliche Länge, die richtige Art und Weise zu tun, die Verschmelzung ist die Verwendung von binärer Suche: nehmen a aus A, binäre Suche in B verschieben Sie den Anfang der Sequenz von B Ausgabe, bewegen a Ausgabe, wiederholen.
Und wieder, der universal-asymptotisch optimale Strategie ist eine Mischung aus linearer und binärer Suche, wie beschrieben in meiner Antwort weiter unten.
Ich werde die Abstimmung zu schließen, ist diese Frage off-topic, weil es besser passt auf Code Überprüfen.
dies ist keine Frage für ein code-review der einfache Skalare lineare Suche, es ist mit das zu beschreiben/zeigen, dass der Algorithmus vektorisiert werden. Und außerdem, es ist zu alt, zu migrieren und die vorhandenen Antworten, also wenn das erste argument nicht überzeugen, dann würde ich noch vorschlagen, machen eine Ausnahme von der Regel für diese historische Frage.

InformationsquelleAutor Mark Probst | 2010-04-30

17
1. Sagen Sie Ihrem Chef Sie können es 50% schneller, aber es dauert 6 Monate, und etwas Geld.
2. Sechs Monate warten.
3. Neue hardware kaufen.
Gut, es macht ungefähr so viel Sinn wie eine lineare Suche durch ein sortiertes array!

(Mehr ernsthaft, können Sie uns ein paar Hinweise, warum keine binäre Suche?)
- Wenn Sie Lesen, alle Kommentare, die Sie sehen können, dass er gebeten, dies als eine geistige übung. Ich mag deine Antwort, es ist ein Klassiker! Definitiv denken außerhalb der box. Leider ist es nicht wirklich der Geist der Frage, die, wie Sie schreiben, wäre der code anders.
- Ich kann top @Mark Lösegeld... nur übertakten Ihres Prozessors.
- -1 Die Antwort ist zwar lustig, aber nicht sehr hilfreich.
- Andrei, ich von Ihnen positiv bewertet werden Ihren Kommentar. Natürlich, du hast Recht es ist nicht hilfreich. Es ist eine meta-Diskussion hier irgendwo, wie viel Mühe sich die Gemeinschaft geben soll, um Probleme, die ist wirklich eine selbst auferlegte gedankliche übung und ist nicht markiert als "puzzle"/"golf" oder ähnliches.
- Ich ging hin und sah auf seinen blog-post. Seine Rechtfertigung ist gegeben. Und sein blog ist benannt nach vier meiner Lieblings-Aktivitäten. Jetzt fühle ich mich schlecht 🙁
InformationsquelleAutor Oddthinking
17

So weit Sie erhielt mehrere Ratschläge, die meisten, die behaupten, dass die lineare Suche keinen Sinn macht, auf sortierten Daten, wenn binäre Suche wesentlich effizienter arbeiten statt. Dies geschieht oft zu einer der beliebtesten "richtig klingt" Aussagen von Leuten, die keine Pflege zu geben, das problem zu viel zu denken. In der Realität, wenn man bedenkt, das größere Bild, gegeben der richtigen Umstände, lineare Suche kann sehr viel effizienter als die binäre Suche.

Beachten Sie, dass, wenn wir betrachten ein single Suchanfrage für ein sortiertes array binäre Suche ist deutlich effizientere Methode als die lineare Suche. Es gibt keinen Streit darüber. Auch, wenn Sie führen Sie mehrere komplett random Abfragen der gleichen Daten binären Suche noch gewinnt gegenüber der linearen Suche.

Jedoch beginnt das Bild zu ändern, wenn wir betrachten die sequentielle Suche Abfragen und diese Abfragen sind nicht ganz zufällig. Vorstellen, dass Anfragen eintreffen, in der Reihenfolge sortiert, d.h. der jeweils nächste Abfrage ist für einen höheren Wert als die Vorherige Abfrage. I. e. die Abfragen sind auch sortiert. BTW, Sie haben nicht Global und streng sortiert, von Zeit zu Zeit der Abfrage-Sequenz könnte "zurücksetzen", d.h. einen niedrigen Wert abgefragt wird, aber im Durchschnitt ist die konsequente Abfragen sollte dann in aufsteigender Reihenfolge. In anderen Worten, die Abfragen kommen in Serie, jede Serie in aufsteigender Reihenfolge sortiert. In diesem Fall, wenn die Durchschnittliche Länge der Serie ist vergleichbar mit der Länge der Arrays, lineare Suche übertreffen binäre Suche durch eine riesige Marge. Jedoch, um die Vorteile dieser situation, müssen Sie implementieren Ihre Suche im inkrementelle Art und Weise. Es ist einfach: wenn die nächste Abfrage ist größer als die Vorherige, die Sie nicht brauchen, um die Suche zu starten von Anfang an der Reihe. Stattdessen können Sie die Suche von der Stelle, wo die Vorherige Suche gestoppt. Die meisten vereinfachten Umsetzung (nur um den Gedanken zu verdeutlichen) könnte wie folgt Aussehen
```
static int linear(const int *arr, int n, int key)
{
  static int previous_key = INT_MIN;
  static int previous_i = 0;

  i = key >= previous_key ? previous_i : 0;

  while (i < n) {
    if (arr[i] >= key)
      break;
    ++i;
  }

  previous_key = key;
  previous_i = i;

  return i;
}
```
(Disclaimer: die oben genannten Umsetzung ist furchtbar hässlich für die offensichtliche Grund, dass das array eintrifft, von außen als parameter, während die Vorherige Suche Zustand ist intern gespeichert. Natürlich, dies ist der falsche Weg, es zu tun in der Praxis. Aber noch einmal, die oben sollen verdeutlichen die Idee und nicht mehr).

Beachten, dass die Komplexität der Verarbeitung jeder Reihe bestellt-Abfragen mit dem obigen Ansatz ist immer O(N) unabhängig von der Länge der Serie. Mithilfe der binären Suche, die Komplexität wäre O(M * log N). So, aus offensichtlichen Gründen, wenn M ist in der Nähe N, d.h. Abfragen kommen in ausreichend langen Serie bestellt, die über die lineare Suche wird deutlich stärker als binäre Suche, während für kleine M die binäre Suche wird gewinnen.

Auch dann, wenn der geordnete Reihe von Abfragen sind nicht sehr lang, die oben genannten änderungen könnte es noch geben Sie eine spürbare Verbesserung auf der Suche nach Leistung, wenn man bedenkt, dass Sie haben lineare Suche.

P. S. Als zusätzliche information über die Struktur des Problems:

Wenn Sie brauchen, um die Suche in einem geordneten array der Länge N und Sie wissen im Voraus, dass die Abfragen kommen in geordnete Reihe von [Ungefähre, Durchschnittliche] Länge M, der optimale Algorithmus wird wie folgt Aussehen
1. Berechnen Sie die stride Wert S = [N/M]. Es könnte auch Sinn machen, um "snap" den Wert S auf die [nächste] Potenz von 2 ist. Denken Sie an Ihre sortierten array als eine Sequenz von Blöcken der Länge S - so genannte S-Blöcke.
2. Nach Empfang einer Abfrage, inkrementelle lineare Suche für den S-block, die möglicherweise enthält der abgefragte Wert, d.h. es ist eine gewöhnliche lineare Suche mit stride S (natürlich, denken Sie daran, start aus dem block, wo die Vorherige Suche Links aus).
3. Nach der Feststellung der S-block, führen Sie die binäre Suche in den S-block für den abgefragten Wert.
Oben ist die optimale inkrementelle Suche-Algorithmus möglich, in einem Sinn, der es erreicht die theoretische Grenze für die asymptotische Effizienz wiederholte Suche. Beachten Sie, dass wenn der Wert von M ist viel kleiner dann N der Algorithmus "automatisch" verschiebt sich in Richtung binäre Suche, während, wenn M nahe kommt N den Algorithmus "automatisch" begünstigt lineare suchen. Letzteres macht Sinn, da in solcher Umgebung die lineare Suche ist wesentlich effizienter als die binäre Suche.

All dies ist nur zur Veranschaulichung der Tatsache, dass die Decke Aussagen wie "lineare Suche auf einem sortierten array ist immer sinnlos" zeigen, nichts anderes als Mangel an wissen auf Seiten derer, die solche Aussagen machen.
- Ich denke, das ist die beste Antwort, da der OP sagte, "für eine große Anzahl von Durchsuchungen".
- Verwandte: Was ist der effizienteste Weg zur Umsetzung einer BST-so die find(Wert) Funktion ist optimiert für random-Werte im Baum auf x86? Ein Binär search-tree ist nicht immer die beste Datenstruktur für die Fälle, in denen linear ist gar nicht gut. Ein N-ary tree, wobei N-1 ist ein Vielfaches von dem SIMD-Vektor-Breite ermöglicht die effiziente Suche auf modernen x86. z.B. 17-Fach für 4x 4-element-SIMD-Vektoren, mit viel besseren räumlichen Lokalität als eine binäre Suche in einem sortierten array, und weniger Schritte. SIMD sehr gut sein kann für die lineare Suche, auch.
InformationsquelleAutor AnT
12

Da können Sie stellen Sie den bekannten Werten nach dem letzten gültigen Eintrag, fügen Sie ein zusätzliches element n+1 = max, um sicherzustellen, dass die Schleife geht nicht über das Ende des Arrays, ohne zu testen, für i < n.
```
static int
linear (const int *arr, int n, int key)
{
        assert(arr[n] >= key);
        int i = 0;
        while (arr[i] < key) {
                ++i;
        }
        return i;
}
```
Könnte man auch versuchen abrollen der Schleife, mit dem gleichen sentinel-Wert:
```
static int
linear (const int *arr, int n, int key)
{
        assert(arr[n] >= key);
        int i = 0;
        while (true) {
                if (arr [i++] >= key)
                        break;
                if (arr [i++] >= key)
                        break;
                if (arr [i++] >= key)
                        break;
                if (arr [i++] >= key)
                        break;
        }
        return --i;
}
```
- Im Prinzip richtig, aber falsch im detail. Der sentinel muss größer oder gleich dem Schlüssel, nicht weniger.
- Nahm ein paar änderungen, um diese zu erhalten Recht, sorry, wenn jemand verwirrt ist.
- Auch die Assertion falsch ist, abgesehen von den Zeichen. Das element nach dem letzten index n, nicht n+1.
- Dank für das Auffinden, n+1, ich denke, ich bin nicht fertig. Und ich denke, du hast Recht über den Wächter zu, die, wie ich hatte es zuerst - ich bin versucht, dies zu tun zu schnell.
- Solange wir Mikro-optomizing, können Sie auch start i bei -1 und dann pre-Inkrement in die array-Indizierung in Ihrer ent-Schleife Beispiel. Das erspart Ihnen das zusätzliche --i am Ende.
- da das Dekrementieren ist außerhalb der Schleife, die Sie nicht machen einen messbaren Unterschied in den Ergebnissen. Würde ich auch ändern müssen alle postincrements zu preincrements. Danke für den Vorschlag aber.
- Lösegeld: Warum abrollen 4 mal? Warum nicht 2 oder 8 oder 16?
- könnte man sicher tun, aber es gibt einen Punkt des abnehmenden Ertrags. Auch die größer der code, desto mehr Möglichkeit der cache-Probleme.
- Lösegeld: ja, kann ich das verstehen, aber wie kam es zu 4 überhaupt? Ich bin mir auch nicht sicher ob das "natürlich" Teil der "Für n < 4 mit diesem abrollen nicht beschleunigen Suche, natürlich".
InformationsquelleAutor Mark Ransom
7

Zunächst keine schnelle Lösung verwenden müssen, Vektorisierung zu vergleichen, die viele Elemente auf einmal.

Jedoch alle die vektorisierte Implementierungen geschrieben, so weit leiden unter einem gemeinsamen problem: Sie haben Niederlassungen. Als Ergebnis, werden Sie haben, um einzuführen blockwise Verarbeitung von array (overhead reduziert der Verzweigung), die führt zu low-performance für kleine arrays. Für große arrays-linear-Suche ist schlimmer, als eine gut optimierte binäre Suche, so gibt es keinen Punkt in der Optimierung von it.

Jedoch lineare Suche realisiert werden können, ohne Zweige. Die Idee ist sehr einfach: der index, den Sie wollen, ist genau die Anzahl der array-Elemente, die kleiner sind als der Schlüssel, den Sie suchen. Damit Sie vergleichen können jedes element des Arrays mit dem key-Wert und die Summe aller flags:
```
static int linear_stgatilov_scalar (const int *arr, int n, int key) {
    int cnt = 0;
    for (int i = 0; i < n; i++)
        cnt += (arr[i] < key);
    return cnt;
}
```
Einen Spaß an dieser Lösung ist, dass würde es wieder die gleiche Antwort, auch wenn Sie die shuffle-array =) Obwohl diese Lösung scheint zu sein, eher langsam, kann es sein, vektorisiert aus. Die Umsetzung, sofern unten erfordert array auf 16 byte ausgerichtet. Auch, das array muss aufgefüllt werden mit INT_MAX Elemente, weil es verbraucht 16 Elemente auf einmal.
```
static int linear_stgatilov_vec (const int *arr, int n, int key) {
    assert(size_t(arr) % 16 == 0);
    __m128i vkey = _mm_set1_epi32(key);
    __m128i cnt = _mm_setzero_si128();
    for (int i = 0; i < n; i += 16) {
        __m128i mask0 = _mm_cmplt_epi32(_mm_load_si128((__m128i *)&arr[i+0]), vkey);
        __m128i mask1 = _mm_cmplt_epi32(_mm_load_si128((__m128i *)&arr[i+4]), vkey);
        __m128i mask2 = _mm_cmplt_epi32(_mm_load_si128((__m128i *)&arr[i+8]), vkey);
        __m128i mask3 = _mm_cmplt_epi32(_mm_load_si128((__m128i *)&arr[i+12]), vkey);
        __m128i sum = _mm_add_epi32(_mm_add_epi32(mask0, mask1), _mm_add_epi32(mask2, mask3));
        cnt = _mm_sub_epi32(cnt, sum);
    }
    cnt = _mm_hadd_epi32(cnt, cnt);
    cnt = _mm_hadd_epi32(cnt, cnt);
// int ans = _mm_extract_epi32(cnt, 0);    //SSE4.1
    int ans = _mm_extract_epi16(cnt, 0);    //correct only for n < 32K
    return ans;
}
```
Die endgültige Reduktion einer einzelnen SSE2-register implementiert werden können, mit SSE2 nur wenn nötig, es sollte nicht wirklich Einfluss auf die Gesamtleistung.

Habe ich es getestet mit Visual C++ 2013 x64-compiler auf Intel Core2 Duo E4700 (ziemlich alt, ja). Der array der Größe 197 generiert wird, mit Elementen versehen, die von rand(). Den vollständigen code, mit all den Tests ist hier. Hier ist die Zeit zum ausführen 32M Suche:
```
[OP]
Time = 3.155 (-896368640) //the original OP's code
[Paul R]
Time = 2.933 (-896368640)
[stgatilov]
Time = 1.139 (-896368640) //the code suggested
```
Den OP ' s original-code Prozesse 10.6 Millionen-array pro Sekunde (2,1 Milliarden Elemente pro Sekunde). Die vorgeschlagene code-Prozesse 29.5 Millionen von arrays pro Sekunde (5,8 Milliarden Elemente pro Sekunde).
Auch der vorgeschlagene code funktioniert gut für kleinere arrays: auch für arrays von 15 Elementen, ist es immer noch fast drei mal schneller als die OP ' s original-code.

Hier ist die generierte assembly:
```
$LL56@main:
    movdqa  xmm2, xmm4
    movdqa  xmm0, xmm4
    movdqa  xmm1, xmm4
    lea rcx, QWORD PTR [rcx+64]
    pcmpgtd xmm0, XMMWORD PTR [rcx-80]
    pcmpgtd xmm2, XMMWORD PTR [rcx-96]
    pcmpgtd xmm1, XMMWORD PTR [rcx-48]
    paddd   xmm2, xmm0
    movdqa  xmm0, xmm4
    pcmpgtd xmm0, XMMWORD PTR [rcx-64]
    paddd   xmm1, xmm0
    paddd   xmm2, xmm1
    psubd   xmm3, xmm2
    dec r8
    jne SHORT $LL56@main
$LN54@main:
    phaddd  xmm3, xmm3
    inc rdx
    phaddd  xmm3, xmm3
    pextrw  eax, xmm3, 0
```
Schließlich möchte ich zu beachten, dass eine gut optimierte binäre Suche kann schneller gemacht werden, durch die Umstellung auf die beschrieben vektorisiert lineare Suche, sobald das Intervall wird kleiner.

UPDATE: Weitere Informationen finden Sie in mein blog-post auf die Sache.

InformationsquelleAutor stgatilov
3

Falls ein target-spezifische Lösung ist akzeptabel, dann können Sie ganz einfach nutzen SIMD (SSE, AltiVec, oder was auch immer Sie zur Verfügung haben) zu bekommen ~ 4x speed-up durch Tests 4 Elemente zu einer Zeit, anstatt nur 1.

Aus Interesse ich habe einen einfachen SIMD-Implementierung wie folgt:
```
int linear_search_ref(const int32_t *A, int32_t key, int n)
{
    int result = -1;
    int i;

    for (i = 0; i < n; ++i)
    {
        if (A[i] >= key)
        {
            result = i;
            break;
        }
    }
    return result;
}

int linear_search(const int32_t *A, int32_t key, int n)
{
#define VEC_INT_ELEMS 4
#define BLOCK_SIZE (VEC_INT_ELEMS * 32)
    const __m128i vkey = _mm_set1_epi32(key);
    int vresult = -1;
    int result = -1;
    int i, j;

    for (i = 0; i <= n - BLOCK_SIZE; i += BLOCK_SIZE)
    {
        __m128i vmask0 = _mm_set1_epi32(-1);
        __m128i vmask1 = _mm_set1_epi32(-1);
        int mask0, mask1;

        for (j = 0; j < BLOCK_SIZE; j += VEC_INT_ELEMS * 2)
        {
            __m128i vA0 = _mm_load_si128(&A[i + j]);
            __m128i vA1 = _mm_load_si128(&A[i + j + VEC_INT_ELEMS]);
            __m128i vcmp0 = _mm_cmpgt_epi32(vkey, vA0);
            __m128i vcmp1 = _mm_cmpgt_epi32(vkey, vA1);
            vmask0 = _mm_and_si128(vmask0, vcmp0);
            vmask1 = _mm_and_si128(vmask1, vcmp1);
        }
        mask0 = _mm_movemask_epi8(vmask0);
        mask1 = _mm_movemask_epi8(vmask1);
        if ((mask0 & mask1) != 0xffff)
        {
            vresult = i;
            break;
        }
    }
    if (vresult > -1)
    {
        result = vresult + linear_search_ref(&A[vresult], key, BLOCK_SIZE);
    }
    else if (i < n)
    {
        result = i + linear_search_ref(&A[i], key, n - i);
    }
    return result;
#undef BLOCK_SIZE
#undef VEC_INT_ELEMS
}
```
Auf 2,67 GHz Core i7 mit OpenSUSE x86-64 und gcc 4.3.2, erhalte ich rund 7x - 8x Verbesserung um einen Recht breiten "sweet spot", wo n = 100000 mit dem Schlüssel, gefunden in der Mitte des Arrays (d.h. Ergebnis = n /2). Die Leistung fällt ab rund 3.5x wenn n wird groß und das array daher übersteigt cache-Größe (vermutlich immer Speicherbandbreite-in diesem Falle beschränkt). Die Leistung fällt auch ab, wenn n klein ist, aufgrund der Ineffizienz der SIMD-Implementierung (es wurde optimiert für große n natürlich).
- Sie verwenden können, SIMD, aber der speedup wird nicht 4x, vor allem nicht für kleine arrays. Getestet mit SSE2 auf einem Core i7. Ich hätte Interesse an Ihrer Umsetzung.
- Für kleine arrays, das vielleicht nicht, aber für große arrays, die ich denke, Sie sollten in der Lage sein zu schlagen 4x mit SIMD. Ich würde entrollen der main-loop durch 2, so dass Sie zwei Vektor-Lasten ausgegeben pro iteration und Sie sollten dann in der Lage, verstecken die meisten die Latenz.
- Ich habe schon einige Zeit das hantieren mit diesem, und den besten speedup, die ich bekommen kann mit SSE2 über meine beste non-SSE2-Implementierung 2.6 x für große arrays. Ich würde gerne testen Sie Ihre Implementierung, obwohl 🙂
- OK - challenge accepted - ich werde es code, bis später und kommen zurück zu Ihnen...
- Für große Puffer, rund 2,5 x ist die typische Beschleunigung, die ich erlebt habe, gezielt optimierte sse2-code über sorgfältig optimiert geraden c math.
- es hängt sehr viel auf, was für eine CPU Sie verwenden, und auch einige Maße auf, was compiler. Vor Woodcrest, wenn SSE2 war nur eine 64-bit-Implementierung unter der Haube, SSE speed-ups waren bescheiden im Vergleich zu full 128-bit-SIMD-Implementierungen wie AltiVec, aber ab Core 2 Duo aufwärts Sie sollte in der Lage sein 4x-Verbesserung für float/int.
- Probst: OK, ich habe eine einfache SIMD-Implementierung auf meine Antwort oben. Es ist rund 8x schneller als Skalare code, am besten mit array-Größen von der Ordnung 100000 und der Wert des Schlüssels gefunden auf halbem Weg durch die Reihe. Es fällt auf rund 3.5x für sehr große arrays.
- Für kleine array-Größen dies ist viel langsamer als meine schnellsten Implementierungen (und langsamer, eigentlich, als meine langsamste). Für N=1000 es ist in etwa so schnell wie meine Schnellste nicht-SIMD-Implementierung, aber noch nicht einmal die Hälfte der Geschwindigkeit von meinem besten SSE2-Implementierung. Bei N=10000 ist es fast so schnell wie meine beste SSE2-Implementierung, aber es holt immer voll. GCC 4.2.1 auf einem Core i7.
- Ich Frage mich, wie man kompiliert und wie man timing ? Ich bin mit gcc -O3 und es ist ein x86-64 ausführbare Datei (doppelt so viele SSE-Register als x86). Wenn ich Zeit mache ich es in einer Schleife (100 Iterationen) und unter dem minimalen Zeit - dies bedeutet, dass für alle, aber die erste iteration die caches, die grundiert werden. Wenn Sie nur das timing eine iteration dann Ihre Messungen verzerrt sein. Und ja natürlich, die Leistung wird schlechter für kleine arrays - das ist rechnen, da die routine wertet blocks des Arrays, anstatt einzelne Elemente oder Vektoren.
- nur noch ein sanity-check: was sind deine absoluten Zeiten ? Bei 2,67 GHz, ich sehe um 1,0 ns / element gesucht für die skalaren code und unter 0,15 ns / element gesucht für meine SIMD-code (für N = 100000 Fall, wo der Schlüssel ist bei N / 2, also die Zeiten sind gleich der Summe Zeit / 50000).
- 0.15 ns / element durchsucht bedeutet, du tust 2.5/Elemente-Zyklus. Mein code tut 2.6 Elemente/Zyklus. Fühlen Sie sich frei, um zu versuchen, es selbst heraus github.com/schani/linbin - ich habe einen branch "paulr", die Ihre Umsetzung. Test linear_sentinel_sse2_nobranch vs linear_sse2_paulr.
- Danke - ich habe einige Ideen für weitere Optimierungen, die ich werde versuchen später heute. Man geht mit SSE4 aber ich werde #ifdef code in Fall, dass Sie wollen, und Schränken Sie diese auf SSE2.
- auch meine weitere Optimierungen nicht viel helfen - ich vermute, die Leistung hat den Punkt erreicht, wo es wird begrenzt durch cache/Speicher-lese-Bandbreite. Das ist immer das problem, wenn Sie haben sehr wenig Berechnung relativ zum Speicher-I/O.
- Könnte gut sein. Gut für uns, dann ist es nicht? 🙂
InformationsquelleAutor Paul R
2

Haben Sie erhalten viele Anregungen für Verbesserungen, aber Sie brauchen, um zu Messen, jede Optimierung zu sehen, welche ist am besten gegeben, Ihre hardware-und compiler -.

Als ein Beispiel, in der ersten version dieser Antwort, ich vermutete, dass von 100-200 array-Elemente, die etwas höhere Aufwand der binären Suche sollte einfach bezahlt werden von weitaus weniger Sonden in dem array. Jedoch, unten in den Kommentaren, Mark Probst berichtet, dass er sieht, lineare Suche vor bis zu 500 Einträge auf seiner hardware. Dies verstärkt die Notwendigkeit, zu Messen bei der Suche nach der besten Leistung.

Hinweis: Bearbeitet folgende Daneben auch die Kommentare unten auf seine Messungen von linearen versus binäre Suche für relativ kleine N.
- Meine beste lineare Suche beats ein standard-Binär-Suche bis zu N=550 auf einem Core i7.
- Vielen Dank für die Informationen. Ich habe aktualisiert mein Kommentar um dies zu reflektieren.
- Die gemeinsamen Regeln der Optimierung: 1) keine, 2) Messen Gegeben, dass all dies nur ein Gedanke übung #1 nicht gelten. Aber #2 muss immer gelten. Ich bin froh, dass jemand brachte das!
InformationsquelleAutor Dale Hagglund
2

Du kannst es in parallel.

Wenn die Liste klein ist, ist es vielleicht nicht Wert sind, teilen Sie die Suche, aber wenn, müssen Prozess viele sucht, dann kann man definitiv laufen Sie parallel. Das wäre nicht verringern die Latenz der Operationen, sondern verbessern den Durchsatz.
- Es gibt fast keine Möglichkeit, die erstellen sogar ein thread wird billiger sein als ein linear-scan mit 100-200 Elemente.
- Falls es trotzdem gehen zu viele Suchanfragen, werden diese parallel durchgeführt werden können, und die threads werden in einem pool und wiederverwendet.
- In diesem Fall, wenn Sie sind auf der Suche <60 items, es gibt keine Notwendigkeit, es zu tun in parallel. Es gibt jedoch einige Anwendungsfälle (habe ich jetzt), wo ein Array von Elementen ist nicht bestellt und die Bestellung kann nicht mehr geändert werden. Binäre Suche nicht verwendet werden, in diesem Fall und wenn die Array-Größe ist ziemlich groß (es müsste irgendwo um die 10.000 zu machen es lohnt sich der zusätzliche Aufwand), teilt das array und Suche parallel auf jeden Fall wäre eine praktikable Lösung
- Yup, für große arrays könnte man sich vorstellen, dass verschiedene Teile des Arrays bleiben können, in den heißen privaten L2-cache auf verschiedenen Kernen. Für ein 64-element-array, der Synchronisations-overhead, daß eine Suche in einem worker-thread ist höher als es einfach zu tun in dem thread, will das Ergebnis.
InformationsquelleAutor fortran
2

Wenn Sie auf einer Intel-Plattform:
```
int linear (const int *array, int n, int key)
{
  __asm
  {
    mov edi,array
    mov ecx,n
    mov eax,key
    repne scasd
    mov eax,-1
    jne end
    mov eax,n
    sub eax,ecx
    dec eax
end:
  }
}
```
aber das findet nur genaue übereinstimmungen, nicht größer als oder gleich entspricht.

In C können Sie auch Duff ' s Device:
```
int linear (const int *array, int n, int key)
{
  const int
    *end = &array [n];

  int
    result = 0;

  switch (n % 8)
  {
    do {
  case 0:
    if (*(array++) >= key) break;
    ++result;
  case 7:
    if (*(array++) >= key) break;
    ++result;
  case 6:
    if (*(array++) >= key) break;
    ++result;
  case 5:
    if (*(array++) >= key) break;
    ++result;
  case 4:
    if (*(array++) >= key) break;
    ++result;
  case 3:
    if (*(array++) >= key) break;
    ++result;
  case 2:
    if (*(array++) >= key) break;
    ++result;
  case 1:
    if (*(array++) >= key) break;
    ++result;
    } while(array < end);
  }

  return result;
}
```
- Seien Sie vorsichtig, Empfehlung Duff ' s device. Es ist clever, C-code, für einen gewissen Wert von "clever", sondern weil es extrem unstrukturiert, kann es manchmal zu besiegen moderner optimierender Compiler.
- Du hast Recht, Compilern, fast würde sicherlich einen besseren job loop unrolling als diese.
- repne scasd hat erhebliche startup-overhead, und nicht einmal alle, die schnell im Vergleich zu SIMD. (rep stos und rep movs sind gut (vor allem für die großen Blöcke zu amortisieren sich die startup-overhead), und intern betreiben in 16-byte-oder 32-byte-Blöcken, aber AFAIK die bedingte rep-string-Anweisungen (scas und cmps) sind nicht viel mehr als ein Skalar-Schleife implementiert, die in microcode.) Siehe Agner Fog ist insn Tabellen und Optimierung von Montage-Anleitung, und auch andere links in die x86-wiki-tag, wie die Intel-Optimierung Handbuch.
- Update auf dieser: repne scasd macht nicht Schnelle Streicher-Unterstützung auf alle vorhandenen CPUs. Es funktioniert am besten 1 DWORD vergleichen pro Uhr nach dem Start, noch auf den letzten Skylake / Ryzen CPUs. Im Jahr 2010, als diese Antwort gepostet wurde, Nehalem aktuell war und tun konnte, ein 16-byte-SIMD-Last pro Uhr. Intel seit Haswell und AMD seit Zen2, kann 2x 32-byte-loads pro Takt, zusammen mit der SIMD-ALU-Arbeit zu vergleichen und zu überprüfen für den Schlüssel. (Oder stgatilov die astfreie version gerade gilt es zu finden, wo der Schlüssel war). Gehen zu müssen, downvote: es ist nicht optimal für irgendetwas, außer vielleicht, code-Größe.
InformationsquelleAutor Skizz
2

Wenn Sie hatte einen Quanten-computer, den Sie verwenden konnten, Grover ' s Algorithmus um Ihre Daten zu durchsuchen, die in O(N^1/2) Zeit und mit O(log N) Speicherplatz. Ansonsten, deine Frage ist ziemlich albern. Binäre Suche (binary) oder einer seiner Varianten (trinary search, zum Beispiel) ist wirklich die beste Wahl. Tut Mikro-Optimierungen der linearen Suche ist dumm, wenn Sie können wählen Sie ein superior-Algorithmus.
- Ok, Mister Klugscheißer, ich habe einen Core i7 und suchen in einem array der Größe 64, und es braucht, um super-schnell. Lineare oder binäre? Weitere Optimierungen?
- George: Für kleine arrays, cache-misses und Zweig mispredictions Dominieren die Laufzeit eine binäre Suche. Eine lineare Suche verwenden können, prefetch zu beseitigen, cache-misses und wird in der Lage sein, vorherzusagen, die meisten äste.
- Probst, In Ihrem Fall, ich kann es in konstanter Zeit...
- Ja, Sie können tun fast alles, was in konstanter Zeit, wenn Sie machen nur die Konstante groß genug. Aber das war nicht die Frage.
- In der Theorie eine Feste Größe array durchsucht wird, in konstanter Zeit. In der Theorie gibt es keinen Unterschied zwischen Theorie und Praxis. In der Praxis stimmt das nicht.
- True, aber wenn Sie sind auf der Suche ein array der Größe 64 warum gehen durch alle diese Anstrengungen zur Optimierung der search?
- Ich könnte die gleiche Frage stellen, für alle array-Größe, konnte ich nicht?
InformationsquelleAutor George

Ich weiß, dass dieses Thema alt ist, aber ich konnte nicht halten mich von der Buchung. Meine Optimierung für eine sentinel-linear-Suche:

int sentinel_linear_search(int key, int *arr, int n)
{
    int last_value, i;

    /* considering that n is the real size of the array */
    if (--n < 1)
        return -1;

    last_value = arr[n];

    /* set array last member as the key */
    arr[n] = key;

    i = 0;
    while (arr[i] != key)
        ++i;

    /* recover the real array last member */
    arr[n] = last_value;

    return (arr[i] == key) ? i : -1;
}

Den sentinel-Suche große Verbesserung ist, dass seine iteration verwendet nur eine bedingte Verzweigung (key) anstelle von zwei (index und Schlüssel).

    while (arr[i] != key)
        ++i;

Nach usr Kommentar habe ich entfernt, der ret-variable und verkürzt den code. Tks.

InformationsquelleAutor Geyslan G. Bem

Rollen mit festen array-Indizes.

int linear( const int *array, int n, int key ) {
  int i = 0;
  if ( array[n-1] >= key ) {
     do {
       if ( array[0] >= key ) return i+0;
       if ( array[1] >= key ) return i+1;
       if ( array[2] >= key ) return i+2;
       if ( array[3] >= key ) return i+3;
       array += 4;
       i += 4;
     } while ( true );
  }
  return -1;
}

InformationsquelleAutor drawnonward

1

Diese Antwort ist ein wenig dunkler als meine anderen, so bin ich Entsendung es separat. Es beruht auf der Tatsache, dass C garantiert eine Boolesche Ergebnis false=0 und true=1. X86 produzieren können booleans ohne Verzweigung, so könnte es schneller sein, aber ich habe es noch nicht getestet. Mikro-Optimierungen wie diese werden immer stark abhängig von Prozessor und compiler.

Als vor der Aufrufer ist dafür verantwortlich, dass eine sentinel-Wert am Ende des Arrays, um sicherzustellen, dass die Schleife beendet.

Bestimmung der optimalen Menge der loop-unrolling ein wenig Experimentieren. Suchen Sie den Punkt Abnehmender (oder negative) gibt. Ich werde nehmen eine BEUTE und versuchen 8 diese Zeit.
```
static int
linear (const int *arr, int n, int key)
{
        assert(arr[n] >= key);
        int i = 0;
        while (arr[i] < key) {
                i += (arr[i] < key);
                i += (arr[i] < key);
                i += (arr[i] < key);
                i += (arr[i] < key);
                i += (arr[i] < key);
                i += (arr[i] < key);
                i += (arr[i] < key);
                i += (arr[i] < key);
       }
       return i;
}
```
Edit: Als die Punkte Markieren, die diese Funktion stellt eine Abhängigkeit in jeder Zeile auf der vorhergehenden Zeile, die Grenzen der Fähigkeit der Prozessor-pipeline zum ausführen von Operationen parallel. So versuchen wir eine kleine änderung an der Funktion zum entfernen der Abhängigkeit. Nun die Funktion erfordert in der Tat 8 sentinel-Elemente am Ende.
```
static int 
linear (const int *arr, int n, int key) 
{ 
        assert(arr[n] >= key);
        assert(arr[n+7] >= key);
        int i = 0; 
        while (arr[i] < key) {
                int j = i;
                i += (arr[j] < key); 
                i += (arr[j+1] < key); 
                i += (arr[j+2] < key); 
                i += (arr[j+3] < key); 
                i += (arr[j+4] < key); 
                i += (arr[j+5] < key); 
                i += (arr[j+6] < key); 
                i += (arr[j+7] < key); 
       } 
       return i; 
} 
```
- Gut, aber ich glaube nicht, dass es gut durchführen, denn es stellt die Daten-Abhängigkeit für den index i, der den einfacheren linearen Suche nicht. Ich werde benchmark es. Außerdem müssen Sie 8 sentinel-Werte, nicht nur eine.
- Die Daten der in - führt es grauenhaft :-). Es geschlagen, auch durch eine einfache, nicht-sentinel, nicht abgerollt lineare Suche durch fast einen Faktor 2.
- Naja, es war einen Versuch Wert. Und du nur noch eine brauchst, sentinel, da der index Stoppt das Inkrementieren, sobald Sie es erreichen.
- Aber die Assertion fehl ;-). Du hast Recht, obwohl.
- Probst, versuchen, meine neuesten Falten.
- Viel besser. Etwa 30% schneller als die Moor-standard-linear-Suche, aber immer noch nur etwa die Hälfte der Geschwindigkeit der ent-lineare Suche mit sentinel. Mein code ist jetzt online unter github.com/schani/linbin - fühlen Sie sich frei zu spielen, um mit es.
InformationsquelleAutor Mark Ransom
1

Könnte man vermeiden n prüft, ähnlich wie loop unrolling macht es
```
static int linear(const int *array, int arraySize, int key)
{
  //assuming the actual size of the array is always 1 less than arraySize
  array[arraySize] = key; 

  int i = 0;
  for (; ; ++i)
  {
     if (array[i] == key) return i;
  }
}
```
- Wenn es kein element ähnlich Schlüssel, den Sie Lesen werden, out of bounds. Verwenden Sie eine bedingte Verzweigung ist es notwendig, um die letzten (oder ersten, wenn inverse) array-element. Siehe meine Antwort: stackoverflow.com/a/33972674/2776344
InformationsquelleAutor archon
0

Schleife nach hinten, könnte dies übersetzt werden...
```
//loop backward

for (int i = arraySize - 1; i >=0; --i)
```
...auf diese( "könnte" schneller ):
```
    mov cx, arraySize - 1
detectionHere:
    ...
    loop detectionHere   
```
Andere als die, nur binary search kann die Suche schneller
- loop nicht schnell; in den meisten komplexen Anweisungen sind langsamer als mehrere einfache Anweisungen heute. Auch, woudln nicht diese machen einen schlechten Gebrauch von caches?
- daher das "könnte" schneller. weniger eine Anleitung, ein kleiner Zyklus, nur meine Gedanken
InformationsquelleAutor Michael Buen
0

diese könnten es erzwingen, Vektor-Anweisungen (vorgeschlagen von Gman):
```
for (int i = 0; i < N; i += 4) {
    bool found = false;   
    found |= (array[i+0] >= key);
    ...
    found |= ( array[i+3] >= key);
    //slight variation would be to use max intrinsic
    if (found) return i;
}
...
//quick search among four elements
```
dadurch auch weniger branch-Instruktionen.
Sie helfen, durch die Gewährleistung der Eingabe-array ist ausgerichtet auf die 16-byte-Grenze

andere Sache, die helfen können, Vektorisierung (tut vertikal max-Vergleich):
```
for (int i = 0; i < N; i += 8) {
    bool found = false;   
    found |= max(array[i+0], array[i+4]) >= key;
    ...
    found |= max(array[i+3], array[i+7] >= key;
    if (found) return i;
}
//have to search eight elements
```
- Das ist interessant. Können Sie erklären, diesen code?
- im Grunde hofft Ihr, Vektor-Anweisungen zu tun, 4x Dinge in einer Zeit. viele Compiler gezwungen werden kann zu verwenden Z Anweisungen. in der ersten, Sie laden 4 Elemente, in der zweiten, Sie laden acht Elemente, und beseitigen Sie die Hälfte von Vektor-max-Funktion. das Ergebnis ist ein Bereich, in dem index befindet (vier oder acht Elemente lang).nach dieser, Sie Suche kleinen Bereich für genau-index
InformationsquelleAutor Anycorn
0

Suchen Sie für eine größere element als int in einer Zeit, die Plattform - spezifisch sind, kann dies viel schneller oder langsamer, je nachdem, wie es mit der größeren Daten Lesen. Zum Beispiel, auf einem 64-bit-system, das Lesen in das array 2 Elemente zu einer Zeit und überprüfen die hi/low Elemente einzeln konnte schneller laufen, da weniger I/O. Dennoch ist dies eine O(n) verschiedene Art, egal was.

InformationsquelleAutor Michael Dorgan
0

In einem der Kommentare, die Sie sagte, die array-Länge ist 64.

Gut, wenn Sie muss tun es Linear, die Sie tun können:
```
int i = -1;
do {
  if (arr[0] >= key){i = 0; break;}
  if (arr[1] >= key){i = 1; break;}
  ...
  if (arr[62] >= key){i = 62; break;}
  if (arr[63] >= key){i = 63; break;}
} while(0);
```
Aber ich bezweifle ernsthaft, wenn es das ist schneller als diese binäre Suche: *
```
int i = 0;
if (key >= arr[i+32]) i += 32;
if (key >= arr[i+16]) i += 16;
if (key >= arr[i+ 8]) i +=  8;
if (key >= arr[i+ 4]) i +=  4;
if (key >= arr[i+ 2]) i +=  2;
if (key >= arr[i+ 1]) i +=  1;
```
*Dank Jon Bentley für eine.

Fügte hinzu: da Sie gesagt haben, ist diese Tabelle bereit ist, sobald Sie für eine große Anzahl von Suchanfragen, und Sie wollen schnell, konnte Sie weisen Sie einige Raum irgendwo und generieren Computer-code mit den Werten der hard-wired, in es. Es kann entweder die lineare oder binäre Suche. Wenn binäre, der Computer-code Aussehen würde, was würde der compiler daraus generieren:
```
if (key < value32){
  if (key < value16){
    ...
  }
  else {
    ...
  }
}
else {
  if (key < value48){
    ...
  }
  else {
    ...
  }
}
```
Dann einfach kopieren, in einen Ort, wo man das so nennen kann.

ODER Sie können drucken Sie den obigen code, kompilieren Sie und verknüpfen Sie es on-the-fly in eine dll und lädt die dll.

InformationsquelleAutor Mike Dunlavey

uint32 LinearFindSse4( uint8* data, size_t data_len, uint8* finddata, size_t finddatalen )
{
    /**
     * the following is based on...
     * #define haszero(v) (((v) - 0x01010101UL) & ~(v) & 0x80808080UL)
     * we split it into 2 sections
     * first section is:
     * (v) - 0x01010101UL)
     *
     * second section is:
     * ~(v) & 0x80808080UL)
     */
    __m128i ones = _mm_set1_epi8( 0x01 );
    __m128i eights = _mm_set1_epi8( 0x80 );
    __m128i find_field = _mm_set1_epi8( finddata[0] );

    uint32 found_at = 0;
    for (int i = 0; i < data_len; i+=16)
    {
#define CHECKTHIS( n ) if (!memcmp(&data[i+n], &finddata[0], sizeof(finddata))) { found_at = i + n; break; }

        __m128i chunk = _mm_stream_load_si128( (__m128i *)&data[i] );
        __m128i xor_result = _mm_xor_si128( chunk, find_field );
        __m128i first_sec = _mm_sub_epi64( xor_result, ones );
        __m128i second_sec = _mm_andnot_si128( xor_result, eights );

        if(!_mm_testz_si128(first_sec, second_sec))
        {
            CHECKTHIS(0);
            CHECKTHIS(1);
            CHECKTHIS(2);
            CHECKTHIS(3);
            CHECKTHIS(4);
            CHECKTHIS(5);
            CHECKTHIS(6);
            CHECKTHIS(7);
            CHECKTHIS(8);
            CHECKTHIS(9);
            CHECKTHIS(10);
            CHECKTHIS(11);
            CHECKTHIS(12);
            CHECKTHIS(13);
            CHECKTHIS(14);
            CHECKTHIS(15);
        }
    }
    return found_at;
}

Bitte fügen Sie einige Kommentare zu dieser code-only-post

InformationsquelleAutor Steven Hoving

-1

In der Realität, die Antwort auf diese Frage ist zu 100% abhängig von der Plattform, Sie schreiben den code für. Zum Beispiel:
```
CPU : Memory speed | Example CPU | Type of optimisation
========================================================================
    Equal          |    8086     | (1) Loop unrolling
------------------------------------------------------------------------
  CPU > RAM        |  Pentium    | (2) None
```
1. Vermeiden Sie die bedingte Verzweigung erforderlich ist, um eine Schleife, obwohl die Daten eine leichte Verbesserung der performance.
2. Sobald die CPU startet schneller als der RAM, spielt es keine Rolle, wie effizient die Schleife wird (es sei denn, es ist eine wirklich schlechte-Schleife), wird der Strömungsabriss durch zu warten, bis die Daten in Verbindung gebracht werden, aus dem RAM. SIMD nicht wirklich helfen, da der Vorteil des parallel-Tests wird noch überwogen durch zu warten, bis mehr Daten zu kommen. SIMD wirklich kommt in seine eigene, wenn Sie CPU-limitiert.
- Die Daten (schani.wordpress.com/2010/04/30/linear-vs-binary-search) ist nicht einverstanden mit deiner Theorie von der Realität.
- Ihre Methode scheint zu beseitigen RAM-overhead durch das werfen Sie Weg, die zwei langsamsten Zeiten, so dass Sie effektiv die Messung der Algorithmus, nicht das ganze system. Nach ein paar läuft, das array geladen werden, die in L1 und L2 cache und einigermaßen schnell zugreifen. Es wäre interessant zu sehen, wie die beiden langsamsten Zeiten enthalten, in den timings - wenn Sie garantieren könnten, dass die Daten im RAM und nicht jeder cache dann würde der Algorithmus weniger Effekt auf die timings.
- Ich bin nicht wegwerfen die zwei langsamsten individuellen such mal - ich kann nicht mal die Suche, das dauert nur eine Handvoll Zyklen. Ich tun, sagen, die gleichen 20 Millionen random sucht, 10 mal mehr, und wegwerfen, die Zeiten für die zwei langsamsten und die zwei schnellsten von 10 läuft. Ich Durchschnitt die 6, die bleiben, und teilen Sie die Durchschnittliche Zeit von 20 Millionen zu Holen Sie sich die Durchschnittliche Zeit, die für eine individuelle Suche. Wenn Sie wissen, wie zuverlässig die Zeit eine solche Suche aus dem RAM, also mit "leeren" L2-und L3-caches, bitte lassen Sie mich wissen.
- Auf einem quad-core i7 Prozessor, ein single-core kann fast sättigen DRAM-Bandbreite. Auf einem typischen Haswell oder Skylake, das ist so etwas wie 8 bytes pro core-Takt an, so ja, Sie brauchen SIMD zu halten, auch mit DRAM -, geschweige denn L3-cache. In einem Programm, wo über die Optimierung dieser Suche lohnt sich, es läuft wahrscheinlich genug, um zu bleiben warm in mindestens L3, wahrscheinlich L2. Breitere SIMD bedeutet, dass mehr Arbeit in weniger uops, so dass es hilft, mehr cache-misses im Flug (die gleichen out-of-order-Fenster können Sie "sehen" mehr bytes vor, um die trigger-Seite Spaziergänge und cache-misses, früher; HW prefetch-Daten in der Regel nicht mehr an 4k-Grenzen.)
- Ich glaube, die Leute haben falsch verstanden meine Antwort. Für eine lineare Suche ist der Algorithmus beschränkt durch die Geschwindigkeit und Daten können abgerufen werden aus dem RAM (oder Datenträger-für die wirklich großen arrays), wenn Sie erreichen peak data transfer rate dann die Verbesserung der Algorithmus, der wird kaum einen Unterschied auf die Allgemeine Geschwindigkeit. Ja, die änderung des Algorithmus könnte es schneller durch eine Verringerung der Menge an Daten, die bewegt durch das system, aber die Frage haben Sie gesagt "nur lineare Suche".
InformationsquelleAutor Skizz
-5

Gut, könnte man Zeiger verwenden...
```
static int linear(const int *array, int arraySize, int key) {
    int i;

    for(i = 0; i < arraySize; ++i) {
        if(*array >= key) {
            return i;
        }

        ++array;
    }

    return arraySize;
}
```
- Warum ist es schneller?
- In der Theorie Inkrementieren eines Zeigers dann testen, das sollte schneller sein als: Inkrementieren eines Zählers, dann hinzufügen, dass zu einer Adresse, dann testen Sie, dass. In der Praxis bezweifle ich, dass Ihr anders. Stilistisch bevorzuge ich die Antwort, das hier vorgestellt wird, denn es nimmt das Rätselraten (und ich persönlich denke, es fließt besser.)
- Ja, aber der compiler wird wahrscheinlich optimieren Sie, dass etwas sowieso. Sie könnten auch versuchen, loop unrolling.
- Betrachten Sie die Ausgabe von Ihrem compiler auf, dass man, es ist wahrscheinlich die gleiche wie die OP ' s code. (gcc macht das schon-Optimierung seit <2.95, die ist, wo ich bemerkt es zuerst.) Die "counter" - variable wird initialisiert, n und jedes mal durch die Schleife wird der Zähler dekrementiert, während sich der Mauszeiger wird erweitert durch 4 (oder was auch immer sizeof(int) zurückgibt).
- Ich glaube nicht, dass das hilft überhaupt. Es bedeutet nur, du bist der Inkrementierung eine extra-variable mit jeder Schleife. Es sei denn, dereferenzieren eines pointer schneller ist als array[i]...
- Ja, diese Art von microoptimization ich habe eine harte Zeit zu tun, mit einem sauberen gewissen.
- Nur etwa jeder compiler bietet code-Optimierungen verringern den counter + array-index, Zeiger-Arithmetik in den generierten code.
- Haben Sie Lesen die details von dem, was ich schrieb? Es gibt keine "extra" - variable wird inkrementiert, die Inkrementierung von n wurde ersetzt durch Inkrementieren eines Zeigers, und die Indizierung der Mathematik verschwindet. @dthrope: in der Tat, damit, warum ich sagte: "In der Praxis..."
- Letztes mal habe ich getestet auf X86, array[i] war schneller als *array, weil Sie nur zu tun, einen Schritt anstelle von zwei.
- Dadurch wird Ihr code langsamer, im schlimmsten Fall, denn du machst ein zusätzliches Inkrement pro iteration. Wenn der compiler ist klug, Sie geben die gleiche Leistung wie der original-code.
- -1 Oh, die Freuden der Haarspalterei.
- Der code hat sich geändert, seit ich meinen Kommentar, so ist es nicht mehr anwendbar.
- Der code wurde nicht verändert. Keine edit-history, und dein Kommentar war 6 Minuten nachdem die Antwort geschrieben wurde (also keine freie Bearbeitungen.)
- Es sei denn, es nahm mich eine Weile, um tatsächlich schreiben Sie den Kommentar nehme ich an...? Sowieso, andere Leute gesagt haben, ähnliche Dinge. Ich Las die post, und mein Kommentar IST immer noch zutreffend. Aber ich Stimme mit Romain... Zu viel Wortklauberei hier. =P
- Gut ich habe auch mein persönliches Zeugnis, dass der code hat sich nicht geändert, aber ich bevorzuge die Beweise gestützten Behauptungen. So oder so, diese Antwort ist fair, aber offensichtlich nicht das, was OP sucht. (Was so eine schlecht formulierte Frage, stager gibt eine faire Antwort.)
- Vereinbart. Und unabhängig davon, ob es verändert oder nicht, die änderung, die ich bezeugen war einfach ein verschieben von "++array" aus der for-Schleife (), um das Ende der Schleife, die keine Funktion Unterschied. =P
- Wenn Sie helfen wollen, der compiler optimieren entfernt eine separate integer in der Schleife, entfernen Sie die i variable. Verwenden return p - array zur Berechnung der Länge von einem Zeiger Subtraktion, wenn Sie wollen, um tatsächlich mit der hand halten der compiler, in eine engere innere Schleife. Es sei denn, Sie zeigen compiler output zeigt, dass dies ein schöner innere Schleife, obwohl, haben Sie noch eine i++ sowie array++.
InformationsquelleAutor strager

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.