Countdown in for-Schleifen

Ich glaube, (aus einige der Forschung zu Lesen), das zählen in for-Schleifen ist tatsächlich effizienter und schneller in der Laufzeit. Mein vollständiger software-code ist C++

Im Moment habe ich dieses:

for (i=0; i<domain; ++i) {

mein 'ich' ist unsigned resgister int,
auch 'Domäne' ist unsigned int

in der for-Schleife, die ich verwendet, für den Gang durch ein array, z.B.

array[i] = do stuff

die Umrechnung der count-down vermasselt die erwartete/richtige Ausgabe meiner routine.

Kann ich mir vorstellen, die Antwort wird ganz trivial, aber ich kann nicht meinen Kopf um ihn herum.

UPDATE: 'Dinge zu tun', hängt nicht von vorherigen oder späteren iteration. Die Berechnungen in der for-Schleife sind unabhängig, die für die iteration von i ist. (Ich hoffe das macht Sinn).

UPDATE: Um runtime-speedup mit meiner for-Schleife, muss ich runter zählen, und wenn ja, entfernen Sie die nicht signierten Teil, wenn delcaring meine int, oder welche andere Methode?

Bitte helfen.

Wo ist die Frage?
Es ist nicht klar, was die Frage ist. Sie sind eher eine hilfreiche Antwort bekommt, wenn Sie Bearbeiten Ihre Frage klar zu stellen was genau Sie zu Fragen.
Vielleicht sollten Sie post von der for-Schleife, die Sie verwenden, die nach unten zählt auch. Und ohne Kenntnis der 'Sachen tun," wir sind gezwungen anzunehmen, dass die 'Dinge zu tun' für 'ich' nicht abhängig 'was' für 'i' -1', in welchem Fall zählen eindeutig nicht arbeiten kann.
Wie funktioniert eine Aussage wie deine machen keinen Sinn immer-ohne Berücksichtigung, welchen compiler du redest? Es könnte auch noch abhängig von der Architektur, weil, wie die hardware implementiert die zugrunde liegenden Vorgänge. Mein Punkt ist, ich könnte das design einer Architektur oder compiler, der dies bricht... Auch was du selbst tun, das erfordert, dass so ein lächerlich-Optimierung?
ja, ich bin nicht in der Lage zu finden keine klare Frage, die ich könnte Sinn machen. Es scheinen zwei "versteckte" Fragen unsigned wrap-around-und ist-looping-down-schneller, aber beide sind nicht ganz klar gefragt wie es scheint. Bitte geben Sie Ihren eigentlichen Frage

InformationsquelleAutor ohit | 2009-04-29

c++for-loop

27

Ich vermute, Ihre rückwärts for-Schleife sieht wie folgt aus:
```
for (i = domain - 1; i >= 0; --i) {
```
In diesem Fall, weil i ist unsigned, es wird immer größer als oder gleich null ist. Wenn Sie Dekrement einer unsigned variable ist gleich null, es wird wrap-around zu einer sehr großen Zahl. Die Lösung ist, entweder zu i unterzeichnet, oder ändern Sie die Bedingung in der for-Schleife wie diese:
```
for (i = domain - 1; i >= 0 && i < domain; --i) {
```
Oder Zählung von domain zu 1 anstatt von domain - 1 zu 0:
```
for (i = domain; i >= 1; --i) {
    array[i - 1] = ...; //notice you have to subtract 1 from i inside the loop now
}
```
- +1 für den Fang der überlauf. Es wäre klug, hinzuzufügen, dass diese Art der (vorzeitigen) Mikro-Optimierung ist die "Wurzel allen übels" - Donald Knuth
- Ihre erste option, wird es wahrscheinlich langsamer als das original (zählen bis) code aufgrund der zusätzlichen bedingte & logischen op. Aber eine gute Antwort, dennoch, alle Dinge betrachtet! 🙂
- Wenn Jeremy nutzt die unsigned-Wert, er hat ein redundanter Zustand, tut er nicht? Sie müssen nur check ich < domain, NICHT ich >= 0. Wie gesagt, mir ist immer >= 0. Die Prüfung für i < Domäne wird scheitern, wenn es einmal umschlingt. Richtig?
- Das ist richtig, aber im echten code ich würde prüfen, ob beide Bedingungen nur im Falle der counter-variable wurde geändert, um eine vorzeichenbehaftete variable, die brechen würde die Schleife, wenn es nur überprüft die Bedingung. Deshalb beließ ich es bei... ich dachte nicht über micro-Optimierung.
- warum i >= 1 und nicht i>0?
InformationsquelleAutor Jeremy Ruten
29

Gibt es nur eine richtige Methode der looping rückwärts über eine vorzeichenlose Zähler:
```
for( i = n; i-- > 0; )
{
    //Use i as normal here
}
```
Gibt es einen trick hier, für den letzten loop iteration haben Sie i = 1 an den Anfang der Schleife, ich-- > 0 geht, denn 1 > 0, dann i = 0 in der Schleife. Für die nächste iteration i-- > 0 schlägt fehl, da i == 0, so spielt es keine Rolle, dass die postfix-Dekrement rollte über den Ladentisch.

Nicht sehr offensichtlich, ich weiß.
- Wusste nicht, diese. Schön!
- Aber Vorsicht: das temp-Kopie benötigt, für die ich-- Zwerge jede Leistung kann gewonnen werden aus der Schleife nach unten. I. e. verwenden Sie nicht dieses als ein performance-Optimierung, verwenden Sie es, wenn Sie wirklich brauchen, um count unsigned 0 algorithmisch.
- Eigentlich Stimme ich mit MadKeithV Kommentar. Die Realität ist, dass alle dekrementiert (und Erhöhungen) sind auch OPTIMIERT für standard-arithmetische Typen. Den code von Don wird vert effizient. Ich denke, dass moderne Programmierer nicht verstehen, die compiler/assembler Fragen viel und sind führte zu der Annahme, dass alle post-Dekrement sind ineffizient.
- Don-Schleife erzeugt den kürzest möglichen code: mov esi,n; L1: dec esi; <<der Körper der Schleife>>; - test esi,esi; jne L1;
- Compiler sollten mit den flag von dec esi, die sehe ich nicht oben in Michael s Kommentar.
- Beachten Sie, dass die erste i ist n-1.
InformationsquelleAutor Don Neufeld
12

Dies ist keine Antwort auf Ihr problem, weil Sie nicht scheinen ein problem zu haben.

Diese Art der Optimierung ist völlig irrelevant und sollte gelassen werden, um den compiler (wenn machbar).

Haben Sie profiliert Ihr Programm, um zu überprüfen, dass deine for-Schleife ist ein Engpass? Wenn nicht, dann brauchen Sie nicht, Zeit zu verbringen, sich Gedanken über diese. Noch mehr so, dass "ich" als ein "register" int", wie Sie schreiben, macht keinen wirklichen Sinn vom performance-Standpunkt aus.

Sich auch ohne Kenntnis der problemdomäne, ich kann Ihnen garantieren, dass sowohl die rückwärts-looping-Verfahren und das "register" int counter haben vernachlässigbar Auswirkungen auf Ihre Programm-performance. Denken Sie daran, "Vorzeitige Optimierung ist die Wurzel allen übels".

Sagte, besser für die Optimierung wäre die Zeit auf das denken über die Allgemeine Programmstruktur, die Datenstrukturen und algorithmen verwendet, die Auslastung von Ressourcen, etc.
- Danke. Warum ist 'registrieren' int keinen Sinn machen?
- Ich glaube, die meisten modernen Compiler ignorieren Sie die "registrieren" - Hinweis sowieso.
- Wenn der compiler vollkommen respektiert "registrieren" - Hinweis ist, es würde wahrscheinlich Ergebnis in einem perf Abbau. Auf x86 gibt es nur eine Handvoll Register. Durch die Forderung eines Registers verwendet werden, für den loop-Zähler, Sie senken die Anzahl der Register, die der compiler ruft, verwenden Sie, wenn Sie den code zu kompilieren.
- Es gibt mehrere Probleme. Zuerst von allen, es ist nur ein Vorschlag an den compiler, eine, die ignoriert werden können. Im Allgemeinen sollten wir nicht machen Annahmen über die Maschine und das register verwenden, weil wir nicht die volle Kontrolle über die Architekturen, unter denen unsere Programme ausführen und mehr cpus haben komplexe Ausführung von Pfaden und algorithmen der Optimierung der bereits vorhanden ist. Der andere Grund ist, dass der Einfluss dieser wird vernachlässigbar sein (vielleicht Hunderte von den tausenden Zeiten in den Schatten gestellt), die von anderen Engpässen in einem Programm wie beispielsweise die Zuweisung von Speicher, IO, Synchronisation, schlechte Wahl von algorithmen, etc.
InformationsquelleAutor Hejazzman
10

Überprüfen, um zu sehen, ob eine Zahl null ist, kann schneller und effizienter als ein Vergleich. Aber dies ist die Art von Mikro-Optimierung, die Sie wirklich sollten sich keine sorgen machen - ein paar Taktzyklen wird stark in den Schatten gestellt, die von fast jedem anderen perf Problem.

Auf x86:
```
dec eax
jnz Foo
```
Statt:
```
inc eax
cmp eax, 15
jl Foo
```
- Die andere Tatsache, die möglicherweise safe-Zyklen, wenn rückwärts gezählt wird, ist, dass, wenn die Zählung nach oben um einen nicht-Konstanten Wert, den Sie haben, dieser Wert in einem register (oder ständig neu laden), während die rückwärts zählt, vergleichen kann man gegen die Konstante 0.
InformationsquelleAutor Michael
3

Wenn Sie haben eine anständige compiler optimieren "zählen auf", nur so effektiv wie "Countdown". Versuchen Sie einfach ein paar benchmarks und du wirst sehen.
- Eine Menge Zeiten, die der compiler kann nicht machen diese Optimierung, wenn es nicht feststellen kann, daß die Zählung nach unten wird sich nicht ändern, das beobachtbare Verhalten Ihres Codes.
- Ah, das ist interessant
- Ja, aber diese Optimierung ist 100% nicht notwendig für 99.99999% der Programme. Und zu sehen, dass der Kerl zu Fragen, ist nicht erfahren genug, um zu konvertieren eine einfache for-Schleife, um seine Rückseite, Es wäre eine grobe Untertreibung zu sagen, dass die loop-Optimierung sollte sein, die weniger von seinen sorgen.
- Stimmt, ich war nicht versucht, zu unterstellen, sollten Sie voran gehen und es tun, da der compiler nicht.
InformationsquelleAutor Alex Martelli
3

Damit Sie "gelesen", dass couting unten ist effizienter? Ich finde das sehr schwer zu glauben, es sei denn, Sie zeigen mir einige profiler-Ergebnisse und den code. Ich es kaufen kann, unter gewissen Umständen, aber im Allgemeinen Fall nicht. Scheint mir wie ein klassischer Fall von vorzeitiger Optimierung.

Ihren Kommentar zu "register int i" ist auch sehr aufschlussreich. Heute, der compiler weiß immer besser als Sie, wie zu reservieren registriert. Kümmern Sie sich nicht mit mit der register-Schlüsselwort, es sei denn, Sie haben profiliert Ihr code.

InformationsquelleAutor Brian Neal
3

Wenn Sie die Schleife durch die Daten-Strukturen jeglicher Art, cache-misses haben eine weit größere Auswirkung als die Richtung, die du gehst. Beschäftigen Sie sich mit dem größeren Bild, das Speicher-layout und Algorithmus-Struktur statt Platter micro-Optimierungen.
- Naja, im Vergleich zu Algorithmus-Struktur-Speicher-layout ist auch eine Mikro-Optimierung, ist es nicht?
- Nein--Speicher-layout Sie können einen großen (1000x oder mehr) Wirkung, da die Speicher-Hierarchie hat eine so große Unterschiede in der Zugriffsgeschwindigkeit. Alle der fast lineare-algebra-Bibliotheken (LAPACK, etc.) verwenden Sie den Baustein Strukturierung aus diesem Grund.
- ist richtig, @foljs. den cache findet-vor allem mit den neuesten intel-chips-sind unglaublich teuer. mein Verständnis ist, dass es leicht zu brennen Sie bis zu 30% Ihrer potentiellen CPU durchgehend mit schlechten Speicher-layout.
InformationsquelleAutor Andrew
3

Es hat nichts zu tun mit dem zählen bis oder unten. Was kann man schneller zählen gegen null. Michael ' s Antwort zeigt, warum — x86 bietet Ihnen einen Vergleich mit null als eine implizite Nebeneffekt viele Anweisungen, so, nachdem Sie passen Sie Ihre Konter, die Sie gerade Zweig basierend auf dem Ergebnis zu tun, anstatt einen expliziten Vergleich. (Vielleicht sind andere Architekturen auch machen; ich weiß es nicht.)

Borland-Pascal-Compiler sind berüchtigt dafür, dass die Durchführung der Optimierung. Der compiler wandelt diesen code:
```
for i := x to y do
  foo(i);
```
in eine interne Repräsentation eher an diese:
```
tmp := Succ(y - x);
i := x;
while tmp > 0 do begin
  foo(i);
  Inc(i);
  Dec(tmp);
end;
```
(Sage ich, berüchtigt nicht, weil die Optimierung wirkt sich auf das Ergebnis der Schleife, aber da der debugger zeigt die counter-variable falsch. Wenn der Programmierer prüft i, kann der debugger den Wert anzuzeigen, der tmp statt, verursacht kein Ende der Verwirrung und Panik für die Programmierer, die denken, dass Ihre loops laufen rückwärts.)

Die Idee ist, dass selbst mit dem extra - Inc oder Dec Unterricht, es ist immer noch ein Netto-Gewinn, in Bezug auf die Ausführung der Zeit, über das tun ein expliziter Vergleich. , Ob Sie tatsächlich bemerken, die Differenz steht zur Debatte.

Aber beachten Sie, dass die Umwandlung ist etwas, was der compiler tun würde automatisch, basierend auf, ob Sie es als die transformation lohnt. Ist der compiler in der Regel besser auf das optimieren von code, als Sie sind, so don ' T verbringen zu viel Aufwand konkurrieren mit ihm.

Du sowieso gebeten, über C++, Pascal. C++ "for" - Schleifen sind nicht ganz so leicht anzuwenden, dass die Optimierung als Pascal "for" - Schleifen sind da die Grenzen von Pascal-Schleifen werden immer vollständig berechnet, bevor die Schleife ausgeführt wird, in der Erwägung, dass C++ - Schleifen manchmal hängt die Stopp-Bedingung und die Schleife Inhalt. C++ - Compiler tun müssen, eine gewisse Menge der statischen Analyse, um zu bestimmen, ob ein bestimmtes Schleife passen könnte, die die Anforderungen für die Art der transformation Pascal-Schleifen qualifizieren sich für bedingungslos. Wenn der C++ compiler ist die Analyse, dann könnte es nicht eine ähnliche transformation.

Gibt es nichts hindert Sie schreiben Ihre loops, die Weg auf Ihre eigenen:
```
for (unsigned i = 0, tmp = domain; tmp > 0; ++i, --tmp)
  array[i] = do stuff
```
Tun, dass könnte machen Sie Ihren code schneller laufen. Wie ich schon sagte, bevor, obwohl, werden Sie wahrscheinlich nicht bemerken. Die größeren Kosten, die Sie bezahlen, indem Sie manuell anordnen Schleifen wie, dass ist, dass Ihr code nicht mehr folgt etablierten Idiome. Deine Schleife ist eine stinknormale "for" - Schleife, aber es nicht mehr sieht wie — es hat zwei Variablen, Sie laufen in entgegengesetzte Richtungen, und einer von Ihnen ist nicht einmal in der Schleife Körper — also wer Lesen Ihren code (auch Sie, eine Woche, einen Monat oder ein Jahr ab jetzt, wenn Sie vergessen haben, die "Optimierung", die Sie hofften, zu erreichen) verbringen müssen zusätzlichen Aufwand erweist sich, dass die Schleife ist in der Tat eine ordentliche Schleife im Unglück.

(Haben Sie bemerkt, dass mein code oben verwendet unsigned Variablen ohne Gefahr der Umwicklung bei null? Mit zwei getrennten Variablen erlaubt.)

Drei Dinge zum mitnehmen aus all dem:
1. Lass den optimizer seinen job tun; es ist besser als Sie sind.
2. Machen ordentlichen code Aussehen gewöhnlichen, so dass der spezielle code, der nicht im Wettbewerb um Aufmerksamkeit zu bekommen von Leuten, überprüfung, debugging, oder Sie beibehalten.
3. Nicht etwas Phantasie in den Namen der Leistung, bis die Tests und profiling zeigen, dass es notwendig ist.
InformationsquelleAutor Rob Kennedy

Können Sie versuchen, die folgende, der compiler optimieren wird, sehr effizient:

#define for_range(_type, _param, _A1, _B1) \
    for (_type _param = _A1, _finish = _B1,\
    _step = static_cast<_type>(2*(((int)_finish)>(int)_param)-1),\
    _stop = static_cast<_type>(((int)_finish)+(int)_step); _param != _stop; \
_param = static_cast<_type>(((int)_param)+(int)_step))

Nun können Sie es verwenden:

for_range (unsigned, i, 10,0)
{
    cout << "backwards i: " << i << endl;
}

for_range (char, c, 'z','a')
{
    cout << c << endl;
}

enum Count { zero, one, two, three }; 

for_range (Count, c, three, zero)
{
    cout << "backwards: " << c << endl;
}

Können Sie Durchlaufen in jede Richtung:

for_range (Count, c, zero, three)
{
    cout << "forward: " << c << endl;
}

Loop

for_range (unsigned,i,b,a)
{
   //body of the loop
}

ergibt folgenden code:

 mov esi,b
L1:
;    body of the loop
   dec esi
   cmp esi,a-1
   jne L1

Wenn "vorzeitige Optimierung ist die Wurzel allen übels", dann die Kombination der vorzeitigen Optimierung + Makros Zauber doom für uns alle. Auch die, die nur take-home-message ist hier, dass Ihr compiler optimiert es sehr gut für Ihr CPU. Das ist nicht unbedingt repräsentativ für jemand anderes, und noch einmal, nicht etwas sorgen machen - oder versuchen, Sie zu entwirren riesige Makros - im Kontext aller anderen, wichtigeren Faktoren.

InformationsquelleAutor Mikhail Semenov

1

Schwer zu sagen, mit Angaben, aber... reverse-array, und der count down?

InformationsquelleAutor patjbs
1

Jeremy Ruten zu Recht darauf hingewiesen, dass die Verwendung eines unsigned Schleifenzähler ist gefährlich. Es ist auch nicht notwendig, so weit ich erzählen kann.

Andere haben auch darauf hingewiesen, auf die Gefahren von vorzeitiger Optimierung. Sie haben absolut Recht.

Mit dieser sagte, hier ist ein Stil, den ich verwendet, wenn die Programmierung von embedded-Systemen vor vielen Jahren, als jedes byte und jeden Zyklus hast, zählen für etwas. Diese Formen wurden für mich nützlich, auf die insbesondere CPUs und Compiler, dass ich war mit, aber Ihre Laufleistung variieren.
```
//Start out pointing to the last elem in array
pointer_to_array_elem_type p = array + (domain - 1);
for (int i = domain - 1; --i >= 0 ; ) {
     *p-- = (... whatever ...)
}
```
Diese form nutzt die Vorteile des Zustand-flag, das gesetzt ist auf einige Prozessoren nach arithmetischen Operationen -- auf manchen Architekturen, die Dekrement-und Prüfung für den Zweig der Bedingung kombiniert werden können in einer einzigen Instruktion. Beachten Sie, dass mit predecrement (--i) ist hier der Schlüssel -- mit post-Dekrement (i--) würde nicht gearbeitet haben.

Alternativ
```
//Start out pointing *beyond* the last elem in array
pointer_to_array_elem_type p = array + domain;
for (pointer_to_array_type p = array + domain; p - domain > 0 ; ) {
     *(--p) = (... whatever ...)
}
```
Diese zweite form nutzt die Vorteile der Zeiger (Adresse) Arithmetik. Ich habe selten sehen die form (pointer - int) diesen Tagen (aus gutem Grund), aber die Sprache, die gewährleistet, dass beim subtrahieren ein int aus einem Zeiger, der Zeiger wird um eins verringert, durch (int * sizeof (*pointer)).

Werde ich auch noch einmal betonen, dass, ob diese Formen sind ein Gewinn für Sie hängt von der CPU und compiler, dass Sie verwenden. Sie dienten mir gut auf Motorola 6809 und 68000-Architekturen.

InformationsquelleAutor Dan Breslau
1

In einigen später arm-cores, Dekrementieren und vergleichen dauert nur einer einzigen Instruktion. Dies macht Dekrementieren Schleifen effizienter als die Inkrementierung lieben.

Ich weiß nicht, warum es nicht eine Inkrement-compare-Anweisung auch.

Ich bin überrascht, dass dieser post gewählt wurde, -1, wenn es eine echte Frage.
- Aber der compiler wird es nutzen, wenn es verfügbar ist. Ich habe gesehen, Compiler erzeugen code, der wurde mit einem Inkrement in C++ tun ein Dekrement in assembler zu nutzen, dass.
- So gibt es keine Notwendigkeit, durch Reifen springen, die in Ihrem C++ - code, indem Sie ein standard-increment for-Schleife, um eine nicht-intuitive loop, wenn Sie ein gutes optimizing compiler.
- Dies bedeutet nur, dass die Anweisungen, die weniger Speicherplatz belegen, aber nicht, der LOOP ist effizienter als eine Sequenz von Anweisungen. Auf einigen Intel-Prozessoren mit dec und Vergleich genauso oder sogar effizienter als die loop-Anweisung, die verwendet die automatische Dekrementieren, überprüfung auf null und Verzweigung.
InformationsquelleAutor piotr
1

Jeder hier konzentriert sich auf die performance aus. Gibt es eigentlich einen logischen Grund für die Iteration gegen null, die entstehen können, in sauberer code.

Iteration über das Letzte element der ersten ist praktisch, wenn Sie löschen, die ungültige Elemente durch vertauschen mit dem Ende des Arrays. Für die schlechte Elemente, die nicht benachbart zu dem Ende können wir tauschen in der end-position, verringern Sie die end-Grenze des Arrays, und halten Durchlaufen. Wenn Sie waren zu Durchlaufen und zum Ende hin dann tauschen mit dem Ende führen könnte swapping schlechte für schlecht. Durch Durchlaufen Ende 0 wir wissen, dass das element am Ende des Arrays schon bewiesen gilt für diese iteration.

Weiteren Erklärung...

Wenn:
1. Löschen Sie schlechte Elemente durch vertauschen mit einem Ende des Arrays und die änderung der array-Grenzen auszuschließen, die schlechten Elemente.
Dann offensichtlich:
1. Würden Sie tauschen mit einem guten element-D. H. eine, die bereits getestet wurden in dieser iteration.
So bedeutet dies:
1. Wenn wir die Iteration entfernt von der Variablen gebunden, die dann zwischen den Elementen variable gebunden und die aktuelle iteration Zeiger nachweislich gut. Ob die iteration Zeiger bekommt ++ oder -- spielt keine Rolle. Was zählt, ist, dass wir die Iteration entfernt von der Variablen gebunden, so wissen wir, dass die Elemente benachbart sind gut.
Also endlich:
1. Der Iteration gegen 0 erlaubt uns, nur eine variable zur Darstellung der array-Grenzen. Ob das wichtig ist, ist eine persönliche Entscheidung zwischen Ihnen und Ihrem compiler.
InformationsquelleAutor Samuel Danielson

Was zählt viel mehr als die Frage, ob Sie erhöhen oder verringern Sie Ihren counter ist, ob oder nicht Sie gehen, bis Speicher oder down memory. Die meisten caches sind optimiert für Speicher, nicht Arbeitsspeicher. Da der Speicher-Zugriffszeit ist der Engpass, dass die meisten Programme heute Gesicht, dies bedeutet, dass das ändern Sie Ihr Programm so, dass man mit dem Speicher kann zu einer Leistungssteigerung, auch wenn dies erfordert Vergleich der Zähler auf einen nicht-null-Wert. In einigen meiner Programme, ich sah eine signifikante Verbesserung in der Leistung, indem Sie meinen code zu gehen, bis Speicher statt es nach unten.

Skeptisch? Hier ist die Ausgabe, die ich bekam:

sum up   = 705046256
sum down = 705046256
Ave. Up Memory   = 4839 mus
Ave. Down Memory =  5552 mus
sum up   = inf
sum down = inf
Ave. Up Memory   = 18638 mus
Ave. Down Memory =  19053 mus

aus ausführen dieses Programms:

#include <chrono>
#include <iostream>
#include <random>
#include <vector>

template<class Iterator, typename T>
void FillWithRandomNumbers(Iterator start, Iterator one_past_end, T a, T b) {
  std::random_device rnd_device;
  std::mt19937 generator(rnd_device());
  std::uniform_int_distribution<T> dist(a, b);
  for (auto it = start; it != one_past_end; it++)
    *it = dist(generator);
  return ;
}

template<class Iterator>
void FillWithRandomNumbers(Iterator start, Iterator one_past_end, double a, double b) {
  std::random_device rnd_device;
  std::mt19937_64 generator(rnd_device());
  std::uniform_real_distribution<double> dist(a, b);
  for (auto it = start; it != one_past_end; it++)
    *it = dist(generator);
  return ;
}

template<class RAI, class T>
inline void sum_abs_up(RAI first, RAI one_past_last, T &total) {
  T sum = 0;
  auto it = first;
  do {
    sum += *it;
    it++;
  } while (it != one_past_last);
  total += sum;
}

template<class RAI, class T>
inline void sum_abs_down(RAI first, RAI one_past_last, T &total) {
  T sum = 0;
  auto it = one_past_last;
  do {
    it--;
    sum += *it;
  } while (it != first);
  total += sum;
}

template<class T> std::chrono::nanoseconds TimeDown(
                      std::vector<T> &vec, const std::vector<T> &vec_original,
                      std::size_t num_repititions, T &running_sum) {
  std::chrono::nanoseconds total{0};
  for (std::size_t i = 0; i < num_repititions; i++) {
    auto start_time = std::chrono::high_resolution_clock::now();
    sum_abs_down(vec.begin(), vec.end(), running_sum);
    total += std::chrono::high_resolution_clock::now() - start_time;
    vec = vec_original;
  }
  return total;
}

template<class T> std::chrono::nanoseconds TimeUp(
                      std::vector<T> &vec, const std::vector<T> &vec_original,
                      std::size_t num_repititions, T &running_sum) {
  std::chrono::nanoseconds total{0};
  for (std::size_t i = 0; i < num_repititions; i++) {
    auto start_time = std::chrono::high_resolution_clock::now();
    sum_abs_up(vec.begin(), vec.end(), running_sum);
    total += std::chrono::high_resolution_clock::now() - start_time;
    vec = vec_original;
  }
  return total;
}

int main() {
  std::size_t num_repititions = 1 << 10;
  {
  typedef int ValueType;
  auto lower = std::numeric_limits<ValueType>::min();
  auto upper = std::numeric_limits<ValueType>::max();
  std::vector<ValueType> vec(1 << 24);

  FillWithRandomNumbers(vec.begin(), vec.end(), lower, upper);
  const auto vec_original = vec;
  ValueType sum_up = 0, sum_down = 0;

  auto time_up = TimeUp(vec, vec_original, num_repititions, sum_up).count();
  auto time_down = TimeDown(vec, vec_original, num_repititions, sum_down).count();
  std::cout << "sum up   = " << sum_up   << '\n';
  std::cout << "sum down = " << sum_down << '\n';
  std::cout << "Ave. Up Memory   = " << time_up/(num_repititions * 1000) << " mus\n";
  std::cout << "Ave. Down Memory =  "<< time_down/(num_repititions * 1000) << " mus"
            << std::endl;
  }
  {
  typedef double ValueType;
  auto lower = std::numeric_limits<ValueType>::min();
  auto upper = std::numeric_limits<ValueType>::max();
  std::vector<ValueType> vec(1 << 24);

  FillWithRandomNumbers(vec.begin(), vec.end(), lower, upper);
  const auto vec_original = vec;
  ValueType sum_up = 0, sum_down = 0;

  auto time_up = TimeUp(vec, vec_original, num_repititions, sum_up).count();
  auto time_down = TimeDown(vec, vec_original, num_repititions, sum_down).count();
  std::cout << "sum up   = " << sum_up   << '\n';
  std::cout << "sum down = " << sum_down << '\n';
  std::cout << "Ave. Up Memory   = " << time_up/(num_repititions * 1000) << " mus\n";
  std::cout << "Ave. Down Memory =  "<< time_down/(num_repititions * 1000) << " mus"
            << std::endl;
  }
  return 0;
}

Beide sum_abs_up und sum_abs_down tun die gleiche Sache und sind zeitgesteuert, Sie gleichen Weg, nur mit dem Unterschied, dass sum_abs_up geht mit dem Speicher, während sum_abs_down geht down memory. Ich selbst pass vec durch Verweis so, dass beide Funktionen greifen auf die gleichen Speicherplätze. Dennoch sum_abs_up ist durchweg schneller als sum_abs_down. Geben Sie einen Lauf selbst (ich kompiliert es mit g++ -O3).

FYI vec_original ist es für Experimente, um es einfach für mich zu ändern sum_abs_up und sum_abs_down in einer Weise, die macht Sie zu verändern vec zwar nicht, dass diese änderungen wirken sich auf zukünftige Zeiten.

Es ist wichtig zu beachten, wie eng die Schleife, dass ich das timing ist. Wenn Sie einen loop, der Körper ist groß, dann ist es vermutlich egal, ob seine iterator geht nach oben oder unten Speicher, da die Zeit, die zum ausführen der schleifenrumpf wird wahrscheinlich komplett zu Dominieren. Es ist auch wichtig zu erwähnen, dass mit einigen seltenen Schleifen, werde sich das Gedächtnis ist manchmal schneller, als sich es. Aber auch mit solchen loops ist es nur selten der Fall, dass going up war immer langsamer als der Abstieg (im Gegensatz zu Schleifen, die gehen bis Speicher, welche sehr Häufig immer schneller als die entsprechende down-memory-loops; eine kleine Handvoll Zeiten waren Sie noch 40+% schneller).

Der Punkt ist, als eine Regel von Daumen, wenn Sie die Möglichkeit haben, wenn der schleifenrumpf ist klein, und wenn es gibt wenig Unterschied zwischen den loop zu gehen mit dem Speicher auf, anstatt nach unten, dann sollten Sie gehen Speicher.

Link nur Antworten (auch zu anderen Fragen) sind als VLQ. Stattdessen sollten Sie nach dem code, wie Sie es getan hatte, so habe ich zurückgesetzt.

InformationsquelleAutor Matthew K.

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.