MATLAB: rechnen Mittelwerten der einzelnen 1-Minuten-Intervall von einer Zeit-Serie

Habe ich ein paar mal-Serie jeweils durch zwei Komponenten beschrieben, ein timestamp-Vektor (in Sekunden), und ein Vektor, der die Werte gemessen. Die Zeit, die Vektor ist nicht einheitlich (D. H. Stichprobe in unregelmäßigen Abständen)

Ich versuche, berechnen Sie den Mittelwert/SD jedes 1-Minuten-Intervall der Werte (X-Minuten-Intervall berechnen Sie den Mittelwert, den nächsten Intervall, ...).

Meine aktuelle Implementierung verwendet Schleifen. Dies ist ein Beispiel von, was ich habe, so weit:

t = (100:999)' + rand(900,1);       %' non-uniform time
x = 5*rand(900,1) + 10;             % x(i) is the value at time t(i)

interval = 1;         % 1-min interval
tt = ( floor(t(1)):interval*60:ceil(t(end)) )';  %' stopping points of each interval
N = length(tt)-1;

mu = zeros(N,1);
sd = zeros(N,1);

for i=1:N
    indices = ( tt(i) <= t & t < tt(i+1) ); % find t between tt(i) and tt(i+1)
    mu(i) = mean( x(indices) );
    sd(i) = std( x(indices) );
end

Frage ich mich, ob es ein schneller Vektorgrafik-Lösung. Dies ist wichtig, da ich eine große Anzahl von Zeit-Serie zu jedem Prozess sehr viel länger als die oben angezeigte Beispiel..

Jede Hilfe ist willkommen.

Danke an Euch alle für das feedback.

Korrigierte ich den Weg t generiert werden stets streng monoton Steigend (sortiert), war dies nicht wirklich ein Problem..

Auch, ich habe nicht angegeben das klar, aber meine Absicht war es, eine Lösung für ein Intervall der Länge in Minuten (1-min war nur ein Beispiel)

InformationsquelleAutor merv | 2010-02-24

10

Die einzige logische Lösung zu sein scheint...

Ok. Ich finde es komisch, dass für mich gibt es nur eine logische Lösung, aber viele andere finden andere Lösungen. Egal, die Lösung scheint einfach. Gegeben die Vektoren x und t, und einer Reihe von mit gleichem Abstand break Punkte tt,
```
t = sort((100:999)' + 3*rand(900,1));     % non-uniform time
x = 5*rand(900,1) + 10;             % x(i) is the value at time t(i)

tt = ( floor(t(1)):1*60:ceil(t(end)) )';
```
(Beachten Sie, dass ich sortiert t oben).

Ich würde dies in drei vollständig vektorisiert Zeilen code. Erstens, wenn die Pausen wurden willkürlich und potentiell ungleiche Abstände, würde ich histc um zu ermitteln, welche Intervalle die Daten der Reihe fällt. Gegeben, Sie sind einheitlich, gerade dies zu tun:
```
int = 1 + floor((t - t(1))/60);
```
Wieder, wenn die Elemente von t nicht bekannt waren, werden sortiert, würde ich verwendet haben, min(t) anstelle von t(1). Wenn dies erledigt ist, verwenden Sie accumarray zu verringern, die Ergebnisse in einen Mittelwert und die Standardabweichung.
```
mu = accumarray(int,x,[],@mean);
sd = accumarray(int,x,[],@std);
```
+1: aus irgendeinem Grund habe ich völlig übersehen ACCUMARRAY.
vielen Dank, das ist prägnant und leicht zu Lesen
Ich wusste gar nicht, über accumarray. Vielen Dank für den Nachweis, wie nützlich es sein kann!

InformationsquelleAutor
4

Könnten Sie versuchen, und erstellen Sie ein cell-array und gelten Mittelwert und std über cellfun. Es ist ~10% langsamer als Ihre Lösung für die 900 Einträge, aber ~10x schneller für 90000 Einträge.
```
[t,sortIdx]=sort(t); %# we only need to sort in case t is not monotonously increasing
x = x(sortIdx);

tIdx = floor(t/60); %# convert seconds to minutes - can also convert to 5 mins by dividing by 300
tIdx = tIdx - min(tIdx) + 1; %# tIdx now is a vector of indices - i.e. it starts at 1, and should go like your iteration variable.

%# the next few commands are to count how many 1's 2's 3's etc are in tIdx
dt = [tIdx(2:end)-tIdx(1:end-1);1]; 
stepIdx = [0;find(dt>0)];
nIdx = stepIdx(2:end) - stepIdx(1:end-1); %# number of times each index appears

%# convert to cell array
xCell = mat2cell(x,nIdx,1);

%# use cellfun to calculate the mean and sd
mu(tIdx(stepIdx+1)) = cellfun(@mean,xCell); %# the indexing is like that since there may be missing steps
sd(tIdx(stepIdx+1)) = cellfun(@mean,xCell);
```
Anmerkung: meine Lösung nicht geben, die genauen gleichen Ergebnisse, als der ihrige, da Sie direkt ein paar mal die Werte am Ende (1:60:90 ist [1,61]), und seit Beginn des Intervalls ist nicht genau das gleiche.

Danke! Ich habe ein paar Punkte: [1] du hast Recht, wie ich die erzeugten t es vielleicht nicht immer streng monoton Steigend, das war nicht beabsichtigt! [2] obwohl ich bin immer noch entschlüsseln den code, ich brauche wirklich die Intervall-Länge auf ein eingestellt (5-min ist das, was Im jetzt, aber das sollte leicht veränderbar)...
[3] die Wahrheit ist, nach der Sie berechnet stepIdx habe ich ein wenig verloren 🙂 erklären könnte, was nIdx darstellt? Bekomme ich den Teil, wo Sie berechnen die minute-Teil für jede Buchung, dann nehmen Sie die Unterschiede zu finden, wo es Veränderungen, die den nächsten 1-min-Intervall, aber ich konnte nicht Folgen Sie nach, dass..
nIdx ist die Anzahl, wie oft jeder index wird angezeigt. Ich brauche diese nutzen zu können mat2cell, der vertreibt die ersten n Werte in die erste Zelle, die zweite-n-Werte in der zweiten Zelle, usw., also die Gruppierung der Indizes, gehören zu jedem Zeitintervall. Ich hoffe, dass die zusätzlichen Kommentare, die helfen, machen es klarer. Sorry für das schreiben von hart-zu-Lesen-code. Sollte ich (gewesen) arbeiten etwas anders, so dass ich dies beantwortet in Eile 🙂
danke, ich Schätze die Hilfe,.. Was ist, wenn ich wollte einen anderen Intervall-Länge (und nicht nur 1 minute)? die aufeinander folgenden Differenzen trick wird nicht funktionieren, keine Ahnung, wie dies zu ändern ist für alle X-Minuten?
Siehe die Kommentare in der Funktion. Erstellen Sie einfach tIdx durch Division von N Sekunden, wobei N die Anzahl der Sekunden in der Zeitspanne.

InformationsquelleAutor Jonas
3

Hier ist ein Weg, der verwendet binäre Suche. Es ist 6-10x schneller für 9900 Elemente und über 64x-mal schneller für 99900 Elemente. Es war schwer zu bekommen verlässliche Zeiten mit nur 900 Elemente, also bin ich nicht sicher, was schneller ist bei dieser Größe. Es werden fast keine zusätzlichen Speicher, wenn Sie in Erwägung ziehen, tx direkt aus der generierten Daten. Außer, dass es nur vier zusätzliche float-Variablen (prevind, ersten, mittleren und letzten).
```
% Sort the data so that we can use binary search (takes O(N logN) time complexity).
tx = sortrows([t x]);

prevind = 1;

for i=1:N
    % First do a binary search to find the end of this section
    first = prevind;
    last = length(tx);
    while first ~= last
        mid = floor((first+last)/2);
        if tt(i+1) > tx(mid,1)
            first = mid+1;
        else
            last = mid;
        end;
    end;
    mu(i) = mean( tx(prevind:last-1,2) );
    sd(i) = std( tx(prevind:last-1,2) );
    prevind = last;
end;
```
Es verwendet alle Variablen, die Sie ursprünglich hatten. Ich hoffe, dass es Ihren Bedürfnissen entspricht. Es ist schneller, da dauert es O(log N) zu finden, die Indizes mit binäre Suche, aber O(N) zu finden, der Ihnen den Weg, dass Sie es Taten.

Dürfte dies noch schneller, wenn Sie preassign mu-und sd-erste statt zu wachsen Sie in der Schleife.
Ich dachte, das wäre implizit, da es in der asker-code. Dies ist nur zu ersetzen Sie die letzten 5 Zeilen der Fragesteller den code. Ich dachte, dass die letzten 5 Zeilen wurden die langsamen.
Ist eine binäre Suche (mit Schlaufen) schneller als die Vektorgrafik-Vektor-Vergleich angefangen habe ich mit?
Ja, die Vergleiche von timings, die ich habe waren im Vergleich zu der version, die du gepostet hast in deine Frage. Vektorisieren bringt dich nur so weit, es macht es schneller zu tun, die gleiche operation auf jedes element als Schleife, aber es ist immer noch die operation auf jedes element. Das bedeutet, dass Ihre Methode keine 14*900 = 12600-Vergleiche (für 900-Elemente) zu finden, die Indizes nehmen den Mittelwert und std, während diese binary-search-Methode nicht weniger als 14*log_2(900) Vergleiche = 140 Vergleiche, Sie zu finden. Die Ungleichheit nur noch schlimmer mit Zunehmender array-Größe und Zunehmender Anzahl an Intervallen.

InformationsquelleAutor Justin Peel
2

Können Sie berechnen indices alle auf einmal mit bsxfun:
```
indices = ( bsxfun(@ge, t, tt(1:end-1)') & bsxfun(@lt, t, tt(2:end)') );
```
Dies ist schneller als die Schleife, aber erfordert, speichern Sie Sie alle auf einmal (Zeit vs Raum Kompromiss)..

Ich mag diese ein. Das problem ist nur, dass ich nicht verwenden können die Indizes direkt ohne for-Schleife: tut x(indices) hat nicht funktioniert, statt dessen habe ich: for i=1:N, x(indices(:,i)), end

InformationsquelleAutor Amro

Disclaimer: ich arbeitete in diesem aus auf dem Papier, aber noch nicht die Gelegenheit hatte, es zu überprüfen, "in silico"...

Können Sie in der Lage sein, um zu vermeiden, Schleifen oder Verwendung von cell-arrays, indem Sie einige knifflige kumulative Summen, die Indexierung und Berechnung der Mittelwerte und Standardabweichungen selbst. Hier ist etwas code, der glaube ich, die Arbeit, obwohl ich unsicher bin, wie es stapelt sich Geschwindigkeit her zu den anderen Lösungen:

[t,sortIndex] = sort(t);  %# Sort the time points
x = x(sortIndex);         %# Sort the data values
interval = 60;            %# Interval size, in seconds

intervalIndex = floor((t-t(1))./interval)+1;  %# Collect t into intervals
nIntervals = max(intervalIndex);              %# The number of intervals
mu = zeros(nIntervals,1);                     %# Preallocate mu
sd = zeros(nIntervals,1);                     %# Preallocate sd

sumIndex = [find(diff(intervalIndex)) ...
            numel(intervalIndex)];  %# Find indices of the interval ends
n = diff([0 sumIndex]);             %# Number of samples per interval
xSum = cumsum(x);                   %# Cumulative sum of x
xSum = diff([0 xSum(sumIndex)]);    %# Sum per interval
xxSum = cumsum(x.^2);               %# Cumulative sum of x^2
xxSum = diff([0 xxSum(sumIndex)]);  %# Squared sum per interval

intervalIndex = intervalIndex(sumIndex);  %# Find index into mu and sd
mu(intervalIndex) = xSum./n;                             %# Compute mean
sd(intervalIndex) = sqrt((xxSum-xSum.*xSum./n)./(n-1));  %# Compute std dev

Den oben berechnet die Standardabweichung mit die Vereinfachung der Formel, die sich auf dieser Wikipedia-Seite.

Danke für die Antwort, ich denke, es wäre interessant zu vergleichen, das timing gegen die anderen Lösungen.

InformationsquelleAutor gnovice

Die gleiche Antwort wie oben, aber mit dem parametrischen Intervall (window_size).
Problem mit der Vektor-Längen gelöst.

window_size = 60; % but it can be any value 60 5 0.1, which wasn't described above

t = sort((100:999)' + 3*rand(900,1));     % non-uniform time
x = 5*rand(900,1) + 10;                   % x(i) is the value at time t(i)

int = 1 + floor((t - t(1))/window_size);
tt = ( floor(t(1)):window_size:ceil(t(end)) )';



% mean val and std dev of the accelerations at speed
mu = accumarray(int,x,[],@mean);
sd = accumarray(int,x,[],@std);

%resolving some issue with sizes (for i.e. window_size = 1 in stead of 60)
while ( sum(size(tt) > size(mu)) > 0 ) 
  tt(end)=[]; 
end

errorbar(tt,mu,sd);

InformationsquelleAutor msysmilu

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.