Wie kann ich berechnen Sie die Varianz einer Liste in python?

Wenn ich eine Liste wie diese:

results=[-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439,
          0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]

Möchte ich die Berechnung der Varianz dieser Liste in Python was ist der Durchschnitt der quadrierten Differenzen vom Mittelwert.

Wie kann ich dies angehen? Der Zugriff auf die Elemente der Liste zu tun, die Berechnungen ist verwirrend für mich immer der quadrierten Differenzen.

Sie tun genau das. Was ist das problem?
der Zugriff auf die Elemente der Liste, um die quadrierten Differenzen

InformationsquelleAutor minks | 2016-02-23

38

Können Sie numpy ' s built-in-Funktion var:
```
import numpy as np

results = [-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439,
          0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]

print(np.var(results))
```
Diese erhalten Sie 28.822364260579157

Wenn aus irgendeinem Grund Sie nicht verwenden können numpy und/oder Sie nicht möchten, verwenden Sie eine integrierte Funktion für Sie, können Sie auch berechnen Sie "von hand", das beispielsweise mit einer list comprehension:
```
# calculate mean
m = sum(results) / len(results)

# calculate variance using a list comprehension
var_res = sum((xi - m) ** 2 for xi in results) / len(results)
```
dem Sie das identische Ergebnis.

Wenn Sie daran interessiert sind, die Standardabweichung, die Sie verwenden können,numpy.std:
```
print(np.std(results))
5.36864640860051
```
@Serge Ballesta sehr gut erklärt der Unterschied zwischen Varianz n und n-1. In numpy können Sie ganz einfach setzen Sie diesen parameter mit der option ddof; Standardwert:0, so dass für die n-1 Fall, Sie können einfach tun:
```
np.var(results, ddof=1)
```
Den "von hand" - Lösung ist in @Serge Ballesta ' s Antwort.

Beide Ansätze Ausbeute 32.024849178421285.

Können Sie die parameter auch für std:
```
np.std(results, ddof=1)
5.659050201086865
```
InformationsquelleAutor Cleb
7

Gut, es gibt zwei Möglichkeiten für die Definition der Varianz. Sie haben die Varianz n, die Sie verwenden, wenn Sie einen vollständigen Satz, und die Varianz n-1,, die Sie verwenden, wenn Sie eine Probe.

Den Unterschied zwischen den 2 ist, ob der Wert m = sum(xi) /n ist der wahre Durchschnitt ist, oder ob es nur eine Annäherung an das, was der Durchschnitt sein sollte.

Beispiel1 : Sie wollen wissen, die Durchschnittliche Körpergröße der Schülerinnen und Schüler in einer Klasse und Ihrer Varianz : ok, der Wert m = sum(xi) /n ist der wahre Durchschnitt, und die Formeln von Cleb sind ok (Varianz n).

Beispiel2 : Sie möchten wissen, der Durchschnittliche Stunde, zu der ein bus fährt an der Haltestelle und seine Varianz. Sie beachten die Stunden für einen Monat, und Sie erhalten 30 Werte. Hier wird der Wert m = sum(xi) /n ist nur eine Näherung der realen Durchschnitt, und dass die approximation wird genauer mit mehr Werten. In diesem Fall wird die beste Näherung für die tatsächliche Varianz ist die Varianz n-1,
```
varRes = sum([(xi - m)**2 for xi in results]) / (len(results) -1)
```
Ok, es hat nichts zu tun mit Python, aber es hat einen Einfluss auf die statistische Analyse, und die Frage tagged Statistik und Varianz

Hinweis: normalerweise, statistische Bibliotheken, wie numpy verwenden Sie die Varianz n für das, was Sie nennen var oder variance, und die Varianz n-1, für die Funktion, die die Standardabweichung.

InformationsquelleAutor Serge Ballesta

Numpy ist in der Tat die elegante und schnelle Weg, es zu tun.

Ich denke, die eigentliche Frage war etwa, wie auf die einzelnen Elemente einer Liste zu tun ist eine solche Berechnung selbst, so wird im folgenden ein Beispiel:

results=[-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439,
      0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]

import numpy as np
print 'numpy variance: ', np.var(results)


# without numpy by hand  

# there are two ways of calculating the variance 
#   - 1. direct as central 2nd order moment (https://en.wikipedia.org/wiki/Moment_(mathematics))divided by the length of the vector
#   - 2. "mean of square minus square of mean" (see https://en.wikipedia.org/wiki/Variance)

# calculate mean
n= len(results)
sum=0
for i in range(n):
    sum = sum+ results[i]


mean=sum/n
print 'mean: ', mean

#  calculate the central moment
sum2=0
for i in range(n):
    sum2=sum2+ (results[i]-mean)**2

myvar1=sum2/n
print "my variance1: ", myvar1

# calculate the mean of square minus square of mean
sum3=0
for i in range(n):
    sum3=sum3+ results[i]**2

myvar2 = sum3/n - mean**2
print "my variance2: ", myvar2

gibt Sie:

numpy variance:  28.8223642606
mean:  -3.731599805
my variance1:  28.8223642606
my variance2:  28.8223642606

InformationsquelleAutor roadrunner66

1

Ab Python 3.4, die standard-library kommt mit dem Varianz Funktion (stichprobenvarianz oder Varianz n-1,) als Teil der Statistik Modul:
```
from statistics import variance
# data = [-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439, 0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]
variance(data)
# 32.024849178421285
```
Den population Varianz (oder Varianz n) erhalten werden können über die pvariance Funktion:
```
from statistics import pvariance
# data = [-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439, 0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]
pvariance(data)
# 28.822364260579157
```
Beachten Sie auch, dass, wenn Sie bereits wissen, die meine auf Ihrer Liste, die variance und pvariance Funktionen haben als zweites argument (bzw. xbar und mu), um Ersatz-recomputing der Mittelwert der Stichprobe (das ist Teil der Varianz-Berechnung).

InformationsquelleAutor Xavier Guihot

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.