Varianz Rechner
Online Berechnung der Streuung einer Datenreihe
Geben Sie Ihre Datenreihe in das Textfeld ein und klicken Sie auf Berechnen. Die Varianz misst die quadrierte Streuung einer Datenverteilung und ist fundamental für die Berechnung der Standardabweichung und andere statistische Maße.
💡 Varianz Definition
\(\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \mu)^2\) | Quadrierte Abweichungen vom Mittelwert
Varianz und quadrierte Streuung verstehen
Die Varianz ist das fundamentale Streuungsmaß in der Statistik und misst die durchschnittliche quadrierte Abweichung der Datenpunkte vom Mittelwert. Sie ist die Grundlage für die Standardabweichung und viele andere statistische Konzepte. Die Varianz hat quadrierte Einheiten der ursprünglichen Daten und ist immer nicht-negativ. Sie ist zentral für die Beschreibung von Verteilungen, Hypothesentests und Modellierung.
📊 Grunddefinition
Quadrierte mittlere Abweichung:
📈 Eigenschaften
- • Immer ≥ 0
- • Quadrierte Einheiten
- • Empfindlich gegen Ausreißer
- • Basis für Standardabweichung
🎯 Anwendungen
- • Standardabweichung (σ = √σ²)
- • Varianzanalyse (ANOVA)
- • Regression (R², MSE)
- • Wahrscheinlichkeitsverteilungen
⚙️ Berechnungsarten
- • Population (σ²): Division durch n
- • Sample (s²): Division durch n-1
- • Bessel-Korrektur
- • Verschiebungssatz
Mathematische Grundlagen
📊 Formale Definition der Varianz
Für eine Datenreihe x₁, x₂, ..., xₙ mit Mittelwert μ:
\[\text{Population Varianz: } \sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2\] \[\text{Sample Varianz: } s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\] \[\text{Erwartungswert: } \text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2\] \[\text{wobei } \bar{x} \text{ der Stichprobenmittelwert ist}\]
🔄 Verschiebungssatz (Steiner'sche Formel)
Numerisch stabile Berechnung:
\[\text{Traditionelle Formel: } \sigma^2 = E[X^2] - (E[X])^2\] \[\text{Für Stichproben: } s^2 = \frac{1}{n-1}\left[\sum_{i=1}^n x_i^2 - \frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2\right]\] \[\text{Problem: Numerische Instabilität bei großen Werten}\] \[\text{Lösung: Welford's Online-Algorithmus}\] \[\text{Update: } M_k = M_{k-1} + \frac{x_k - M_{k-1}}{k}\] \[\text{Update: } S_k = S_{k-1} + (x_k - M_{k-1})(x_k - M_k)\]
📊 Bessel-Korrektur und Bias
Warum Division durch n-1 bei Stichproben:
\[\text{Bias der Varianz: } E\left[\frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2\] \[\text{Erwartungstreue: } E[s^2] = E\left[\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\right] = \sigma^2\] \[\text{Freiheitsgrade: } df = n - 1 \text{ (ein Parameter geschätzt)}\] \[\text{Chi-Quadrat: } \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\]
Praktische Berechnungsbeispiele
📝 Beispiel 1: Grundberechnung
Aufgabe: Berechne Varianz von 3, 5, 8, 7
Methode: Population und Sample Varianz
Berechnung:
\[\text{Schritt 1: Mittelwert}\] \[\bar{x} = \frac{3+5+8+7}{4} = 5.75\] \[\text{Schritt 2: Quadrierte Abweichungen}\] \[(3-5.75)^2 = 7.5625, \quad (5-5.75)^2 = 0.5625\] \[(8-5.75)^2 = 5.0625, \quad (7-5.75)^2 = 1.5625\] \[\text{Summe: } 14.75\] \[\text{Schritt 3: Varianzen}\] \[\sigma^2 = \frac{14.75}{4} = 3.6875\] \[s^2 = \frac{14.75}{3} = 4.9167\]
Interpretation: Population Varianz = 3.69, Sample Varianz = 4.92
📝 Beispiel 2: Verschiebungssatz
Aufgabe: Alternative Berechnung mit Verschiebungssatz
Daten: Gleiche Zahlenreihe: 3, 5, 8, 7
Berechnung:
\[\text{Summe: } \sum x_i = 3+5+8+7 = 23\] \[\text{Quadratsumme: } \sum x_i^2 = 9+25+64+49 = 147\] \[\text{Population Varianz:}\] \[\sigma^2 = \frac{1}{4}(147) - \left(\frac{23}{4}\right)^2 = 36.75 - 33.0625 = 3.6875\] \[\text{Sample Varianz:}\] \[s^2 = \frac{1}{3}\left[147 - \frac{23^2}{4}\right] = \frac{1}{3}(147 - 132.25) = 4.9167\]
Vorteil: Nur ein Durchlauf durch die Daten nötig
📝 Beispiel 3: Varianzzerlegung (ANOVA)
Aufgabe: Zerlegung der Gesamtvarianz
Daten: Zwei Gruppen mit verschiedenen Mittelwerten
Analyse:
\[\text{Gruppe 1: } x_1 = [2, 4, 6], \quad \bar{x_1} = 4\] \[\text{Gruppe 2: } x_2 = [8, 10, 12], \quad \bar{x_2} = 10\] \[\text{Gesamtmittel: } \bar{x} = \frac{4+10}{2} = 7\] \[\text{Gesamtvarianz: } SS_{total} = \sum (x_i - \bar{x})^2 = 84\] \[\text{Varianz zwischen Gruppen: } SS_{between} = 3(4-7)^2 + 3(10-7)^2 = 54\] \[\text{Varianz innerhalb Gruppen: } SS_{within} = 8 + 8 = 16\] \[\text{Zerlegung: } SS_{total} = SS_{between} + SS_{within}\]
Interpretation: 84 = 54 + 16 - Zerlegung bestätigt
Anwendungen in verschiedenen Bereichen
📈 Finanz- & Risikomanagement
- • Volatilität (σ² der Renditen)
- • Portfolio-Varianz
- • Value at Risk (VaR)
- • GARCH-Modelle
📊 Qualitätskontrolle
- • Prozessvariabilität
- • Mean Squared Error (MSE)
- • Kontrollkarten (σ-Grenzen)
- • Six Sigma (Varianzreduktion)
🏥 Medizin & Biologie
- • Messungenauigkeit
- • Inter-/Intra-Assay Varianz
- • Genetische Variabilität
- • Klinische Studien
🎓 Maschinelles Lernen
- • Feature-Skalierung
- • Principal Component Analysis
- • Regularisierung
- • Bias-Variance Tradeoff
Erweiterte Konzepte
📊 Robuste Varianzschätzer
Alternativen zur klassischen Varianz:
\[\text{Median Absolute Deviation: } \text{MAD} = \text{median}(|x_i - \text{median}(x)|)\] \[\text{Skalierte MAD: } \hat{\sigma}^2 = (1.4826 \times \text{MAD})^2\] \[\text{Interquartilsabstand: } \text{IQR} = Q_3 - Q_1\] \[\text{Robust Varianz: } \hat{\sigma}^2 = \left(\frac{\text{IQR}}{1.349}\right)^2\] \[\text{Weniger empfindlich gegen Ausreißer}\]
🎯 Varianzschätzung und Konfidenzintervalle
Chi-Quadrat-Verteilung der Stichprobenvarianz:
\[\text{Verteilung: } \frac{(n-1)s^2}{\sigma^2} \sim \chi^2_{n-1}\] \[\text{Konfidenzintervall für } \sigma^2:\] \[\left[\frac{(n-1)s^2}{\chi^2_{\alpha/2,n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}}\right]\] \[\text{F-Test für Varianzgleichheit: } F = \frac{s_1^2}{s_2^2} \sim F_{n_1-1,n_2-1}\] \[\text{Levene Test für robuste Varianzprüfung}\]
📈 Varianz bei verschiedenen Verteilungen
Theoretische Varianzen wichtiger Verteilungen:
\[\text{Normalverteilung: } \text{Var}(X) = \sigma^2\] \[\text{Binomialverteilung: } \text{Var}(X) = np(1-p)\] \[\text{Poisson-Verteilung: } \text{Var}(X) = \lambda\] \[\text{Exponentialverteilung: } \text{Var}(X) = \lambda^{-2}\] \[\text{Uniform(a,b): } \text{Var}(X) = \frac{(b-a)^2}{12}\] \[\text{Chi-Quadrat: } \text{Var}(X) = 2k \text{ (k Freiheitsgrade)}\]
Computational Aspects
💻 Algorithmen und Implementierung
Effiziente Berechnung der Varianz:
Python (NumPy):
import numpy as np
# Verschiedene Methoden:
np.var(data, ddof=0) # Population variance
np.var(data, ddof=1) # Sample variance
np.var(data, axis=0) # Column-wise variance
R:
var(data) # Sample variance
# Population variance:
pop_var <- function(x) var(x) * (length(x)-1) / length(x)
Welford's Online Algorithm:
def online_variance(data):
n, mean, M2 = 0, 0.0, 0.0
for x in data:
n += 1
delta = x - mean
mean += delta / n
M2 += delta * (x - mean)
return M2 / (n - 1) # Sample variance
💡 Praktische Tipps
Hinweise für die korrekte Anwendung:
\[\text{1. Population vs. Sample: Kontext beachten}\] \[\text{2. Numerische Stabilität: Welford's Algorithmus}\] \[\text{3. Bei Ausreißern: Robuste Alternativen}\] \[\text{4. Einheiten: Varianz hat quadrierte Einheiten}\] \[\text{5. Interpretation: Zusammen mit Standardabweichung}\]
💡 Wichtige Eigenschaften der Varianz:
- Additivität: Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
- Skalierung: Var(aX) = a²Var(X)
- Translation: Var(X+b) = Var(X)
- Nicht-Negativität: Var(X) ≥ 0, Gleichheit nur bei Konstanten
📊 Wann Varianz verwenden:
- Streuungsmaß: Quantifizierung der Variabilität in Daten
- Modellbewertung: MSE, R², Explained Variance
- Hypothesentests: F-Tests, Varianzanalyse (ANOVA)
- Qualitätskontrolle: Prozessstabilität und -verbesserung
Arithmetisches-Mittel, DurchschnittStreuungsmaße
Geometrisches Mittel
Harmonisches Mittel
Kontraharmonisches Mittel
Log-Geometrisches Mittel
Median
Modus
Minimum und Maximum
Perzentile
Oberes Quartil
Unteres Quartil
Quantile
KurtosisKorrelation & Zusammenhang
Skewness (Statistische Schiefe)
Standardabweichung
Gepoolte Standardabweichungl
Varianz
Gepoolte Varianz
Spannweite
Interquartilsabstand (IQR)
KovarianzVerteilungsfunktionen
Korrelationskoeffizient (Pearson, Spearman)
Rangkorrelation
Empirische inverse Verteilungsfunktion CDFTest & Schätzungen
Empirische Verteilungsfunktion CDF
Five-Number Summary
T-Test (einfach)Spezielle Verteilungen:
Chi-Quadrat-Test
Wilcoxon-Test
NormalverteilungRisiko & Wahrscheinlichkeit
Binomialverteilung
Poisson-Verteilung
Exponentialverteilung
Geburtstagsparadoxon
Satz von Bayes