Gepoolte Varianz Rechner
Online Berechnung der kombinierten quadrierten Streuung mehrerer Gruppen
Geben Sie Ihre beiden Datengruppen in die Textfelder ein und klicken Sie auf Berechnen. Die gepoolte Varianz kombiniert die quadrierten Streuung beider Gruppen gewichtet nach ihrer Stichprobengröße und ist fundamental für F-Tests und ANOVA.
💡 Gepoolte Varianz Definition
\(s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\) | Gewichtete kombinierte quadrierte Streuung
Gepoolte Varianz verstehen
Die gepoolte Varianz (pooled variance) ist ein gewichteter Mittelwert der Varianzen aus zwei oder mehr unabhängigen Stichproben. Sie kombiniert die quadrierten Streuungen aller Gruppen und schätzt eine gemeinsame Populationsvarianz, wenn man annimmt, dass alle Gruppen die gleiche Varianz haben. Dieses Konzept ist fundamental für F-Tests, ANOVA und Mean Square Error Berechnungen.
📊 Grundprinzip
Gewichtete Kombination:
📈 Annahmen
- • Gleiche Populationsvarianz (σ₁² = σ₂²)
- • Unabhängige Stichproben
- • Normalverteilte Daten
- • Homoskedastizität
🎯 Anwendungen
- • F-Test für Varianzgleichheit
- • Einfaktorielle ANOVA
- • Mean Square Error (MSE)
- • Regression (Residualvarianz)
⚙️ Vorteile
- • Präzisere Varianzschätzung
- • Höhere statistische Power
- • Berücksichtigt alle Daten
- • Grundlage für MSE
Mathematische Grundlagen
📊 Formale Definition für zwei Gruppen
Für zwei Stichproben mit Größen n₁, n₂ und Varianzen s₁², s₂²:
\[\text{Gepoolte Varianz: } s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\] \[\text{Freiheitsgrade: } df = n_1 + n_2 - 2\] \[\text{Mean Square Error: } MSE = s_p^2\] \[\text{Sum of Squares Within: } SS_{within} = (n_1-1)s_1^2 + (n_2-1)s_2^2\]
🔄 ANOVA-Zerlegung der Varianz
Aufspaltung der Gesamtvarianz:
\[\text{Gesamtvarianz: } SS_{total} = SS_{between} + SS_{within}\] \[\text{Between Groups: } SS_{between} = \sum_{i=1}^k n_i(\bar{x_i} - \bar{x})^2\] \[\text{Within Groups: } SS_{within} = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij} - \bar{x_i})^2\] \[\text{F-Statistik: } F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}/(k-1)}{SS_{within}/(N-k)}\]
📊 Gewichtung und Eigenschaften
Warum gewichtete Kombination sinnvoll ist:
\[\text{Gewicht der i-ten Gruppe: } w_i = n_i - 1\] \[\text{Chi-Quadrat-Verteilung: } \frac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{n_i-1}\] \[\text{Additivität: } \sum_{i=1}^k \frac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{\sum(n_i-1)}\] \[\text{Erwartungstreue: } E[s_p^2] = \sigma^2 \text{ (unter Homoskedastizität)}\]
Praktische Berechnungsbeispiele
📝 Beispiel 1: Grundberechnung
Aufgabe: Berechne gepoolte Varianz
Daten: Gruppe 1: 3, 5, 7, 8 | Gruppe 2: 10, 16, 22, 27
Berechnung:
\[\text{Schritt 1: Gruppenstatistiken}\] \[\bar{x_1} = 5.75, \quad s_1^2 = 4.917, \quad n_1 = 4\] \[\bar{x_2} = 18.75, \quad s_2^2 = 54.25, \quad n_2 = 4\] \[\text{Schritt 2: Gepoolte Varianz}\] \[s_p^2 = \frac{(4-1) \cdot 4.917 + (4-1) \cdot 54.25}{4+4-2}\] \[= \frac{3 \cdot 4.917 + 3 \cdot 54.25}{6} = \frac{177.501}{6} = 29.58\] \[\text{Schritt 3: Mean Square Error}\] \[MSE = s_p^2 = 29.58\]
Interpretation: Gemeinsame Varianz beider Gruppen beträgt 29.58
📝 Beispiel 2: F-Test Anwendung
Aufgabe: Teste Unterschied zwischen Gruppenmittelwerten
Daten: Zwei Behandlungsgruppen
Analyse:
\[\text{Mit } s_p^2 = 29.58 \text{ aus Beispiel 1:}\] \[\text{Grand Mean: } \bar{x} = \frac{4 \cdot 5.75 + 4 \cdot 18.75}{8} = 12.25\] \[\text{SS Between: } 4(5.75-12.25)^2 + 4(18.75-12.25)^2 = 338\] \[\text{SS Within: } 6 \cdot 29.58 = 177.48\] \[\text{F-Statistik: } F = \frac{338/1}{177.48/6} = \frac{338}{29.58} = 11.43\] \[\text{df: } (1, 6), \quad F_{krit}(0.05) = 5.99\]
Fazit: F > F_kritisch → Signifikanter Unterschied zwischen Gruppen
📝 Beispiel 3: Ungleiche Gruppengrößen
Aufgabe: Gepoolte Varianz bei unterschiedlichen Stichprobengrößen
Daten: Gruppe 1 (n=6): 85, 90, 78, 92, 88, 76 | Gruppe 2 (n=4): 82, 87, 85, 89
Analyse:
\[\text{Gruppe 1: } n_1 = 6, \bar{x_1} = 84.83, s_1^2 = 36.97\] \[\text{Gruppe 2: } n_2 = 4, \bar{x_2} = 85.75, s_2^2 = 8.25\] \[\text{Gewichte: } w_1 = 5, w_2 = 3\] \[s_p^2 = \frac{5 \cdot 36.97 + 3 \cdot 8.25}{5 + 3} = \frac{209.6}{8} = 26.20\] \[\text{MSE} = 26.20\]
Beobachtung: Größere Gruppe dominiert die gepoolte Varianz
Anwendungen in verschiedenen Bereichen
🔬 Experimentelle Forschung
- • Mehrfaktorielle Experimente
- • Klinische Studien (ANOVA)
- • A/B/C Testing
- • Laborvergleiche
📊 Qualitätskontrolle
- • Prozessvergleiche
- • Chargenanalysen
- • Methodenvalidierung
- • Ringversuche
🏥 Medizin & Gesundheit
- • Therapievergleiche
- • Dosisfindungsstudien
- • Bioäquivalenz-Studien
- • Meta-Analysen
🎓 Sozialwissenschaften
- • Gruppenvergleiche
- • Bildungsforschung
- • Marktforschung
- • Psychologische Studien
Erweiterte Konzepte
📊 Voraussetzungen und Tests
Prüfung der Annahmen für gepoolte Varianz:
\[\text{Homoskedastizität-Tests:}\] \[\text{Levene Test: } F = \frac{\sum n_i(\bar{Z_i} - \bar{Z})^2 / (k-1)}{\sum \sum (Z_{ij} - \bar{Z_i})^2 / (N-k)}\] \[\text{Bartlett Test: } \chi^2 = \frac{(N-k) \ln(s_p^2) - \sum (n_i-1) \ln(s_i^2)}{1 + \frac{1}{3(k-1)}[\sum \frac{1}{n_i-1} - \frac{1}{N-k}]}\] \[\text{Brown-Forsythe Test (robust)}\]
🎯 Mean Square Error in Regression
Verwendung in linearen Modellen:
\[\text{Regression MSE: } MSE = \frac{\sum_{i=1}^n (y_i - \hat{y_i})^2}{n-p-1}\] \[\text{R-Quadrat: } R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{MSE \cdot df_{res}}{SS_{tot}}\] \[\text{Adjusted R²: } R_{adj}^2 = 1 - \frac{MSE}{s_y^2}\] \[\text{F-Test: } F = \frac{MS_{model}}{MSE}\]
📈 Robuste Alternativen
Alternativen bei Verletzung der Annahmen:
\[\text{Welch ANOVA (ungleiche Varianzen):}\] \[\text{Gewichtete Mittel: } w_i = \frac{n_i}{s_i^2}\] \[\text{Brown-Forsythe-Statistik}\] \[\text{Kruskal-Wallis Test (non-parametrisch)}\] \[\text{Robuste ANOVA (Trimmed Means)}\]
Computational Aspects
💻 Algorithmen und Implementierung
Effiziente Berechnung der gepoolten Varianz:
Python (SciPy):
from scipy import stats
import numpy as np
# ANOVA mit gepoolter Varianz:
f_stat, p_val = stats.f_oneway(group1, group2)
# Manuelle Berechnung:
def pooled_variance(groups):
n_total = sum(len(g) for g in groups)
k = len(groups)
ss_within = sum((len(g)-1)*np.var(g, ddof=1) for g in groups)
return ss_within / (n_total - k)
R:
# ANOVA mit gepoolter Varianz
aov_result <- aov(value ~ group, data=df)
# MSE extrahieren
mse <- sum(aov_result$residuals^2) / aov_result$df.residual
💡 Praktische Tipps
Hinweise für die korrekte Anwendung:
\[\text{1. Prüfe Varianzhomogenität vor Anwendung}\] \[\text{2. Bei Verletzung: Welch ANOVA verwenden}\] \[\text{3. Mindestens n ≥ 2 pro Gruppe erforderlich}\] \[\text{4. Größere Gruppen dominieren Ergebnis}\] \[\text{5. MSE ist Schätzer für gemeinsame Varianz}\]
💡 Vorteile der gepoolten Varianz:
- Präzision: Bessere Schätzung durch Kombination aller Daten
- Effizienz: Mehr Freiheitsgrade führen zu besserer Power
- ANOVA-Grundlage: Essential für F-Tests und Varianzanalyse
- MSE-Berechnung: Direkter Schätzer für Fehlervarianz
📊 Wann gepoolte Varianz verwenden:
- F-Tests: Vergleich von Gruppenmittelwerten
- ANOVA: Analyse der Varianz zwischen und innerhalb Gruppen
- Regression: Mean Square Error für Modellbewertung
- Experimentaldesign: Fehlervarianzenplanung
Arithmetisches-Mittel, DurchschnittStreuungsmaße
Geometrisches Mittel
Harmonisches Mittel
Kontraharmonisches Mittel
Log-Geometrisches Mittel
Median
Modus
Minimum und Maximum
Perzentile
Oberes Quartil
Unteres Quartil
Quantile
KurtosisKorrelation & Zusammenhang
Skewness (Statistische Schiefe)
Standardabweichung
Gepoolte Standardabweichungl
Varianz
Gepoolte Varianz
Spannweite
Interquartilsabstand (IQR)
KovarianzVerteilungsfunktionen
Korrelationskoeffizient (Pearson, Spearman)
Rangkorrelation
Empirische inverse Verteilungsfunktion CDFTest & Schätzungen
Empirische Verteilungsfunktion CDF
Five-Number Summary
T-Test (einfach)Spezielle Verteilungen:
Chi-Quadrat-Test
Wilcoxon-Test
NormalverteilungRisiko & Wahrscheinlichkeit
Binomialverteilung
Poisson-Verteilung
Exponentialverteilung
Geburtstagsparadoxon
Satz von Bayes