Gepoolte Varianz Rechner

Online Berechnung der kombinierten quadrierten Streuung mehrerer Gruppen


📊 Gepoolte Varianz (sp²)

Gewichtete kombinierte quadrierte Streuung mehrerer Gruppen

💡 Erste Datengruppe
💡 Zweite Datengruppe
Beide Gruppen werden verwendet
Automatische Varianzberechnung
Unterstützte Dateiformate: .txt, .csv (zwei Spalten für Gruppe 1 und 2)
📊
Gepoolte Varianz: Kombiniert die quadrierte Streuung mehrerer Gruppen gewichtet nach Stichprobengröße. Grundlage für F-Tests und ANOVA.
⚠️ Fehler:

Geben Sie Ihre beiden Datengruppen in die Textfelder ein und klicken Sie auf Berechnen. Die gepoolte Varianz kombiniert die quadrierten Streuung beider Gruppen gewichtet nach ihrer Stichprobengröße und ist fundamental für F-Tests und ANOVA.


💡 Gepoolte Varianz Definition

\(s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\)  |  Gewichtete kombinierte quadrierte Streuung


Gepoolte Varianz verstehen

Die gepoolte Varianz (pooled variance) ist ein gewichteter Mittelwert der Varianzen aus zwei oder mehr unabhängigen Stichproben. Sie kombiniert die quadrierten Streuungen aller Gruppen und schätzt eine gemeinsame Populationsvarianz, wenn man annimmt, dass alle Gruppen die gleiche Varianz haben. Dieses Konzept ist fundamental für F-Tests, ANOVA und Mean Square Error Berechnungen.

📊 Grundprinzip

Gewichtete Kombination:

sp² = Σ(ni-1)si² / Σ(ni-1)
Größere Gruppen haben mehr Gewicht
📈 Annahmen
  • • Gleiche Populationsvarianz (σ₁² = σ₂²)
  • • Unabhängige Stichproben
  • • Normalverteilte Daten
  • • Homoskedastizität
🎯 Anwendungen
  • • F-Test für Varianzgleichheit
  • • Einfaktorielle ANOVA
  • • Mean Square Error (MSE)
  • • Regression (Residualvarianz)
⚙️ Vorteile
  • • Präzisere Varianzschätzung
  • • Höhere statistische Power
  • • Berücksichtigt alle Daten
  • • Grundlage für MSE

Mathematische Grundlagen

📊 Formale Definition für zwei Gruppen

Für zwei Stichproben mit Größen n₁, n₂ und Varianzen s₁², s₂²:

\[\text{Gepoolte Varianz: } s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\] \[\text{Freiheitsgrade: } df = n_1 + n_2 - 2\] \[\text{Mean Square Error: } MSE = s_p^2\] \[\text{Sum of Squares Within: } SS_{within} = (n_1-1)s_1^2 + (n_2-1)s_2^2\]

🔄 ANOVA-Zerlegung der Varianz

Aufspaltung der Gesamtvarianz:

\[\text{Gesamtvarianz: } SS_{total} = SS_{between} + SS_{within}\] \[\text{Between Groups: } SS_{between} = \sum_{i=1}^k n_i(\bar{x_i} - \bar{x})^2\] \[\text{Within Groups: } SS_{within} = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij} - \bar{x_i})^2\] \[\text{F-Statistik: } F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}/(k-1)}{SS_{within}/(N-k)}\]

📊 Gewichtung und Eigenschaften

Warum gewichtete Kombination sinnvoll ist:

\[\text{Gewicht der i-ten Gruppe: } w_i = n_i - 1\] \[\text{Chi-Quadrat-Verteilung: } \frac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{n_i-1}\] \[\text{Additivität: } \sum_{i=1}^k \frac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{\sum(n_i-1)}\] \[\text{Erwartungstreue: } E[s_p^2] = \sigma^2 \text{ (unter Homoskedastizität)}\]

Praktische Berechnungsbeispiele

📝 Beispiel 1: Grundberechnung

Aufgabe: Berechne gepoolte Varianz
Daten: Gruppe 1: 3, 5, 7, 8 | Gruppe 2: 10, 16, 22, 27
Berechnung:

\[\text{Schritt 1: Gruppenstatistiken}\] \[\bar{x_1} = 5.75, \quad s_1^2 = 4.917, \quad n_1 = 4\] \[\bar{x_2} = 18.75, \quad s_2^2 = 54.25, \quad n_2 = 4\] \[\text{Schritt 2: Gepoolte Varianz}\] \[s_p^2 = \frac{(4-1) \cdot 4.917 + (4-1) \cdot 54.25}{4+4-2}\] \[= \frac{3 \cdot 4.917 + 3 \cdot 54.25}{6} = \frac{177.501}{6} = 29.58\] \[\text{Schritt 3: Mean Square Error}\] \[MSE = s_p^2 = 29.58\]

Interpretation: Gemeinsame Varianz beider Gruppen beträgt 29.58

📝 Beispiel 2: F-Test Anwendung

Aufgabe: Teste Unterschied zwischen Gruppenmittelwerten
Daten: Zwei Behandlungsgruppen
Analyse:

\[\text{Mit } s_p^2 = 29.58 \text{ aus Beispiel 1:}\] \[\text{Grand Mean: } \bar{x} = \frac{4 \cdot 5.75 + 4 \cdot 18.75}{8} = 12.25\] \[\text{SS Between: } 4(5.75-12.25)^2 + 4(18.75-12.25)^2 = 338\] \[\text{SS Within: } 6 \cdot 29.58 = 177.48\] \[\text{F-Statistik: } F = \frac{338/1}{177.48/6} = \frac{338}{29.58} = 11.43\] \[\text{df: } (1, 6), \quad F_{krit}(0.05) = 5.99\]

Fazit: F > F_kritisch → Signifikanter Unterschied zwischen Gruppen

📝 Beispiel 3: Ungleiche Gruppengrößen

Aufgabe: Gepoolte Varianz bei unterschiedlichen Stichprobengrößen
Daten: Gruppe 1 (n=6): 85, 90, 78, 92, 88, 76 | Gruppe 2 (n=4): 82, 87, 85, 89
Analyse:

\[\text{Gruppe 1: } n_1 = 6, \bar{x_1} = 84.83, s_1^2 = 36.97\] \[\text{Gruppe 2: } n_2 = 4, \bar{x_2} = 85.75, s_2^2 = 8.25\] \[\text{Gewichte: } w_1 = 5, w_2 = 3\] \[s_p^2 = \frac{5 \cdot 36.97 + 3 \cdot 8.25}{5 + 3} = \frac{209.6}{8} = 26.20\] \[\text{MSE} = 26.20\]

Beobachtung: Größere Gruppe dominiert die gepoolte Varianz

Anwendungen in verschiedenen Bereichen

🔬 Experimentelle Forschung
  • • Mehrfaktorielle Experimente
  • • Klinische Studien (ANOVA)
  • • A/B/C Testing
  • • Laborvergleiche
📊 Qualitätskontrolle
  • • Prozessvergleiche
  • • Chargenanalysen
  • • Methodenvalidierung
  • • Ringversuche
🏥 Medizin & Gesundheit
  • • Therapievergleiche
  • • Dosisfindungsstudien
  • • Bioäquivalenz-Studien
  • • Meta-Analysen
🎓 Sozialwissenschaften
  • • Gruppenvergleiche
  • • Bildungsforschung
  • • Marktforschung
  • • Psychologische Studien

Erweiterte Konzepte

📊 Voraussetzungen und Tests

Prüfung der Annahmen für gepoolte Varianz:

\[\text{Homoskedastizität-Tests:}\] \[\text{Levene Test: } F = \frac{\sum n_i(\bar{Z_i} - \bar{Z})^2 / (k-1)}{\sum \sum (Z_{ij} - \bar{Z_i})^2 / (N-k)}\] \[\text{Bartlett Test: } \chi^2 = \frac{(N-k) \ln(s_p^2) - \sum (n_i-1) \ln(s_i^2)}{1 + \frac{1}{3(k-1)}[\sum \frac{1}{n_i-1} - \frac{1}{N-k}]}\] \[\text{Brown-Forsythe Test (robust)}\]

🎯 Mean Square Error in Regression

Verwendung in linearen Modellen:

\[\text{Regression MSE: } MSE = \frac{\sum_{i=1}^n (y_i - \hat{y_i})^2}{n-p-1}\] \[\text{R-Quadrat: } R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{MSE \cdot df_{res}}{SS_{tot}}\] \[\text{Adjusted R²: } R_{adj}^2 = 1 - \frac{MSE}{s_y^2}\] \[\text{F-Test: } F = \frac{MS_{model}}{MSE}\]

📈 Robuste Alternativen

Alternativen bei Verletzung der Annahmen:

\[\text{Welch ANOVA (ungleiche Varianzen):}\] \[\text{Gewichtete Mittel: } w_i = \frac{n_i}{s_i^2}\] \[\text{Brown-Forsythe-Statistik}\] \[\text{Kruskal-Wallis Test (non-parametrisch)}\] \[\text{Robuste ANOVA (Trimmed Means)}\]

Computational Aspects

💻 Algorithmen und Implementierung

Effiziente Berechnung der gepoolten Varianz:

Python (SciPy):
from scipy import stats
import numpy as np
# ANOVA mit gepoolter Varianz:
f_stat, p_val = stats.f_oneway(group1, group2)
# Manuelle Berechnung:
def pooled_variance(groups):
  n_total = sum(len(g) for g in groups)
  k = len(groups)
  ss_within = sum((len(g)-1)*np.var(g, ddof=1) for g in groups)
  return ss_within / (n_total - k)

R:
# ANOVA mit gepoolter Varianz
aov_result <- aov(value ~ group, data=df)
# MSE extrahieren
mse <- sum(aov_result$residuals^2) / aov_result$df.residual

💡 Praktische Tipps

Hinweise für die korrekte Anwendung:

\[\text{1. Prüfe Varianzhomogenität vor Anwendung}\] \[\text{2. Bei Verletzung: Welch ANOVA verwenden}\] \[\text{3. Mindestens n ≥ 2 pro Gruppe erforderlich}\] \[\text{4. Größere Gruppen dominieren Ergebnis}\] \[\text{5. MSE ist Schätzer für gemeinsame Varianz}\]
💡 Vorteile der gepoolten Varianz:
  • Präzision: Bessere Schätzung durch Kombination aller Daten
  • Effizienz: Mehr Freiheitsgrade führen zu besserer Power
  • ANOVA-Grundlage: Essential für F-Tests und Varianzanalyse
  • MSE-Berechnung: Direkter Schätzer für Fehlervarianz
📊 Wann gepoolte Varianz verwenden:
  • F-Tests: Vergleich von Gruppenmittelwerten
  • ANOVA: Analyse der Varianz zwischen und innerhalb Gruppen
  • Regression: Mean Square Error für Modellbewertung
  • Experimentaldesign: Fehlervarianzenplanung