Gepoolte Varianz Rechner

Online Berechnung der kombinierten quadrierten Streuung mehrerer Gruppen

📊 Gepoolte Varianz (sp²)

Gewichtete kombinierte quadrierte Streuung mehrerer Gruppen

📈 Gruppe 1 (Stichprobe 1) 💡 Erste Datengruppe

📊 Gruppe 2 (Stichprobe 2) 💡 Zweite Datengruppe

🎯 Dezimalstellen

ℹ️ Gruppen-Information

Beide Gruppen werden verwendet
Automatische Varianzberechnung

📝 Beispieldaten

📁 Datei hochladen (optional)

Unterstützte Dateiformate: .txt, .csv (zwei Spalten für Gruppe 1 und 2)

📊

Gepoolte Varianz: Kombiniert die quadrierte Streuung mehrerer Gruppen gewichtet nach Stichprobengröße. Grundlage für F-Tests und ANOVA.

📊 Gepoolte Varianz

sp² (kombinierte Varianz)

📈 MSE (Fehlerquadrat)

Mean Square Error

📊 Gruppenstatistiken

📈 Gruppe 1

Anzahl

Mittelwert

Varianz

📊 Gruppe 2

Anzahl

Mittelwert

Varianz

🔬 ANOVA Information

Freiheitsgrade

SS Within

SS Between

F-Ratio

Geben Sie Ihre beiden Datengruppen in die Textfelder ein und klicken Sie auf Berechnen. Die gepoolte Varianz kombiniert die quadrierten Streuung beider Gruppen gewichtet nach ihrer Stichprobengröße und ist fundamental für F-Tests und ANOVA.

💡 Gepoolte Varianz Definition

$s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}$ | Gewichtete kombinierte quadrierte Streuung

Gepoolte Varianz verstehen

Die gepoolte Varianz (pooled variance) ist ein gewichteter Mittelwert der Varianzen aus zwei oder mehr unabhängigen Stichproben. Sie kombiniert die quadrierten Streuungen aller Gruppen und schätzt eine gemeinsame Populationsvarianz, wenn man annimmt, dass alle Gruppen die gleiche Varianz haben. Dieses Konzept ist fundamental für F-Tests, ANOVA und Mean Square Error Berechnungen.

📊 Grundprinzip

Gewichtete Kombination:

sp² = Σ(ni-1)si² / Σ(ni-1)

Größere Gruppen haben mehr Gewicht

📈 Annahmen

• Gleiche Populationsvarianz (σ₁² = σ₂²)
• Unabhängige Stichproben
• Normalverteilte Daten
• Homoskedastizität

🎯 Anwendungen

• F-Test für Varianzgleichheit
• Einfaktorielle ANOVA
• Mean Square Error (MSE)
• Regression (Residualvarianz)

⚙️ Vorteile

• Präzisere Varianzschätzung
• Höhere statistische Power
• Berücksichtigt alle Daten
• Grundlage für MSE

Mathematische Grundlagen

📊 Formale Definition für zwei Gruppen

Für zwei Stichproben mit Größen n₁, n₂ und Varianzen s₁², s₂²:

\[\text{Gepoolte Varianz: } s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\] \[\text{Freiheitsgrade: } df = n_1 + n_2 - 2\] \[\text{Mean Square Error: } MSE = s_p^2\] \[\text{Sum of Squares Within: } SS_{within} = (n_1-1)s_1^2 + (n_2-1)s_2^2\]

🔄 ANOVA-Zerlegung der Varianz

Aufspaltung der Gesamtvarianz:

\[\text{Gesamtvarianz: } SS_{total} = SS_{between} + SS_{within}\] \[\text{Between Groups: } SS_{between} = \sum_{i=1}^k n_i(\bar{x_i} - \bar{x})^2\] \[\text{Within Groups: } SS_{within} = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij} - \bar{x_i})^2\] \[\text{F-Statistik: } F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}/(k-1)}{SS_{within}/(N-k)}\]

📊 Gewichtung und Eigenschaften

Warum gewichtete Kombination sinnvoll ist:

\[\text{Gewicht der i-ten Gruppe: } w_i = n_i - 1\] \[\text{Chi-Quadrat-Verteilung: } \frac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{n_i-1}\] \[\text{Additivität: } \sum_{i=1}^k \frac{(n_i-1)s_i^2}{\sigma^2} \sim \chi^2_{\sum(n_i-1)}\] \[\text{Erwartungstreue: } E[s_p^2] = \sigma^2 \text{ (unter Homoskedastizität)}\]

Praktische Berechnungsbeispiele

📝 Beispiel 1: Grundberechnung

Aufgabe: Berechne gepoolte Varianz
Daten: Gruppe 1: 3, 5, 7, 8 | Gruppe 2: 10, 16, 22, 27
Berechnung:

\[\text{Schritt 1: Gruppenstatistiken}\] \[\bar{x_1} = 5.75, \quad s_1^2 = 4.917, \quad n_1 = 4\] \[\bar{x_2} = 18.75, \quad s_2^2 = 54.25, \quad n_2 = 4\] \[\text{Schritt 2: Gepoolte Varianz}\] \[s_p^2 = \frac{(4-1) \cdot 4.917 + (4-1) \cdot 54.25}{4+4-2}\] \[= \frac{3 \cdot 4.917 + 3 \cdot 54.25}{6} = \frac{177.501}{6} = 29.58\] \[\text{Schritt 3: Mean Square Error}\] \[MSE = s_p^2 = 29.58\]

Interpretation: Gemeinsame Varianz beider Gruppen beträgt 29.58

📝 Beispiel 2: F-Test Anwendung

Aufgabe: Teste Unterschied zwischen Gruppenmittelwerten
Daten: Zwei Behandlungsgruppen
Analyse:

\[\text{Mit } s_p^2 = 29.58 \text{ aus Beispiel 1:}\] \[\text{Grand Mean: } \bar{x} = \frac{4 \cdot 5.75 + 4 \cdot 18.75}{8} = 12.25\] \[\text{SS Between: } 4(5.75-12.25)^2 + 4(18.75-12.25)^2 = 338\] \[\text{SS Within: } 6 \cdot 29.58 = 177.48\] \[\text{F-Statistik: } F = \frac{338/1}{177.48/6} = \frac{338}{29.58} = 11.43\] \[\text{df: } (1, 6), \quad F_{krit}(0.05) = 5.99\]

Fazit: F > F_kritisch → Signifikanter Unterschied zwischen Gruppen

📝 Beispiel 3: Ungleiche Gruppengrößen

Aufgabe: Gepoolte Varianz bei unterschiedlichen Stichprobengrößen
Daten: Gruppe 1 (n=6): 85, 90, 78, 92, 88, 76 | Gruppe 2 (n=4): 82, 87, 85, 89
Analyse:

\[\text{Gruppe 1: } n_1 = 6, \bar{x_1} = 84.83, s_1^2 = 36.97\] \[\text{Gruppe 2: } n_2 = 4, \bar{x_2} = 85.75, s_2^2 = 8.25\] \[\text{Gewichte: } w_1 = 5, w_2 = 3\] \[s_p^2 = \frac{5 \cdot 36.97 + 3 \cdot 8.25}{5 + 3} = \frac{209.6}{8} = 26.20\] \[\text{MSE} = 26.20\]

Beobachtung: Größere Gruppe dominiert die gepoolte Varianz

Anwendungen in verschiedenen Bereichen

🔬 Experimentelle Forschung

• Mehrfaktorielle Experimente
• Klinische Studien (ANOVA)
• A/B/C Testing
• Laborvergleiche

📊 Qualitätskontrolle

• Prozessvergleiche
• Chargenanalysen
• Methodenvalidierung
• Ringversuche

🏥 Medizin & Gesundheit

• Therapievergleiche
• Dosisfindungsstudien
• Bioäquivalenz-Studien
• Meta-Analysen

🎓 Sozialwissenschaften

• Gruppenvergleiche
• Bildungsforschung
• Marktforschung
• Psychologische Studien

Erweiterte Konzepte

📊 Voraussetzungen und Tests

Prüfung der Annahmen für gepoolte Varianz:

\[\text{Homoskedastizität-Tests:}\] \[\text{Levene Test: } F = \frac{\sum n_i(\bar{Z_i} - \bar{Z})^2 / (k-1)}{\sum \sum (Z_{ij} - \bar{Z_i})^2 / (N-k)}\] \[\text{Bartlett Test: } \chi^2 = \frac{(N-k) \ln(s_p^2) - \sum (n_i-1) \ln(s_i^2)}{1 + \frac{1}{3(k-1)}[\sum \frac{1}{n_i-1} - \frac{1}{N-k}]}\] \[\text{Brown-Forsythe Test (robust)}\]

🎯 Mean Square Error in Regression

Verwendung in linearen Modellen:

\[\text{Regression MSE: } MSE = \frac{\sum_{i=1}^n (y_i - \hat{y_i})^2}{n-p-1}\] \[\text{R-Quadrat: } R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{MSE \cdot df_{res}}{SS_{tot}}\] \[\text{Adjusted R²: } R_{adj}^2 = 1 - \frac{MSE}{s_y^2}\] \[\text{F-Test: } F = \frac{MS_{model}}{MSE}\]

📈 Robuste Alternativen

Alternativen bei Verletzung der Annahmen:

\[\text{Welch ANOVA (ungleiche Varianzen):}\] \[\text{Gewichtete Mittel: } w_i = \frac{n_i}{s_i^2}\] \[\text{Brown-Forsythe-Statistik}\] \[\text{Kruskal-Wallis Test (non-parametrisch)}\] \[\text{Robuste ANOVA (Trimmed Means)}\]

Computational Aspects

💻 Algorithmen und Implementierung

Effiziente Berechnung der gepoolten Varianz:

Python (SciPy):
from scipy import stats
import numpy as np
# ANOVA mit gepoolter Varianz:
f_stat, p_val = stats.f_oneway(group1, group2)
# Manuelle Berechnung:
def pooled_variance(groups):
  n_total = sum(len(g) for g in groups)
  k = len(groups)
  ss_within = sum((len(g)-1)*np.var(g, ddof=1) for g in groups)
  return ss_within / (n_total - k)

R:
# ANOVA mit gepoolter Varianz
aov_result <- aov(value ~ group, data=df)
# MSE extrahieren
mse <- sum(aov_result$residuals^2) / aov_result$df.residual

💡 Praktische Tipps

Hinweise für die korrekte Anwendung:

\[\text{1. Prüfe Varianzhomogenität vor Anwendung}\] \[\text{2. Bei Verletzung: Welch ANOVA verwenden}\] \[\text{3. Mindestens n ≥ 2 pro Gruppe erforderlich}\] \[\text{4. Größere Gruppen dominieren Ergebnis}\] \[\text{5. MSE ist Schätzer für gemeinsame Varianz}\]

💡 Vorteile der gepoolten Varianz:

Präzision: Bessere Schätzung durch Kombination aller Daten
Effizienz: Mehr Freiheitsgrade führen zu besserer Power
ANOVA-Grundlage: Essential für F-Tests und Varianzanalyse
MSE-Berechnung: Direkter Schätzer für Fehlervarianz

📊 Wann gepoolte Varianz verwenden:

F-Tests: Vergleich von Gruppenmittelwerten
ANOVA: Analyse der Varianz zwischen und innerhalb Gruppen
Regression: Mean Square Error für Modellbewertung
Experimentaldesign: Fehlervarianzenplanung

Lageparameter

Arithmetisches-Mittel, Durchschnitt
Geometrisches Mittel
Harmonisches Mittel
Kontraharmonisches Mittel
Log-Geometrisches Mittel
Median
Modus
Minimum und Maximum
Perzentile
Oberes Quartil
Unteres Quartil
Quantile

Streuungsmaße

Kurtosis
Skewness (Statistische Schiefe)
Standardabweichung
Gepoolte Standardabweichungl
Varianz
Gepoolte Varianz
Spannweite
Interquartilsabstand (IQR)

Korrelation & Zusammenhang

Kovarianz
Korrelationskoeffizient (Pearson, Spearman)
Rangkorrelation

Verteilungsfunktionen

Empirische inverse Verteilungsfunktion CDF
Empirische Verteilungsfunktion CDF
Five-Number Summary

Test & Schätzungen

T-Test (einfach)
Chi-Quadrat-Test
Wilcoxon-Test

Spezielle Verteilungen:

Normalverteilung
Binomialverteilung
Poisson-Verteilung
Exponentialverteilung

Risiko & Wahrscheinlichkeit

Geburtstagsparadoxon
Satz von Bayes