Gepoolte Standardabweichung Rechner
Online Berechnung der kombinierten Streuung mehrerer Gruppen
Geben Sie Ihre beiden Datengruppen in die Textfelder ein und klicken Sie auf Berechnen. Die gepoolte Standardabweichung kombiniert die Streuung beider Gruppen gewichtet nach ihrer Stichprobengröße und ist fundamental für t-Tests und ANOVA.
💡 Gepoolte Standardabweichung Definition
\(s_p = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}}\) | Gewichtete kombinierte Streuung
Gepoolte Standardabweichung verstehen
Die gepoolte Standardabweichung (pooled standard deviation) ist ein gewichteter Mittelwert der Standardabweichungen aus zwei oder mehr unabhängigen Stichproben. Sie wird verwendet, um eine gemeinsame Streuung zu schätzen, wenn man annimmt, dass alle Gruppen die gleiche Populationsvarianz haben. Dieses Konzept ist fundamental für t-Tests für unabhängige Stichproben, ANOVA und andere statistische Verfahren.
📊 Grundprinzip
Gewichtete Kombination:
📈 Annahmen
- • Gleiche Populationsvarianz (σ₁² = σ₂²)
- • Unabhängige Stichproben
- • Normalverteilte Daten
- • Homoskedastizität
🎯 Anwendungen
- • t-Test für unabhängige Stichproben
- • Einfaktorielle ANOVA
- • Konfidenzintervalle
- • Effektstärke (Cohen's d)
⚙️ Vorteile
- • Präzisere Schätzung
- • Höhere statistische Power
- • Berücksichtigt Gruppengrößen
- • Reduziert Stichprobenfehler
Mathematische Grundlagen
📊 Formale Definition für zwei Gruppen
Für zwei Stichproben mit Größen n₁, n₂ und Standardabweichungen s₁, s₂:
\[\text{Gepoolte Varianz: } s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}\] \[\text{Gepoolte Standardabweichung: } s_p = \sqrt{s_p^2}\] \[\text{Freiheitsgrade: } df = n_1 + n_2 - 2\] \[\text{Standardfehler für t-Test: } SE = s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\]
🔄 Verallgemeinerung für k Gruppen
Erweiterung auf mehrere Gruppen (ANOVA):
\[\text{Gepoolte Varianz: } s_p^2 = \frac{\sum_{i=1}^k (n_i-1)s_i^2}{\sum_{i=1}^k (n_i-1)}\] \[\text{Äquivalent: } s_p^2 = \frac{SS_{within}}{df_{within}}\] \[\text{wobei } SS_{within} = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij} - \bar{x_i})^2\] \[\text{und } df_{within} = \sum_{i=1}^k (n_i - 1) = N - k\]
📊 Gewichtung und Effizienz
Warum gewichtete Kombination effizienter ist:
\[\text{Gewicht der i-ten Gruppe: } w_i = n_i - 1\] \[\text{Anteil: } \frac{w_i}{\sum w_j} = \frac{n_i - 1}{\sum (n_j - 1)}\] \[\text{Effizienzgewinn: Präzisere Schätzung der gemeinsamen Varianz}\] \[\text{Var}(s_p^2) < \text{Var}(s_1^2), \text{Var}(s_2^2) \text{ (unter Homoskedastizität)}\]
Praktische Berechnungsbeispiele
📝 Beispiel 1: Grundberechnung
Aufgabe: Berechne gepoolte Standardabweichung
Daten: Gruppe 1: 3, 5, 7, 8 | Gruppe 2: 10, 16, 22, 27
Berechnung:
\[\text{Schritt 1: Gruppenstatistiken}\] \[\bar{x_1} = 5.75, \quad s_1 = 2.217, \quad n_1 = 4\] \[\bar{x_2} = 18.75, \quad s_2 = 7.366, \quad n_2 = 4\] \[\text{Schritt 2: Gepoolte Varianz}\] \[s_p^2 = \frac{(4-1) \cdot 2.217^2 + (4-1) \cdot 7.366^2}{4+4-2}\] \[= \frac{3 \cdot 4.916 + 3 \cdot 54.25}{6} = \frac{177.498}{6} = 29.583\] \[\text{Schritt 3: Gepoolte Standardabweichung}\] \[s_p = \sqrt{29.583} = 5.44\]
Interpretation: Gemeinsame Streuung beider Gruppen beträgt 5.44
📝 Beispiel 2: t-Test Anwendung
Aufgabe: Teste Unterschied zwischen zwei Gruppen
Daten: Kontrollgruppe vs. Behandlungsgruppe
Analyse:
\[\text{Mit } s_p = 5.44 \text{ aus Beispiel 1:}\] \[\text{Standardfehler: } SE = s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} = 5.44 \sqrt{\frac{1}{4} + \frac{1}{4}} = 3.85\] \[\text{Mittelwertsdifferenz: } \bar{x_1} - \bar{x_2} = 5.75 - 18.75 = -13.0\] \[\text{t-Statistik: } t = \frac{-13.0}{3.85} = -3.38\] \[\text{Freiheitsgrade: } df = 4 + 4 - 2 = 6\]
Fazit: Signifikanter Unterschied zwischen den Gruppen (|t| > t-kritisch)
📝 Beispiel 3: Ungleiche Gruppengrößen
Aufgabe: Gepoolte Standardabweichung bei unterschiedlichen n
Daten: Gruppe 1 (n=6): 85, 90, 78, 92, 88, 76 | Gruppe 2 (n=4): 82, 87, 85, 89
Analyse:
\[\text{Gruppe 1: } n_1 = 6, \bar{x_1} = 84.83, s_1 = 6.08\] \[\text{Gruppe 2: } n_2 = 4, \bar{x_2} = 85.75, s_2 = 2.87\] \[\text{Gewichte: } w_1 = 5, w_2 = 3\] \[s_p^2 = \frac{5 \cdot 36.97 + 3 \cdot 8.24}{5 + 3} = \frac{209.57}{8} = 26.20\] \[s_p = 5.12\]
Beobachtung: Größere Gruppe hat stärkeren Einfluss auf das Ergebnis
Anwendungen in verschiedenen Bereichen
🔬 Experimentelle Forschung
- • Behandlung vs. Kontrolle
- • Klinische Studien
- • A/B Testing
- • Laborexperimente
📊 Qualitätskontrolle
- • Batch-Vergleiche
- • Prozessvergleiche
- • Maschinenvergleiche
- • Qualitätsbewertung
🏥 Medizin & Gesundheit
- • Medikamentenstudien
- • Therapievergleiche
- • Biomarker-Analysen
- • Epidemiologische Studien
🎓 Bildung & Psychologie
- • Lernmethodenvergleiche
- • Testvergleiche
- • Gruppeninterventionen
- • Verhaltensforschung
Erweiterte Konzepte
📊 Voraussetzungen und Tests
Prüfung der Annahmen für gepoolte Standardabweichung:
\[\text{Homoskedastizität (Varianzhomogenität):}\] \[\text{Levene Test: } F = \frac{\sum n_i(|\bar{Z_i}| - |\bar{Z}|)^2 / (k-1)}{\sum \sum (|Z_{ij}| - |\bar{Z_i}|)^2 / (N-k)}\] \[\text{Bartlett Test: } \chi^2 = \frac{(N-k) \ln(s_p^2) - \sum (n_i-1) \ln(s_i^2)}{1 + \frac{1}{3(k-1)}[\sum \frac{1}{n_i-1} - \frac{1}{N-k}]}\] \[\text{Faustregel: } \frac{s_{max}^2}{s_{min}^2} < 4\]
🎯 Effektstärke mit gepoolter Standardabweichung
Cohen's d und andere Effektstärkemaße:
\[\text{Cohen's d: } d = \frac{\bar{x_1} - \bar{x_2}}{s_p}\] \[\text{Interpretation:}\] \[d = 0.2 \text{ (klein)}, \quad d = 0.5 \text{ (mittel)}, \quad d = 0.8 \text{ (groß)}\] \[\text{Hedge's g (bias-korrigiert): } g = d \cdot \left(1 - \frac{3}{4(n_1 + n_2) - 9}\right)\] \[\text{Glass's Δ: } \Delta = \frac{\bar{x_1} - \bar{x_2}}{s_{Kontrolle}}\]
📈 Robuste Alternativen
Alternativen bei Verletzung der Annahmen:
\[\text{Welch t-Test (ungleiche Varianzen):}\] \[t = \frac{\bar{x_1} - \bar{x_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\] \[\text{Satterthwaite Freiheitsgrade: } df = \frac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}{\frac{s_1^4}{n_1^2(n_1-1)} + \frac{s_2^4}{n_2^2(n_2-1)}}\] \[\text{Brown-Forsythe Test, Mann-Whitney U Test}\]
Computational Aspects
💻 Algorithmen und Implementierung
Effiziente Berechnung der gepoolten Standardabweichung:
Python (SciPy):
from scipy import stats
import numpy as np
# t-Test mit gepoolter Standardabweichung:
t_stat, p_val = stats.ttest_ind(group1, group2, equal_var=True)
# Manuelle Berechnung:
pooled_std = np.sqrt(((n1-1)*s1**2 + (n2-1)*s2**2) / (n1+n2-2))
R:
# t-Test mit gepoolter Varianz
t.test(group1, group2, var.equal=TRUE)
# Manuelle Berechnung
pooled.sd <- sqrt(((n1-1)*var(group1) + (n2-1)*var(group2))/(n1+n2-2))
💡 Praktische Tipps
Hinweise für die korrekte Anwendung:
\[\text{1. Prüfe Varianzhomogenität vor Anwendung}\] \[\text{2. Bei Verletzung: Welch t-Test verwenden}\] \[\text{3. Mindestens n ≥ 2 pro Gruppe erforderlich}\] \[\text{4. Größere Gruppen haben mehr Einfluss}\] \[\text{5. Effektstärke zusammen mit p-Wert berichten}\]
💡 Vorteile der gepoolten Standardabweichung:
- Präzision: Bessere Schätzung durch Kombination aller Daten
- Power: Höhere statistische Power bei Tests
- Effizienz: Berücksichtigt Gruppengrößen angemessen
- Standardverfahren: Grundlage für viele statistische Tests
📊 Wann gepoolte Standardabweichung verwenden:
- t-Tests: Vergleich zweier unabhängiger Gruppen mit gleicher Varianz
- ANOVA: Vergleich mehrerer Gruppen
- Effektstärke: Berechnung von Cohen's d
- Konfidenzintervalle: Präzisere Intervallschätzungen
Arithmetisches-Mittel, DurchschnittStreuungsmaße
Geometrisches Mittel
Harmonisches Mittel
Kontraharmonisches Mittel
Log-Geometrisches Mittel
Median
Modus
Minimum und Maximum
Perzentile
Oberes Quartil
Unteres Quartil
Quantile
KurtosisKorrelation & Zusammenhang
Skewness (Statistische Schiefe)
Standardabweichung
Gepoolte Standardabweichungl
Varianz
Gepoolte Varianz
Spannweite
Interquartilsabstand (IQR)
KovarianzVerteilungsfunktionen
Korrelationskoeffizient (Pearson, Spearman)
Rangkorrelation
Empirische inverse Verteilungsfunktion CDFTest & Schätzungen
Empirische Verteilungsfunktion CDF
Five-Number Summary
T-Test (einfach)Spezielle Verteilungen:
Chi-Quadrat-Test
Wilcoxon-Test
NormalverteilungRisiko & Wahrscheinlichkeit
Binomialverteilung
Poisson-Verteilung
Exponentialverteilung
Geburtstagsparadoxon
Satz von Bayes