Empirische Verteilungsfunktion Rechner
Online Berechnung der kumulativen Verteilungsfunktion (CDF) von Datenreihen
Geben Sie Ihre Datenreihe und den Vergleichswert ein, dann klicken Sie auf Berechnen. Die empirische Verteilungsfunktion (CDF) bestimmt den Anteil der Daten, die kleiner oder gleich dem Vergleichswert sind, und ist fundamental für die Wahrscheinlichkeitsrechnung und statistische Analyse.
💡 Empirische Verteilungsfunktion
\(F_n(x) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}_{x_i \leq x}\) | Anteil der Daten ≤ x
Empirische Verteilungsfunktion und CDF verstehen
Die empirische Verteilungsfunktion (auch kumulative Verteilungsfunktion oder CDF genannt) ist ein fundamentales Konzept der beschreibenden Statistik. Sie ordnet jedem Wert x den Anteil der Beobachtungen zu, die kleiner oder gleich x sind. Diese Funktion liegt immer zwischen 0 und 1 und ist monoton nichtfallend. Sie ist zentral für die Wahrscheinlichkeitsrechnung, Hypothesentests und die Charakterisierung von Datenverteilungen.
📊 Grunddefinition
Empirische CDF:
📈 Eigenschaften
- • Monoton nichtfallend
- • Wertebereich: [0, 1]
- • Rechtsseitig stetig
- • Treppenfunktion
🎯 Anwendungen
- • Wahrscheinlichkeitsrechnung
- • Quantilbestimmung
- • Verteilungsvergleich
- • Hypothesentests
⚙️ Interpretation
- • F(x) = 0: Alle Werte > x
- • F(x) = 0.5: Median bei x
- • F(x) = 1: Alle Werte ≤ x
- • Sprünge bei Datenpunkten
Mathematische Grundlagen
📊 Formale Definition
Für eine Stichprobe x₁, x₂, ..., xₙ ist die empirische Verteilungsfunktion definiert als:
\[F_n(x) = \frac{1}{n}\sum_{i=1}^{n} \mathbf{1}_{x_i \leq x}\] \[\text{wobei } \mathbf{1}_{x_i \leq x} = \begin{cases} 1 & \text{falls } x_i \leq x \\ 0 & \text{sonst} \end{cases}\] \[\text{Eigenschaften:}\] \[0 \leq F_n(x) \leq 1 \text{ für alle } x\] \[F_n(x) \text{ ist monoton nichtfallend}\] \[\lim_{x \to -\infty} F_n(x) = 0, \quad \lim_{x \to +\infty} F_n(x) = 1\]
🔄 Beziehung zur theoretischen CDF
Glivenko-Cantelli Theorem und Konvergenz:
\[\text{Glivenko-Cantelli Theorem:}\] \[\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \xrightarrow{n \to \infty} 0 \text{ fast sicher}\] \[\text{wobei } F(x) \text{ die wahre Verteilungsfunktion ist}\] \[\text{Dvoretzky-Kiefer-Wolfowitz Ungleichung:}\] \[P\left(\sup_{x} |F_n(x) - F(x)| > \epsilon\right) \leq 2e^{-2n\epsilon^2}\] \[\text{Konfidenzband für die wahre CDF}\]
📊 Kolmogorov-Smirnov Tests
Verwendung der empirischen CDF für Verteilungstests:
\[\text{Ein-Stichproben KS-Test:}\] \[D_n = \sup_{x} |F_n(x) - F_0(x)|\] \[\text{wobei } F_0(x) \text{ die hypothetische Verteilung ist}\] \[\text{Zwei-Stichproben KS-Test:}\] \[D_{m,n} = \sup_{x} |F_m(x) - G_n(x)|\] \[\text{Kritischer Wert: } K_\alpha = \sqrt{-\frac{1}{2}\ln(\alpha/2)}\]
Praktische Berechnungsbeispiele
📝 Beispiel 1: Grundberechnung
Aufgabe: CDF für Datenreihe 2, 5, 4, 8, 3, 7, 9, 3, 1, 6 bei x = 5
Schritt 1: Daten sortieren
Schritt 2: Anzahl ≤ 5 bestimmen
\[\text{Originaldaten: } 2, 5, 4, 8, 3, 7, 9, 3, 1, 6\] \[\text{Sortiert: } 1, 2, 3, 3, 4, 5, 6, 7, 8, 9 \quad (n = 10)\] \[\text{Werte } \leq 5: \color{blue}{1, 2, 3, 3, 4, 5}, 6, 7, 8, 9\] \[\text{Anzahl } \leq 5: 6\] \[F_{10}(5) = \frac{6}{10} = 0.6 = 60\%\]
Interpretation: 60% der Daten sind ≤ 5
📝 Beispiel 2: CDF-Funktion konstruieren
Aufgabe: Vollständige CDF für kleine Datensätze
Daten: 1, 3, 3, 5
CDF-Tabelle:
\[\begin{array}{|c|c|c|} \hline x & \text{Anzahl } \leq x & F_4(x) \\ \hline x < 1 & 0 & 0.00 \\ 1 \leq x < 3 & 1 & 0.25 \\ 3 \leq x < 5 & 3 & 0.75 \\ x \geq 5 & 4 & 1.00 \\ \hline \end{array}\] \[\text{Sprünge bei: } x = 1 (+0.25), x = 3 (+0.50), x = 5 (+0.25)\]
Charakteristik: Treppenfunktion mit Sprüngen bei Datenpunkten
📝 Beispiel 3: Vergleich von Verteilungen
Aufgabe: Zwei Datensätze mit CDF vergleichen
Daten A: 1, 2, 3, 4, 5 (gleichmäßig)
Daten B: 2, 3, 3, 3, 4 (konzentriert)
\[\text{Bei } x = 3:\] \[F_A(3) = \frac{3}{5} = 0.60 \text{ (60\% der Daten A)}\] \[F_B(3) = \frac{4}{5} = 0.80 \text{ (80\% der Daten B)}\] \[\text{KS-Statistik: } D = \max_x |F_A(x) - F_B(x)| = 0.20\] \[\text{B ist "links-verschoben" gegenüber A}\]
Schlussfolgerung: Daten B haben niedrigere Werte als Daten A
Anwendungen in verschiedenen Bereichen
📈 Finanz- & Risikomanagement
- • Value at Risk (VaR)
- • Stress Testing
- • Backtesting von Modellen
- • Performance-Analyse
📊 Qualitätskontrolle
- • Prozessüberwachung
- • Ausschussraten
- • Toleranzgrenzen
- • Capability Studies
🏥 Medizin & Biologie
- • Referenzbereiche
- • Überlebensanalyse
- • Bioäquivalenz-Studien
- • Dosisfindung
🎓 Bildung & Psychologie
- • Testnormierung
- • Leistungsvergleiche
- • Percentile Ranks
- • Bewertungsskalen
Computational Aspects
💻 Algorithmen und Implementierung
Effiziente Berechnung der empirischen CDF:
Python (NumPy/SciPy):
import numpy as np
from scipy import stats
# Empirische CDF:
def empirical_cdf(data, x):
return np.mean(data <= x)
# Mit SciPy:
ecdf = stats.ecdf(data)
cdf_value = ecdf.cdf.evaluate(x)
R:
# Empirische CDF
ecdf_func <- ecdf(data)
cdf_value <- ecdf_func(x)
# Plot der ECDF
plot(ecdf_func, main="Empirische CDF")
Manual Implementation:
def empirical_cdf_function(data):
sorted_data = np.sort(data)
n = len(data)
def cdf(x):
return np.sum(sorted_data <= x) / n
return cdf
💡 Praktische Tipps
Hinweise für die korrekte Anwendung:
\[\text{1. Große Stichproben → glattere CDF-Approximation}\] \[\text{2. Treppenfunktion mit Sprüngen bei Datenpunkten}\] \[\text{3. Duplikate führen zu größeren Sprüngen}\] \[\text{4. Interpolation zwischen Datenpunkten möglich}\] \[\text{5. Robuste Alternative zu parametrischen Verteilungen}\]
💡 Wichtige Eigenschaften der empirischen Verteilungsfunktion:
- Universalität: Funktioniert für jede Art von Daten
- Konvergenz: Konvergiert gegen die wahre Verteilungsfunktion
- Monotonie: Immer monoton nichtfallend
- Interpretation: Direkte Wahrscheinlichkeitsaussagen möglich
📊 Wann empirische Verteilungsfunktion verwenden:
- Verteilungsanalyse: Charakterisierung von Datenverteilungen ohne Annahmen
- Wahrscheinlichkeitsbestimmung: P(X ≤ x) für beliebige x
- Verteilungsvergleiche: Kolmogorov-Smirnov Tests
- Quantilschätzung: Umkehrung der CDF für Perzentile
Arithmetisches-Mittel, DurchschnittStreuungsmaße
Geometrisches Mittel
Harmonisches Mittel
Kontraharmonisches Mittel
Log-Geometrisches Mittel
Median
Modus
Minimum und Maximum
Perzentile
Oberes Quartil
Unteres Quartil
Quantile
KurtosisKorrelation & Zusammenhang
Skewness (Statistische Schiefe)
Standardabweichung
Gepoolte Standardabweichungl
Varianz
Gepoolte Varianz
Spannweite
Interquartilsabstand (IQR)
KovarianzVerteilungsfunktionen
Korrelationskoeffizient (Pearson, Spearman)
Rangkorrelation
Empirische inverse Verteilungsfunktion CDFTest & Schätzungen
Empirische Verteilungsfunktion CDF
Five-Number Summary
T-Test (einfach)Spezielle Verteilungen:
Chi-Quadrat-Test
Wilcoxon-Test
NormalverteilungRisiko & Wahrscheinlichkeit
Binomialverteilung
Poisson-Verteilung
Exponentialverteilung
Geburtstagsparadoxon
Satz von Bayes