Empirische Verteilungsfunktion Rechner

Online Berechnung der kumulativen Verteilungsfunktion (CDF) von Datenreihen


📊 Empirische Verteilungsfunktion (Fn)

Kumulative Verteilungsfunktion für empirische Daten

💡 Alle reellen Zahlen erlaubt. Automatische Sortierung für CDF-Berechnung
F( ) = ?
Bestimmt den Anteil der Daten ≤ diesem Wert
Format des Ergebnisses
Unterstützte Dateiformate: .txt, .csv (eine Zahl pro Zeile oder kommagetrennt)
📊
Empirische Verteilungsfunktion: Bestimmt den Anteil der Daten, die kleiner oder gleich einem gegebenen Wert sind.
⚠️ Fehler:

Geben Sie Ihre Datenreihe und den Vergleichswert ein, dann klicken Sie auf Berechnen. Die empirische Verteilungsfunktion (CDF) bestimmt den Anteil der Daten, die kleiner oder gleich dem Vergleichswert sind, und ist fundamental für die Wahrscheinlichkeitsrechnung und statistische Analyse.


💡 Empirische Verteilungsfunktion

\(F_n(x) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}_{x_i \leq x}\)  |  Anteil der Daten ≤ x


Empirische Verteilungsfunktion und CDF verstehen

Die empirische Verteilungsfunktion (auch kumulative Verteilungsfunktion oder CDF genannt) ist ein fundamentales Konzept der beschreibenden Statistik. Sie ordnet jedem Wert x den Anteil der Beobachtungen zu, die kleiner oder gleich x sind. Diese Funktion liegt immer zwischen 0 und 1 und ist monoton nichtfallend. Sie ist zentral für die Wahrscheinlichkeitsrechnung, Hypothesentests und die Charakterisierung von Datenverteilungen.

📊 Grunddefinition

Empirische CDF:

Fn(x) = (Anzahl ≤ x) / n
Relative Häufigkeit der Werte ≤ x
📈 Eigenschaften
  • • Monoton nichtfallend
  • • Wertebereich: [0, 1]
  • • Rechtsseitig stetig
  • • Treppenfunktion
🎯 Anwendungen
  • • Wahrscheinlichkeitsrechnung
  • • Quantilbestimmung
  • • Verteilungsvergleich
  • • Hypothesentests
⚙️ Interpretation
  • • F(x) = 0: Alle Werte > x
  • • F(x) = 0.5: Median bei x
  • • F(x) = 1: Alle Werte ≤ x
  • • Sprünge bei Datenpunkten

Mathematische Grundlagen

📊 Formale Definition

Für eine Stichprobe x₁, x₂, ..., xₙ ist die empirische Verteilungsfunktion definiert als:

\[F_n(x) = \frac{1}{n}\sum_{i=1}^{n} \mathbf{1}_{x_i \leq x}\] \[\text{wobei } \mathbf{1}_{x_i \leq x} = \begin{cases} 1 & \text{falls } x_i \leq x \\ 0 & \text{sonst} \end{cases}\] \[\text{Eigenschaften:}\] \[0 \leq F_n(x) \leq 1 \text{ für alle } x\] \[F_n(x) \text{ ist monoton nichtfallend}\] \[\lim_{x \to -\infty} F_n(x) = 0, \quad \lim_{x \to +\infty} F_n(x) = 1\]

🔄 Beziehung zur theoretischen CDF

Glivenko-Cantelli Theorem und Konvergenz:

\[\text{Glivenko-Cantelli Theorem:}\] \[\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \xrightarrow{n \to \infty} 0 \text{ fast sicher}\] \[\text{wobei } F(x) \text{ die wahre Verteilungsfunktion ist}\] \[\text{Dvoretzky-Kiefer-Wolfowitz Ungleichung:}\] \[P\left(\sup_{x} |F_n(x) - F(x)| > \epsilon\right) \leq 2e^{-2n\epsilon^2}\] \[\text{Konfidenzband für die wahre CDF}\]

📊 Kolmogorov-Smirnov Tests

Verwendung der empirischen CDF für Verteilungstests:

\[\text{Ein-Stichproben KS-Test:}\] \[D_n = \sup_{x} |F_n(x) - F_0(x)|\] \[\text{wobei } F_0(x) \text{ die hypothetische Verteilung ist}\] \[\text{Zwei-Stichproben KS-Test:}\] \[D_{m,n} = \sup_{x} |F_m(x) - G_n(x)|\] \[\text{Kritischer Wert: } K_\alpha = \sqrt{-\frac{1}{2}\ln(\alpha/2)}\]

Praktische Berechnungsbeispiele

📝 Beispiel 1: Grundberechnung

Aufgabe: CDF für Datenreihe 2, 5, 4, 8, 3, 7, 9, 3, 1, 6 bei x = 5
Schritt 1: Daten sortieren
Schritt 2: Anzahl ≤ 5 bestimmen

\[\text{Originaldaten: } 2, 5, 4, 8, 3, 7, 9, 3, 1, 6\] \[\text{Sortiert: } 1, 2, 3, 3, 4, 5, 6, 7, 8, 9 \quad (n = 10)\] \[\text{Werte } \leq 5: \color{blue}{1, 2, 3, 3, 4, 5}, 6, 7, 8, 9\] \[\text{Anzahl } \leq 5: 6\] \[F_{10}(5) = \frac{6}{10} = 0.6 = 60\%\]

Interpretation: 60% der Daten sind ≤ 5

📝 Beispiel 2: CDF-Funktion konstruieren

Aufgabe: Vollständige CDF für kleine Datensätze
Daten: 1, 3, 3, 5
CDF-Tabelle:

\[\begin{array}{|c|c|c|} \hline x & \text{Anzahl } \leq x & F_4(x) \\ \hline x < 1 & 0 & 0.00 \\ 1 \leq x < 3 & 1 & 0.25 \\ 3 \leq x < 5 & 3 & 0.75 \\ x \geq 5 & 4 & 1.00 \\ \hline \end{array}\] \[\text{Sprünge bei: } x = 1 (+0.25), x = 3 (+0.50), x = 5 (+0.25)\]

Charakteristik: Treppenfunktion mit Sprüngen bei Datenpunkten

📝 Beispiel 3: Vergleich von Verteilungen

Aufgabe: Zwei Datensätze mit CDF vergleichen
Daten A: 1, 2, 3, 4, 5 (gleichmäßig)
Daten B: 2, 3, 3, 3, 4 (konzentriert)

\[\text{Bei } x = 3:\] \[F_A(3) = \frac{3}{5} = 0.60 \text{ (60\% der Daten A)}\] \[F_B(3) = \frac{4}{5} = 0.80 \text{ (80\% der Daten B)}\] \[\text{KS-Statistik: } D = \max_x |F_A(x) - F_B(x)| = 0.20\] \[\text{B ist "links-verschoben" gegenüber A}\]

Schlussfolgerung: Daten B haben niedrigere Werte als Daten A

Anwendungen in verschiedenen Bereichen

📈 Finanz- & Risikomanagement
  • • Value at Risk (VaR)
  • • Stress Testing
  • • Backtesting von Modellen
  • • Performance-Analyse
📊 Qualitätskontrolle
  • • Prozessüberwachung
  • • Ausschussraten
  • • Toleranzgrenzen
  • • Capability Studies
🏥 Medizin & Biologie
  • • Referenzbereiche
  • • Überlebensanalyse
  • • Bioäquivalenz-Studien
  • • Dosisfindung
🎓 Bildung & Psychologie
  • • Testnormierung
  • • Leistungsvergleiche
  • • Percentile Ranks
  • • Bewertungsskalen

Computational Aspects

💻 Algorithmen und Implementierung

Effiziente Berechnung der empirischen CDF:

Python (NumPy/SciPy):
import numpy as np
from scipy import stats
# Empirische CDF:
def empirical_cdf(data, x):
  return np.mean(data <= x)
# Mit SciPy:
ecdf = stats.ecdf(data)
cdf_value = ecdf.cdf.evaluate(x)

R:
# Empirische CDF
ecdf_func <- ecdf(data)
cdf_value <- ecdf_func(x)
# Plot der ECDF
plot(ecdf_func, main="Empirische CDF")

Manual Implementation:
def empirical_cdf_function(data):
  sorted_data = np.sort(data)
  n = len(data)
  def cdf(x):
    return np.sum(sorted_data <= x) / n
  return cdf

💡 Praktische Tipps

Hinweise für die korrekte Anwendung:

\[\text{1. Große Stichproben → glattere CDF-Approximation}\] \[\text{2. Treppenfunktion mit Sprüngen bei Datenpunkten}\] \[\text{3. Duplikate führen zu größeren Sprüngen}\] \[\text{4. Interpolation zwischen Datenpunkten möglich}\] \[\text{5. Robuste Alternative zu parametrischen Verteilungen}\]
💡 Wichtige Eigenschaften der empirischen Verteilungsfunktion:
  • Universalität: Funktioniert für jede Art von Daten
  • Konvergenz: Konvergiert gegen die wahre Verteilungsfunktion
  • Monotonie: Immer monoton nichtfallend
  • Interpretation: Direkte Wahrscheinlichkeitsaussagen möglich
📊 Wann empirische Verteilungsfunktion verwenden:
  • Verteilungsanalyse: Charakterisierung von Datenverteilungen ohne Annahmen
  • Wahrscheinlichkeitsbestimmung: P(X ≤ x) für beliebige x
  • Verteilungsvergleiche: Kolmogorov-Smirnov Tests
  • Quantilschätzung: Umkehrung der CDF für Perzentile