Empirische Verteilungsfunktion Rechner

Online Berechnung der kumulativen Verteilungsfunktion (CDF) von Datenreihen

📊 Empirische Verteilungsfunktion (F_n)

Kumulative Verteilungsfunktion für empirische Daten

📈 Datenreihe eingeben 💡 Alle reellen Zahlen erlaubt. Automatische Sortierung für CDF-Berechnung

🎯 Dezimalstellen

📊 Vergleichswert (x)

F( ) = ?

Bestimmt den Anteil der Daten ≤ diesem Wert

⚙️ Darstellung Format des Ergebnisses

📝 Häufige Vergleichswerte

📊 Beispieldaten

📁 Datei hochladen (optional)

Unterstützte Dateiformate: .txt, .csv (eine Zahl pro Zeile oder kommagetrennt)

📊

Empirische Verteilungsfunktion: Bestimmt den Anteil der Daten, die kleiner oder gleich einem gegebenen Wert sind.

📊 CDF-Wert

F_n(x) = Wahrscheinlichkeit

📊 Verteilungsanalyse

📏 Datenpunkte

Anzahl Werte

≤ Vergleichswert

Anzahl ≤ x

📈 Perzentil

Percentile Rank

📊 Interpretation

Bedeutung

📋 Sortierte Datenreihe mit Markierung:

-

Geben Sie Ihre Datenreihe und den Vergleichswert ein, dann klicken Sie auf Berechnen. Die empirische Verteilungsfunktion (CDF) bestimmt den Anteil der Daten, die kleiner oder gleich dem Vergleichswert sind, und ist fundamental für die Wahrscheinlichkeitsrechnung und statistische Analyse.

💡 Empirische Verteilungsfunktion

\(F_n(x) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}_{x_i \leq x}\) | Anteil der Daten ≤ x

Empirische Verteilungsfunktion und CDF verstehen

Die empirische Verteilungsfunktion (auch kumulative Verteilungsfunktion oder CDF genannt) ist ein fundamentales Konzept der beschreibenden Statistik. Sie ordnet jedem Wert x den Anteil der Beobachtungen zu, die kleiner oder gleich x sind. Diese Funktion liegt immer zwischen 0 und 1 und ist monoton nichtfallend. Sie ist zentral für die Wahrscheinlichkeitsrechnung, Hypothesentests und die Charakterisierung von Datenverteilungen.

📊 Grunddefinition

Empirische CDF:

F_n(x) = (Anzahl ≤ x) / n

Relative Häufigkeit der Werte ≤ x

📈 Eigenschaften

• Monoton nichtfallend
• Wertebereich: [0, 1]
• Rechtsseitig stetig
• Treppenfunktion

🎯 Anwendungen

• Wahrscheinlichkeitsrechnung
• Quantilbestimmung
• Verteilungsvergleich
• Hypothesentests

⚙️ Interpretation

• F(x) = 0: Alle Werte > x
• F(x) = 0.5: Median bei x
• F(x) = 1: Alle Werte ≤ x
• Sprünge bei Datenpunkten

Mathematische Grundlagen

📊 Formale Definition

Für eine Stichprobe x₁, x₂, ..., xₙ ist die empirische Verteilungsfunktion definiert als:

\[F_n(x) = \frac{1}{n}\sum_{i=1}^{n} \mathbf{1}_{x_i \leq x}\] \[\text{wobei } \mathbf{1}_{x_i \leq x} = \begin{cases} 1 & \text{falls } x_i \leq x \\ 0 & \text{sonst} \end{cases}\] \[\text{Eigenschaften:}\] \[0 \leq F_n(x) \leq 1 \text{ für alle } x\] \[F_n(x) \text{ ist monoton nichtfallend}\] \[\lim_{x \to -\infty} F_n(x) = 0, \quad \lim_{x \to +\infty} F_n(x) = 1\]

🔄 Beziehung zur theoretischen CDF

Glivenko-Cantelli Theorem und Konvergenz:

\[\text{Glivenko-Cantelli Theorem:}\] \[\sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \xrightarrow{n \to \infty} 0 \text{ fast sicher}\] \[\text{wobei } F(x) \text{ die wahre Verteilungsfunktion ist}\] \[\text{Dvoretzky-Kiefer-Wolfowitz Ungleichung:}\] \[P\left(\sup_{x} |F_n(x) - F(x)| > \epsilon\right) \leq 2e^{-2n\epsilon^2}\] \[\text{Konfidenzband für die wahre CDF}\]

📊 Kolmogorov-Smirnov Tests

Verwendung der empirischen CDF für Verteilungstests:

\[\text{Ein-Stichproben KS-Test:}\] \[D_n = \sup_{x} |F_n(x) - F_0(x)|\] \[\text{wobei } F_0(x) \text{ die hypothetische Verteilung ist}\] \[\text{Zwei-Stichproben KS-Test:}\] \[D_{m,n} = \sup_{x} |F_m(x) - G_n(x)|\] \[\text{Kritischer Wert: } K_\alpha = \sqrt{-\frac{1}{2}\ln(\alpha/2)}\]

Praktische Berechnungsbeispiele

📝 Beispiel 1: Grundberechnung

Aufgabe: CDF für Datenreihe 2, 5, 4, 8, 3, 7, 9, 3, 1, 6 bei x = 5
Schritt 1: Daten sortieren
Schritt 2: Anzahl ≤ 5 bestimmen

\[\text{Originaldaten: } 2, 5, 4, 8, 3, 7, 9, 3, 1, 6\] \[\text{Sortiert: } 1, 2, 3, 3, 4, 5, 6, 7, 8, 9 \quad (n = 10)\] \[\text{Werte } \leq 5: \color{blue}{1, 2, 3, 3, 4, 5}, 6, 7, 8, 9\] \[\text{Anzahl } \leq 5: 6\] \[F_{10}(5) = \frac{6}{10} = 0.6 = 60\%\]

Interpretation: 60% der Daten sind ≤ 5

📝 Beispiel 2: CDF-Funktion konstruieren

Aufgabe: Vollständige CDF für kleine Datensätze
Daten: 1, 3, 3, 5
CDF-Tabelle:

\[\begin{array}{|c|c|c|} \hline x & \text{Anzahl } \leq x & F_4(x) \\ \hline x < 1 & 0 & 0.00 \\ 1 \leq x < 3 & 1 & 0.25 \\ 3 \leq x < 5 & 3 & 0.75 \\ x \geq 5 & 4 & 1.00 \\ \hline \end{array}\] \[\text{Sprünge bei: } x = 1 (+0.25), x = 3 (+0.50), x = 5 (+0.25)\]

Charakteristik: Treppenfunktion mit Sprüngen bei Datenpunkten

📝 Beispiel 3: Vergleich von Verteilungen

Aufgabe: Zwei Datensätze mit CDF vergleichen
Daten A: 1, 2, 3, 4, 5 (gleichmäßig)
Daten B: 2, 3, 3, 3, 4 (konzentriert)

\[\text{Bei } x = 3:\] \[F_A(3) = \frac{3}{5} = 0.60 \text{ (60\% der Daten A)}\] \[F_B(3) = \frac{4}{5} = 0.80 \text{ (80\% der Daten B)}\] \[\text{KS-Statistik: } D = \max_x |F_A(x) - F_B(x)| = 0.20\] \[\text{B ist "links-verschoben" gegenüber A}\]

Schlussfolgerung: Daten B haben niedrigere Werte als Daten A

Anwendungen in verschiedenen Bereichen

📈 Finanz- & Risikomanagement

• Value at Risk (VaR)
• Stress Testing
• Backtesting von Modellen
• Performance-Analyse

📊 Qualitätskontrolle

• Prozessüberwachung
• Ausschussraten
• Toleranzgrenzen
• Capability Studies

🏥 Medizin & Biologie

• Referenzbereiche
• Überlebensanalyse
• Bioäquivalenz-Studien
• Dosisfindung

🎓 Bildung & Psychologie

• Testnormierung
• Leistungsvergleiche
• Percentile Ranks
• Bewertungsskalen

Computational Aspects

💻 Algorithmen und Implementierung

Effiziente Berechnung der empirischen CDF:

Python (NumPy/SciPy):
import numpy as np
from scipy import stats
# Empirische CDF:
def empirical_cdf(data, x):
  return np.mean(data <= x)
# Mit SciPy:
ecdf = stats.ecdf(data)
cdf_value = ecdf.cdf.evaluate(x)

R:
# Empirische CDF
ecdf_func <- ecdf(data)
cdf_value <- ecdf_func(x)
# Plot der ECDF
plot(ecdf_func, main="Empirische CDF")

Manual Implementation:
def empirical_cdf_function(data):
  sorted_data = np.sort(data)
  n = len(data)
  def cdf(x):
    return np.sum(sorted_data <= x) / n
  return cdf

💡 Praktische Tipps

Hinweise für die korrekte Anwendung:

\[\text{1. Große Stichproben → glattere CDF-Approximation}\] \[\text{2. Treppenfunktion mit Sprüngen bei Datenpunkten}\] \[\text{3. Duplikate führen zu größeren Sprüngen}\] \[\text{4. Interpolation zwischen Datenpunkten möglich}\] \[\text{5. Robuste Alternative zu parametrischen Verteilungen}\]

💡 Wichtige Eigenschaften der empirischen Verteilungsfunktion:

Universalität: Funktioniert für jede Art von Daten
Konvergenz: Konvergiert gegen die wahre Verteilungsfunktion
Monotonie: Immer monoton nichtfallend
Interpretation: Direkte Wahrscheinlichkeitsaussagen möglich

📊 Wann empirische Verteilungsfunktion verwenden:

Verteilungsanalyse: Charakterisierung von Datenverteilungen ohne Annahmen
Wahrscheinlichkeitsbestimmung: P(X ≤ x) für beliebige x
Verteilungsvergleiche: Kolmogorov-Smirnov Tests
Quantilschätzung: Umkehrung der CDF für Perzentile

Lageparameter

Arithmetisches-Mittel, Durchschnitt
Geometrisches Mittel
Harmonisches Mittel
Kontraharmonisches Mittel
Log-Geometrisches Mittel
Median
Modus
Minimum und Maximum
Perzentile
Oberes Quartil
Unteres Quartil
Quantile

Streuungsmaße

Kurtosis
Skewness (Statistische Schiefe)
Standardabweichung
Gepoolte Standardabweichungl
Varianz
Gepoolte Varianz
Spannweite
Interquartilsabstand (IQR)

Korrelation & Zusammenhang

Kovarianz
Korrelationskoeffizient (Pearson, Spearman)
Rangkorrelation

Verteilungsfunktionen

Empirische inverse Verteilungsfunktion CDF
Empirische Verteilungsfunktion CDF
Five-Number Summary

Test & Schätzungen

T-Test (einfach)
Chi-Quadrat-Test
Wilcoxon-Test

Spezielle Verteilungen:

Normalverteilung
Binomialverteilung
Poisson-Verteilung
Exponentialverteilung

Risiko & Wahrscheinlichkeit

Geburtstagsparadoxon
Satz von Bayes