From 97931f8f854d0b18dc5c0cb3cb2fecae922f81a2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Andreas=20M=C3=BCller?= Date: Sun, 13 Mar 2022 11:05:56 +0100 Subject: add beta distribution graphs --- buch/papers/dreieck/teil1.tex | 273 +++++++++++++++++++++++++++++++++--------- 1 file changed, 216 insertions(+), 57 deletions(-) (limited to 'buch/papers/dreieck/teil1.tex') diff --git a/buch/papers/dreieck/teil1.tex b/buch/papers/dreieck/teil1.tex index 255c5d0..5e7090b 100644 --- a/buch/papers/dreieck/teil1.tex +++ b/buch/papers/dreieck/teil1.tex @@ -12,6 +12,8 @@ Zufallsvariablen, die wie $X$ verteilt sind. Ziel ist, die Verteilungsfunktion und die Wahrscheinlichkeitsdichte des grössten, zweitgrössten, $k$-t-grössten Wertes in der Stichprobe zu finden. +Wir schreiben $[n]=\{1,\dots,n\}$ für die Menge der natürlichen +Zahlen von zwischen $1$ und $n$. \subsection{Verteilung von $\operatorname{max}(X_1,\dots,X_n)$ und $\operatorname{min}(X_1,\dots,X_n)$ @@ -176,86 +178,243 @@ X_{n:n} &= \operatorname{max}(X_1,\dots,X_n). Um den Wert der Verteilungsfunktion von $X_{k:n}$ zu berechnen, müssen wir die Wahrscheinlichkeit bestimmen, dass $k$ der $n$ Werte $X_i$ $x$ nicht übersteigen. -Es muss also eine Partition von $[n]=\{1,\dots,n\}$ in eine -$k$-elementige $I=\{i_1,\dots,i_k\}$ Teilmenge und ihre -$(n-k)$-elementige Komplementmenge $[n]\setminus I$ geben -derart, dass die $X_{i} \le x$ sind für $i\in I$ und $X_{j}> x$ für -$j\in [n]\setminus I$. -Daraus kann man ablesen, dass +Der $k$-te Wert $X_{k:n}$ übersteigt genau dann $x$ nicht, wenn +mindestens $k$ der Zufallswerte $X_i$ $x$ nicht übersteigen, also +\[ +P(X_{k:n} \le x) += +P\left( +|\{i\in[n]\,|\, X_i\le x\}| \ge k +\right). +\] + +Das Ereignis $\{X_i\le x\}$ ist eine Bernoulli-Experiment, welches mit +Wahrscheinlichkeit $F_X(x)$ eintritt. +Die Anzahl der Zufallsvariablen $X_i$, die $x$ übertreffen, ist also +Binomialverteilt mit $p=F_X(x)$. +Damit haben wir gefunden, dass mit Wahrscheinlichkeit +\begin{equation} +F_{X_{k:n}}(x) += +P(X_{k:n}\le x) += +\sum_{i=k}^n \binom{n}{i}F_X(x)^i (1-F_X(x))^{n-i} +\label{dreieck:eqn:FXkn} +\end{equation} +mindestens $k$ der Zufallsvariablen den Wert $x$ überschreiten. + +\subsubsection{Wahrscheinlichkeitsdichte der Ordnungsstatistik} +Die Wahrscheinlichkeitsdichte der Ordnungsstatistik kann durch Ableitung +von \eqref{dreieck:eqn:FXkn} gefunden, werden, sie ist \begin{align*} +\varphi_{X_{k:n}}(x) +&= +\frac{d}{dx} F_{X_{k:n}}(x) +\\ &= -P\biggl( -\bigvee_{I\subset[n]\wedge |I|=k} -\bigwedge_{i\in I} (X_i\le x) -\wedge -\bigwedge_{j\in [n]\setminus I} (X_i > x) -\biggr). -\intertext{Da die verschiedenen $k$-elementigen Teilmengen $I\subset[n]$ -zu disjunkten Ereignissen gehören, ist die Wahrscheinlichkeit eine Summe} +\sum_{i=k}^n +\binom{n}{i} +\bigl( +iF_X(x)^{i-1}\varphi_X(x) (1-F_X(x))^{n-i} +- +F_X(x)^k +(n-i) +(1-F_X(x))^{n-i-1} +\varphi_X(x) +\bigr) +\\ &= -\sum_{I\subset[n]\wedge |I|=k} -P\biggl( -\bigwedge_{i\in I} (X_i\le x) -\wedge -\bigwedge_{j\in [n]\setminus I} (X_i > x) +\sum_{i=k}^n +\binom{n}{i} +\varphi_X(x) +F_X(x)^{i-1}(1-F_X(x))^{n-i-1} +\bigl( +iF_X(x)-(n-i)(1-F_X(x)) +\bigr) +\\ +&= +\varphi_X(x) +\biggl( +\sum_{i=k}^n i\binom{n}{i} F_X(x)^{i-1}(1-F_X(x))^{n-i} +- +\sum_{j=k}^n (n-j)\binom{n}{j} F_X(x)^{j}(1-F_X(x))^{n-j-1} \biggr) \\ &= -\sum_{I\subset[n]\wedge |I|=k} -\prod_{i\in I} -P(X_i\le x) -\cdot -\prod_{j\in [n]\setminus I} -P(X_j > x) +\varphi_X(x) +\biggl( +\sum_{i=k}^n i\binom{n}{i} F_X(x)^{i-1}(1-F_X(x))^{n-i} +- +\sum_{i=k+1}^{n+1} (n-i+1)\binom{n}{i-1} F_X(x)^{i-1}(1-F_X(x))^{n-i} +\biggr) \\ &= -\sum_{I\subset[n]\wedge |I|=k} -F_X(x)^k -(1-F_X(x))^{n-k}. -\intertext{Die Anzahl solcher Teilmengen $I$ ist gegeben durch den -Binomialkoeffizienten gebeben, die Verteilungsfunktion ist daher} -F_{X_{k:n}}(x) +\varphi_X(x) +\biggl( +k\binom{n}{k}F_X(x)^{k-1}(1-F_X(x))^{n-k} ++ +\sum_{i=k+1}^{n+1} +\left( +i\binom{n}{i} +- +(n-i+1)\binom{n}{i-1} +\right) +F_X(x)^{i-1}(1-F_X(x))^{n-i} +\biggr) +\end{align*} +Mit den wohlbekannten Identitäten für die Binomialkoeffizienten +\begin{align*} +i\binom{n}{i} +- +(n-i+1)\binom{n}{i-1} &= -\binom{n}{k} -F_X(x)^k -(1-F_X(x))^{n-k}. +n\binom{n-1}{i-1} +- +n +\binom{n-1}{i-1} += +0 +\end{align*} +folgt jetzt +\begin{align*} +\varphi_{X_{k:n}}(x) +&= +\varphi_X(x)k\binom{n}{k} F_X(x)^{k-1}(1-F_X(x))^{n-k}(x). +\intertext{Im Speziellen für gleichverteilte Zufallsvariablen $X_i$ ist +} +\varphi_{X_{k:n}}(x) +&= +k\binom{n}{k} x^{k-1}(1-x)^{n-k}. \end{align*} -Für im Intervall $[0,1]$ gleichverteilte $X_i$ ist die Verteilungsfunktion -der $k$-ten Ordnungsstatistik +Dies ist die Wahrscheinlichkeitsdichte einer Betaverteilung \[ -F_{X_{k:n}}(x) +\beta(k,n-k+1)(x) += +\frac{1}{B(k,n-k+1)} +x^{k-1}(1-x)^{n-k}. +\] +Tatsächlich ist die Normierungskonstante +\begin{align} +\frac{1}{B(k,n-k+1)} +&= +\frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)} += +\frac{n!}{(k-1)!(n-k)!}. +\label{dreieck:betaverteilung:normierung1} +\end{align} +Andererseits ist +\[ +k\binom{n}{k} += +k\frac{n!}{k!(n-k)!} = -\binom{n}{k} x^k(1-x)^{n-k}. +\frac{n!}{(k-1)!(n-k)!}, \] -Ihre Ableitung nach $x$ ist die Wahrscheinlichkeitsdichte und damit -wird es jetzt auch möglich, den Erwartungswert zu ermitteln: +in Übereinstimmung mit~\eqref{dreieck:betaverteilung:normierung1}. +Die Verteilungsfunktion und die Wahrscheinlichkeitsdichte der +Ordnungsstatistik sind in Abbildung~\ref{dreieck:fig:order} dargestellt. + +\begin{figure} +\centering +\includegraphics{papers/dreieck/images/order.pdf} +\caption{Verteilungsfunktion und Wahrscheinlichkeitsdichte der +Ordnungsstatistiken $X_{k:n}$ einer gleichverteilung Zuvallsvariable +mit $n=10$. +\label{dreieck:fig:order}} +\end{figure} + +\subsubsection{Erwartungswert} +Mit der Wahrscheinlichkeitsdichte kann man jetzt auch den Erwartungswerte +der $k$-ten Ordnungsstatistik bestimmen. +Die Rechnung ergibt: \begin{align*} E(X_{k:n}) &= -\int_{0}^1 -\underbrace{x\llap{\phantom{\bigg|}}\mathstrut}_{\downarrow} -\underbrace{\frac{d}{dx}\binom{n}{k}x^k(1-x)^{n-k}}_{\uparrow} -\,dx +\int_0^1 x\cdot k\binom{n}{k} x^{k-1}(1-x)^{n-k}\,dx = -\biggl[ -x\binom{n}{k}x^k(1-x)^{n-k} -\biggr]_0^1 -- +k +\binom{n}{k} \int_0^1 -\binom{n}{k}x^k(1-x)^{n-k} -\,dx -\\ +x^{k}(1-x)^{n-k}\,dx. +\intertext{Dies ist das Beta-Integral} &= -\binom{n}{k} -\biggl( -0^{n-k} -- -\int_0^1 x^k(1-x)^{n-k}\,dx -\biggr) +k\binom{n}{k} +B(k+1,n-k+1) +\intertext{welches man durch Gamma-Funktionen bzw.~durch Fakultäten wie in} +&= +k\frac{n!}{k!(n-k)!} +\frac{\Gamma(k+1)\Gamma(n-k+1)}{n+2} += +k\frac{n!}{k!(n-k)!} +\frac{k!(n-k)!}{(n+1)!} += +\frac{k}{n+1} \end{align*} +ausdrücken kann. +Die Erwartungswerte haben also regelmässige Abstände, sie sind in +Abbildung~\ref{dreieck:fig:order} als blaue vertikale Linien eingezeichnet. +\subsubsection{Varianz} +Auch die Varianz lässt sich einfach berechnen, dazu muss zunächst +der Erwartungswert von $X_{k:n}^2$ bestimmt werden. +Er ist +\begin{align*} +E(X_{k:n}^2) +&= +\int_0^1 x^2\cdot k\binom{n}{k} x^{k-1}(1-x)^{n-k}\,dx += +k +\binom{n}{k} +\int_0^1 +x^{k+1}(1-x)^{n-k}\,dx. +\intertext{Auch dies ist ein Beta-Integral, nämlich} +&= +k\binom{n}{k} +B(k+2,n-k+1) += +k\frac{n!}{k!(n-k)!} +\frac{(k+1)!(n-k)!}{(n+2)!} += +\frac{k(k+1)}{(n+1)(n+2)}. +\end{align*} +Die Varianz wird damit +\begin{align} +\operatorname{var}(X_{k:n}) +&= +E(X_{k:n}^2) - E(X_{k:n})^2 +\notag +\\ +& += +\frac{k(k+1)}{(n+1)(n+2)}-\frac{k^2}{(n+1)^2} += +\frac{k(k+1)(n+1)-k^2(n+2)}{(n+1)^2(n+2)} += +\frac{k(n-k+1)}{(n+1)^2(n+2)}. +\label{dreieck:eqn:ordnungsstatistik:varianz} +\end{align} +In Abbildung~\ref{dreieck:fig:order} ist die Varianz der +Ordnungsstatistik $X_{k:n}$ für $k=7$ und $n=10$ als oranges +Rechteck dargestellt. +\begin{figure} +\centering +\includegraphics[width=0.84\textwidth]{papers/dreieck/images/beta.pdf} +\caption{Wahrscheinlichkeitsdichte der Beta-Verteilung +$\beta(a,b,x)$ +für verschiedene Werte der Parameter $a$ und $b$. +Die Werte des Parameters für einen Graphen einer Beta-Verteilung +sind als Punkt im kleinen Quadrat rechts +im Graphen als Punkt mit der gleichen Farbe dargestellt. +\label{dreieck:fig:betaverteilungn}} +\end{figure} +Die Formel~\eqref{dreieck:eqn:ordnungsstatistik:varianz} +besagt auch, dass die Varianz der proportional ist zu $k((n+1)-k)$. +Dieser Ausdruck ist am grössten für $k=(n+1)/2$, die Varianz ist +also grösser für die ``mittleren'' Ordnungstatistiken als für die +extremen $X_{1:n}=\operatorname{min}(X_1,\dots,X_n)$ und +$X_{n:n}=\operatorname{max}(X_1,\dots,X_n)$. -- cgit v1.2.1