aboutsummaryrefslogtreecommitdiffstats
path: root/buch/papers/dreieck/teil1.tex
diff options
context:
space:
mode:
authorAndreas Müller <andreas.mueller@ost.ch>2022-03-13 11:05:56 +0100
committerAndreas Müller <andreas.mueller@ost.ch>2022-03-13 11:05:56 +0100
commit97931f8f854d0b18dc5c0cb3cb2fecae922f81a2 (patch)
tree3d02cec7293be3da2f411ff7eb185acf4e49145a /buch/papers/dreieck/teil1.tex
parentBohr-Mollerup und Eindeutigkeit der Gamma-Funktion (diff)
downloadSeminarSpezielleFunktionen-97931f8f854d0b18dc5c0cb3cb2fecae922f81a2.tar.gz
SeminarSpezielleFunktionen-97931f8f854d0b18dc5c0cb3cb2fecae922f81a2.zip
add beta distribution graphs
Diffstat (limited to 'buch/papers/dreieck/teil1.tex')
-rw-r--r--buch/papers/dreieck/teil1.tex273
1 files changed, 216 insertions, 57 deletions
diff --git a/buch/papers/dreieck/teil1.tex b/buch/papers/dreieck/teil1.tex
index 255c5d0..5e7090b 100644
--- a/buch/papers/dreieck/teil1.tex
+++ b/buch/papers/dreieck/teil1.tex
@@ -12,6 +12,8 @@ Zufallsvariablen, die wie $X$ verteilt sind.
Ziel ist, die Verteilungsfunktion und die Wahrscheinlichkeitsdichte
des grössten, zweitgrössten, $k$-t-grössten Wertes in der Stichprobe
zu finden.
+Wir schreiben $[n]=\{1,\dots,n\}$ für die Menge der natürlichen
+Zahlen von zwischen $1$ und $n$.
\subsection{Verteilung von $\operatorname{max}(X_1,\dots,X_n)$ und
$\operatorname{min}(X_1,\dots,X_n)$
@@ -176,86 +178,243 @@ X_{n:n} &= \operatorname{max}(X_1,\dots,X_n).
Um den Wert der Verteilungsfunktion von $X_{k:n}$ zu berechnen, müssen wir
die Wahrscheinlichkeit bestimmen, dass $k$ der $n$ Werte $X_i$ $x$ nicht
übersteigen.
-Es muss also eine Partition von $[n]=\{1,\dots,n\}$ in eine
-$k$-elementige $I=\{i_1,\dots,i_k\}$ Teilmenge und ihre
-$(n-k)$-elementige Komplementmenge $[n]\setminus I$ geben
-derart, dass die $X_{i} \le x$ sind für $i\in I$ und $X_{j}> x$ für
-$j\in [n]\setminus I$.
-Daraus kann man ablesen, dass
+Der $k$-te Wert $X_{k:n}$ übersteigt genau dann $x$ nicht, wenn
+mindestens $k$ der Zufallswerte $X_i$ $x$ nicht übersteigen, also
+\[
+P(X_{k:n} \le x)
+=
+P\left(
+|\{i\in[n]\,|\, X_i\le x\}| \ge k
+\right).
+\]
+
+Das Ereignis $\{X_i\le x\}$ ist eine Bernoulli-Experiment, welches mit
+Wahrscheinlichkeit $F_X(x)$ eintritt.
+Die Anzahl der Zufallsvariablen $X_i$, die $x$ übertreffen, ist also
+Binomialverteilt mit $p=F_X(x)$.
+Damit haben wir gefunden, dass mit Wahrscheinlichkeit
+\begin{equation}
+F_{X_{k:n}}(x)
+=
+P(X_{k:n}\le x)
+=
+\sum_{i=k}^n \binom{n}{i}F_X(x)^i (1-F_X(x))^{n-i}
+\label{dreieck:eqn:FXkn}
+\end{equation}
+mindestens $k$ der Zufallsvariablen den Wert $x$ überschreiten.
+
+\subsubsection{Wahrscheinlichkeitsdichte der Ordnungsstatistik}
+Die Wahrscheinlichkeitsdichte der Ordnungsstatistik kann durch Ableitung
+von \eqref{dreieck:eqn:FXkn} gefunden, werden, sie ist
\begin{align*}
+\varphi_{X_{k:n}}(x)
+&=
+\frac{d}{dx}
F_{X_{k:n}}(x)
+\\
&=
-P\biggl(
-\bigvee_{I\subset[n]\wedge |I|=k}
-\bigwedge_{i\in I} (X_i\le x)
-\wedge
-\bigwedge_{j\in [n]\setminus I} (X_i > x)
-\biggr).
-\intertext{Da die verschiedenen $k$-elementigen Teilmengen $I\subset[n]$
-zu disjunkten Ereignissen gehören, ist die Wahrscheinlichkeit eine Summe}
+\sum_{i=k}^n
+\binom{n}{i}
+\bigl(
+iF_X(x)^{i-1}\varphi_X(x) (1-F_X(x))^{n-i}
+-
+F_X(x)^k
+(n-i)
+(1-F_X(x))^{n-i-1}
+\varphi_X(x)
+\bigr)
+\\
&=
-\sum_{I\subset[n]\wedge |I|=k}
-P\biggl(
-\bigwedge_{i\in I} (X_i\le x)
-\wedge
-\bigwedge_{j\in [n]\setminus I} (X_i > x)
+\sum_{i=k}^n
+\binom{n}{i}
+\varphi_X(x)
+F_X(x)^{i-1}(1-F_X(x))^{n-i-1}
+\bigl(
+iF_X(x)-(n-i)(1-F_X(x))
+\bigr)
+\\
+&=
+\varphi_X(x)
+\biggl(
+\sum_{i=k}^n i\binom{n}{i} F_X(x)^{i-1}(1-F_X(x))^{n-i}
+-
+\sum_{j=k}^n (n-j)\binom{n}{j} F_X(x)^{j}(1-F_X(x))^{n-j-1}
\biggr)
\\
&=
-\sum_{I\subset[n]\wedge |I|=k}
-\prod_{i\in I}
-P(X_i\le x)
-\cdot
-\prod_{j\in [n]\setminus I}
-P(X_j > x)
+\varphi_X(x)
+\biggl(
+\sum_{i=k}^n i\binom{n}{i} F_X(x)^{i-1}(1-F_X(x))^{n-i}
+-
+\sum_{i=k+1}^{n+1} (n-i+1)\binom{n}{i-1} F_X(x)^{i-1}(1-F_X(x))^{n-i}
+\biggr)
\\
&=
-\sum_{I\subset[n]\wedge |I|=k}
-F_X(x)^k
-(1-F_X(x))^{n-k}.
-\intertext{Die Anzahl solcher Teilmengen $I$ ist gegeben durch den
-Binomialkoeffizienten gebeben, die Verteilungsfunktion ist daher}
-F_{X_{k:n}}(x)
+\varphi_X(x)
+\biggl(
+k\binom{n}{k}F_X(x)^{k-1}(1-F_X(x))^{n-k}
++
+\sum_{i=k+1}^{n+1}
+\left(
+i\binom{n}{i}
+-
+(n-i+1)\binom{n}{i-1}
+\right)
+F_X(x)^{i-1}(1-F_X(x))^{n-i}
+\biggr)
+\end{align*}
+Mit den wohlbekannten Identitäten für die Binomialkoeffizienten
+\begin{align*}
+i\binom{n}{i}
+-
+(n-i+1)\binom{n}{i-1}
&=
-\binom{n}{k}
-F_X(x)^k
-(1-F_X(x))^{n-k}.
+n\binom{n-1}{i-1}
+-
+n
+\binom{n-1}{i-1}
+=
+0
+\end{align*}
+folgt jetzt
+\begin{align*}
+\varphi_{X_{k:n}}(x)
+&=
+\varphi_X(x)k\binom{n}{k} F_X(x)^{k-1}(1-F_X(x))^{n-k}(x).
+\intertext{Im Speziellen für gleichverteilte Zufallsvariablen $X_i$ ist
+}
+\varphi_{X_{k:n}}(x)
+&=
+k\binom{n}{k} x^{k-1}(1-x)^{n-k}.
\end{align*}
-Für im Intervall $[0,1]$ gleichverteilte $X_i$ ist die Verteilungsfunktion
-der $k$-ten Ordnungsstatistik
+Dies ist die Wahrscheinlichkeitsdichte einer Betaverteilung
\[
-F_{X_{k:n}}(x)
+\beta(k,n-k+1)(x)
+=
+\frac{1}{B(k,n-k+1)}
+x^{k-1}(1-x)^{n-k}.
+\]
+Tatsächlich ist die Normierungskonstante
+\begin{align}
+\frac{1}{B(k,n-k+1)}
+&=
+\frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)}
+=
+\frac{n!}{(k-1)!(n-k)!}.
+\label{dreieck:betaverteilung:normierung1}
+\end{align}
+Andererseits ist
+\[
+k\binom{n}{k}
+=
+k\frac{n!}{k!(n-k)!}
=
-\binom{n}{k} x^k(1-x)^{n-k}.
+\frac{n!}{(k-1)!(n-k)!},
\]
-Ihre Ableitung nach $x$ ist die Wahrscheinlichkeitsdichte und damit
-wird es jetzt auch möglich, den Erwartungswert zu ermitteln:
+in Übereinstimmung mit~\eqref{dreieck:betaverteilung:normierung1}.
+Die Verteilungsfunktion und die Wahrscheinlichkeitsdichte der
+Ordnungsstatistik sind in Abbildung~\ref{dreieck:fig:order} dargestellt.
+
+\begin{figure}
+\centering
+\includegraphics{papers/dreieck/images/order.pdf}
+\caption{Verteilungsfunktion und Wahrscheinlichkeitsdichte der
+Ordnungsstatistiken $X_{k:n}$ einer gleichverteilung Zuvallsvariable
+mit $n=10$.
+\label{dreieck:fig:order}}
+\end{figure}
+
+\subsubsection{Erwartungswert}
+Mit der Wahrscheinlichkeitsdichte kann man jetzt auch den Erwartungswerte
+der $k$-ten Ordnungsstatistik bestimmen.
+Die Rechnung ergibt:
\begin{align*}
E(X_{k:n})
&=
-\int_{0}^1
-\underbrace{x\llap{\phantom{\bigg|}}\mathstrut}_{\downarrow}
-\underbrace{\frac{d}{dx}\binom{n}{k}x^k(1-x)^{n-k}}_{\uparrow}
-\,dx
+\int_0^1 x\cdot k\binom{n}{k} x^{k-1}(1-x)^{n-k}\,dx
=
-\biggl[
-x\binom{n}{k}x^k(1-x)^{n-k}
-\biggr]_0^1
--
+k
+\binom{n}{k}
\int_0^1
-\binom{n}{k}x^k(1-x)^{n-k}
-\,dx
-\\
+x^{k}(1-x)^{n-k}\,dx.
+\intertext{Dies ist das Beta-Integral}
&=
-\binom{n}{k}
-\biggl(
-0^{n-k}
--
-\int_0^1 x^k(1-x)^{n-k}\,dx
-\biggr)
+k\binom{n}{k}
+B(k+1,n-k+1)
+\intertext{welches man durch Gamma-Funktionen bzw.~durch Fakultäten wie in}
+&=
+k\frac{n!}{k!(n-k)!}
+\frac{\Gamma(k+1)\Gamma(n-k+1)}{n+2}
+=
+k\frac{n!}{k!(n-k)!}
+\frac{k!(n-k)!}{(n+1)!}
+=
+\frac{k}{n+1}
\end{align*}
+ausdrücken kann.
+Die Erwartungswerte haben also regelmässige Abstände, sie sind in
+Abbildung~\ref{dreieck:fig:order} als blaue vertikale Linien eingezeichnet.
+\subsubsection{Varianz}
+Auch die Varianz lässt sich einfach berechnen, dazu muss zunächst
+der Erwartungswert von $X_{k:n}^2$ bestimmt werden.
+Er ist
+\begin{align*}
+E(X_{k:n}^2)
+&=
+\int_0^1 x^2\cdot k\binom{n}{k} x^{k-1}(1-x)^{n-k}\,dx
+=
+k
+\binom{n}{k}
+\int_0^1
+x^{k+1}(1-x)^{n-k}\,dx.
+\intertext{Auch dies ist ein Beta-Integral, nämlich}
+&=
+k\binom{n}{k}
+B(k+2,n-k+1)
+=
+k\frac{n!}{k!(n-k)!}
+\frac{(k+1)!(n-k)!}{(n+2)!}
+=
+\frac{k(k+1)}{(n+1)(n+2)}.
+\end{align*}
+Die Varianz wird damit
+\begin{align}
+\operatorname{var}(X_{k:n})
+&=
+E(X_{k:n}^2) - E(X_{k:n})^2
+\notag
+\\
+&
+=
+\frac{k(k+1)}{(n+1)(n+2)}-\frac{k^2}{(n+1)^2}
+=
+\frac{k(k+1)(n+1)-k^2(n+2)}{(n+1)^2(n+2)}
+=
+\frac{k(n-k+1)}{(n+1)^2(n+2)}.
+\label{dreieck:eqn:ordnungsstatistik:varianz}
+\end{align}
+In Abbildung~\ref{dreieck:fig:order} ist die Varianz der
+Ordnungsstatistik $X_{k:n}$ für $k=7$ und $n=10$ als oranges
+Rechteck dargestellt.
+\begin{figure}
+\centering
+\includegraphics[width=0.84\textwidth]{papers/dreieck/images/beta.pdf}
+\caption{Wahrscheinlichkeitsdichte der Beta-Verteilung
+$\beta(a,b,x)$
+für verschiedene Werte der Parameter $a$ und $b$.
+Die Werte des Parameters für einen Graphen einer Beta-Verteilung
+sind als Punkt im kleinen Quadrat rechts
+im Graphen als Punkt mit der gleichen Farbe dargestellt.
+\label{dreieck:fig:betaverteilungn}}
+\end{figure}
+Die Formel~\eqref{dreieck:eqn:ordnungsstatistik:varianz}
+besagt auch, dass die Varianz der proportional ist zu $k((n+1)-k)$.
+Dieser Ausdruck ist am grössten für $k=(n+1)/2$, die Varianz ist
+also grösser für die ``mittleren'' Ordnungstatistiken als für die
+extremen $X_{1:n}=\operatorname{min}(X_1,\dots,X_n)$ und
+$X_{n:n}=\operatorname{max}(X_1,\dots,X_n)$.