From ed0a70c80e7a8c9915f53edbfeb4daf19e030dd8 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Andreas=20M=C3=BCller?= Date: Tue, 8 Mar 2022 16:27:37 +0100 Subject: add some theory --- buch/papers/dreieck/teil1.tex | 261 ++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 261 insertions(+) create mode 100644 buch/papers/dreieck/teil1.tex (limited to 'buch/papers/dreieck/teil1.tex') diff --git a/buch/papers/dreieck/teil1.tex b/buch/papers/dreieck/teil1.tex new file mode 100644 index 0000000..255c5d0 --- /dev/null +++ b/buch/papers/dreieck/teil1.tex @@ -0,0 +1,261 @@ +% +% teil1.tex -- Beispiel-File für das Paper +% +% (c) 2020 Prof Dr Andreas Müller, Hochschule Rapperswil +% +\section{Ordnungsstatistik und Beta-Funktion +\label{dreieck:section:ordnungsstatistik}} +\rhead{Ordnungsstatistik und Beta-Funktion} +In diesem Abschnitt ist $X$ eine Zufallsvariable mit der Verteilungsfunktion +$F_X(x)$, und $X_i$, $1\le i\le n$ sei ein Stichprobe von unabhängigen +Zufallsvariablen, die wie $X$ verteilt sind. +Ziel ist, die Verteilungsfunktion und die Wahrscheinlichkeitsdichte +des grössten, zweitgrössten, $k$-t-grössten Wertes in der Stichprobe +zu finden. + +\subsection{Verteilung von $\operatorname{max}(X_1,\dots,X_n)$ und +$\operatorname{min}(X_1,\dots,X_n)$ +\label{dreieck:subsection:minmax}} +Die Verteilungsfunktion von $\operatorname{max}(X_1,\dots,X_n)$ hat +den Wert +\begin{align*} +F_{\operatorname{max}(X_1,\dots,X_n)}(x) +&= +P(\operatorname{max}(X_1,\dots,X_n) \le x) +\\ +&= +P(X_1\le x\wedge \dots \wedge X_n\le x) +\\ +&= +P(X_1\le x) \cdot \ldots \cdot P(X_n\le x) +\\ +&= +P(X\le x)^n += +F_X(x)^n. +\end{align*} +Für die Gleichverteilung ist +\[ +F_{\text{equi}}(x) += +\begin{cases} +0&\qquad x< 0 +\\ +x&\qquad 0\le x\le 1 +\\ +1&\qquad 1 X_1\wedge \dots \wedge x > X_n) +\\ +&= +1- +(1-P(x\le X_1)) \cdot\ldots\cdot (1-P(x\le X_n)) +\\ +&= +1-(1-F_X(x))^n, +\end{align*} +Im Speziellen für im Intervall $[0,1]$ gleichverteilte $X_i$ ist die +Verteilungsfunktion des Minimums +\[ +F_{\operatorname{min}(X_1,\dots,X_n)}(x) += +\begin{cases} +0 &\qquad x<0 \\ +1-(1-x)^n&\qquad 0\le x\le 1\\ +1 &\qquad 1 < x +\end{cases} +\] +mit Wahrscheinlichkeitsdichte +\[ +\varphi_{\operatorname{min}(X_1,\dots,X_n)} += +\frac{d}{dx} +F_{\operatorname{min}(X_1,\dots,X_n)} += +\begin{cases} +n(1-x)^{n-1}&\qquad 0\le x\le 1\\ +0 &\qquad \text{sonst} +\end{cases} +\] +und Erwartungswert +\begin{align*} +E(\operatorname{min}(X_1,\dots,X_n) +&= +\int_{-\infty}^\infty x\varphi_{\operatorname{min}(X_1,\dots,X_n)}(x)\,dx += +\int_0^1 x\cdot n(1-x)^{n-1}\,dx +\\ +&= +\bigl[ -x(1-x)^n \bigr]_0^1 + \int_0^1 (1-x)^n\,dx += +\biggl[ +- +\frac{1}{n+1} +(1-x)^{n+1} +\biggr]_0^1 += +\frac{1}{n+1}. +\end{align*} +Es ergibt sich daraus als natürlich Verallgemeinerung die Frage nach +der Verteilung des zweitegrössten oder zweitkleinsten Wertes unter den +Werten $X_i$. + +\subsection{Der $k$-t-grösste Wert} +Sie wieder $X_i$ eine Stichprobe von $n$ unabhängigen wie $X$ verteilten +Zufallsvariablen. +Diese werden jetzt der Grösse nach sortiert, die sortierten Werte werden +mit +\[ +X_{1:n} \le X_{2:n} \le \dots \le X_{(n-1):n} \le X_{n:n} +\] +bezeichnet. +Die Grössen $X_{k:n}$ sind Zufallsvariablen, sie heissen die $k$-ten +Ordnungsstatistiken. +Die in Abschnitt~\ref{dreieck:subsection:minmax} behandelten Zufallsvariablen +$\operatorname{min}(X_1,\dots,X_n)$ +und +$\operatorname{max}(X_1,\dots,X_n)$ +sind die Fälle +\begin{align*} +X_{1:n} &= \operatorname{min}(X_1,\dots,X_n) \\ +X_{n:n} &= \operatorname{max}(X_1,\dots,X_n). +\end{align*} + +Um den Wert der Verteilungsfunktion von $X_{k:n}$ zu berechnen, müssen wir +die Wahrscheinlichkeit bestimmen, dass $k$ der $n$ Werte $X_i$ $x$ nicht +übersteigen. +Es muss also eine Partition von $[n]=\{1,\dots,n\}$ in eine +$k$-elementige $I=\{i_1,\dots,i_k\}$ Teilmenge und ihre +$(n-k)$-elementige Komplementmenge $[n]\setminus I$ geben +derart, dass die $X_{i} \le x$ sind für $i\in I$ und $X_{j}> x$ für +$j\in [n]\setminus I$. +Daraus kann man ablesen, dass +\begin{align*} +F_{X_{k:n}}(x) +&= +P\biggl( +\bigvee_{I\subset[n]\wedge |I|=k} +\bigwedge_{i\in I} (X_i\le x) +\wedge +\bigwedge_{j\in [n]\setminus I} (X_i > x) +\biggr). +\intertext{Da die verschiedenen $k$-elementigen Teilmengen $I\subset[n]$ +zu disjunkten Ereignissen gehören, ist die Wahrscheinlichkeit eine Summe} +&= +\sum_{I\subset[n]\wedge |I|=k} +P\biggl( +\bigwedge_{i\in I} (X_i\le x) +\wedge +\bigwedge_{j\in [n]\setminus I} (X_i > x) +\biggr) +\\ +&= +\sum_{I\subset[n]\wedge |I|=k} +\prod_{i\in I} +P(X_i\le x) +\cdot +\prod_{j\in [n]\setminus I} +P(X_j > x) +\\ +&= +\sum_{I\subset[n]\wedge |I|=k} +F_X(x)^k +(1-F_X(x))^{n-k}. +\intertext{Die Anzahl solcher Teilmengen $I$ ist gegeben durch den +Binomialkoeffizienten gebeben, die Verteilungsfunktion ist daher} +F_{X_{k:n}}(x) +&= +\binom{n}{k} +F_X(x)^k +(1-F_X(x))^{n-k}. +\end{align*} +Für im Intervall $[0,1]$ gleichverteilte $X_i$ ist die Verteilungsfunktion +der $k$-ten Ordnungsstatistik +\[ +F_{X_{k:n}}(x) += +\binom{n}{k} x^k(1-x)^{n-k}. +\] +Ihre Ableitung nach $x$ ist die Wahrscheinlichkeitsdichte und damit +wird es jetzt auch möglich, den Erwartungswert zu ermitteln: +\begin{align*} +E(X_{k:n}) +&= +\int_{0}^1 +\underbrace{x\llap{\phantom{\bigg|}}\mathstrut}_{\downarrow} +\underbrace{\frac{d}{dx}\binom{n}{k}x^k(1-x)^{n-k}}_{\uparrow} +\,dx += +\biggl[ +x\binom{n}{k}x^k(1-x)^{n-k} +\biggr]_0^1 +- +\int_0^1 +\binom{n}{k}x^k(1-x)^{n-k} +\,dx +\\ +&= +\binom{n}{k} +\biggl( +0^{n-k} +- +\int_0^1 x^k(1-x)^{n-k}\,dx +\biggr) +\end{align*} + + + + + -- cgit v1.2.1