aboutsummaryrefslogtreecommitdiffstats
path: root/buch/chapters/80-wahrscheinlichkeit
diff options
context:
space:
mode:
authorAndreas Müller <andreas.mueller@ost.ch>2021-09-11 13:35:10 +0200
committerAndreas Müller <andreas.mueller@ost.ch>2021-09-11 13:35:10 +0200
commitac5d5a9f18fb6b3ef494ae51734feabed701a1f3 (patch)
treef0df9dc64477e06d0cce91f51f529d433957eb9f /buch/chapters/80-wahrscheinlichkeit
parentadd combined images (diff)
downloadSeminarMatrizen-ac5d5a9f18fb6b3ef494ae51734feabed701a1f3.tar.gz
SeminarMatrizen-ac5d5a9f18fb6b3ef494ae51734feabed701a1f3.zip
chapter 9
Diffstat (limited to 'buch/chapters/80-wahrscheinlichkeit')
-rw-r--r--buch/chapters/80-wahrscheinlichkeit/chapter.tex8
-rw-r--r--buch/chapters/80-wahrscheinlichkeit/google.tex155
-rw-r--r--buch/chapters/80-wahrscheinlichkeit/markov.tex198
-rw-r--r--buch/chapters/80-wahrscheinlichkeit/parrondo.tex74
-rw-r--r--buch/chapters/80-wahrscheinlichkeit/positiv.tex185
5 files changed, 386 insertions, 234 deletions
diff --git a/buch/chapters/80-wahrscheinlichkeit/chapter.tex b/buch/chapters/80-wahrscheinlichkeit/chapter.tex
index 85b6d8c..270c44a 100644
--- a/buch/chapters/80-wahrscheinlichkeit/chapter.tex
+++ b/buch/chapters/80-wahrscheinlichkeit/chapter.tex
@@ -12,8 +12,8 @@ jedem Vektor einen neuen Vektor zuordnet.
Es ist daher nicht abwegig zu erwarten, dass sich
die Zeitentwicklung eines vom Zufall beeinflussten Systems, welches sich
in mehreren verschiedenen Zuständen befinden kann, ebenfalls mit Hilfe
-von Matrizen beschreiben lässt.
-Eine solche Beschreiben ermöglicht leicht Verteilungen,
+von Matrizen modellieren lässt.
+Eine solche Beschreibung ermöglicht Verteilungen,
Erwartungswerte und stationäre Zustände zu ermitteln.
Im Abschnitt~\ref{buch:section:google-matrix} wird an Hand der Google
@@ -22,6 +22,10 @@ auf eine Matrix führt.
Abschnitt~\ref{buch:section:diskrete-markov-ketten} stellt dann die abstrakte
mathematische Theorie der Markov-Ketten dar und behandelt einige wichtige
Eigenschaften von Wahrscheinlichkeitsmatrizen.
+Sie folgen aus den Eigenschaften positiver Matrizen und Vektoren,
+die die Theorie von Perron und Frobenius in
+Abschnitt~\ref{buch:section:positive-vektoren-und-matrizen}
+beweist.
Es stellt sich heraus, dass thermodynamische Quantensysteme sehr gut
mit solchen Matrizen beschrieben werden können, zum Beispiel kann man
einfache Formen von Laser auf diese Art behandeln.
diff --git a/buch/chapters/80-wahrscheinlichkeit/google.tex b/buch/chapters/80-wahrscheinlichkeit/google.tex
index ca78b3d..c9d0d8c 100644
--- a/buch/chapters/80-wahrscheinlichkeit/google.tex
+++ b/buch/chapters/80-wahrscheinlichkeit/google.tex
@@ -8,6 +8,7 @@
\rhead{Google-Matrix}
Das Internet besteht aus einer grossen Zahl von Websites, etwa 400~Millionen
aktiven Websites, jede besteht aus vielen einzelnen Seiten.
+\index{Internet}%
Es ist daher angemessen von $N\approx 10^9$ verschiedenen Seiten auszugehen.
Eine natürliche Sprache umfasst dagegen nur einige 100000 bis Millionen
von Wörtern.
@@ -17,21 +18,23 @@ Die Zahl der Wörter, die auf den $N$ Seiten vorkommen können, ist also
viel kleiner als die Zahl der zur Verfügung stehenden Wörter.
Ein einzelnes Wort wird daher notwendigerweise auf einer grossen Zahl
von Seiten vorkommen.
-Eine Suche nach einem bestimmten Wort wird also in der überwiegenden Zahl
+Eine Suche nach einem bestimmten Wort wird in der überwiegenden Zahl
der Fälle derart viele Treffer zurückgeben, dass das Suchresultat
nur dann nützlich sein kann, wenn eine zusätzliche Informationsquelle
-ermöglicht, die Treffer in eine sinnvolle Ordnung zu bringem.
+ermöglicht, die Treffer in eine sinnvolle Ordnung zu bringen.
Genau dieses Problem stellte sich den vielen traditionellen Suchmaschienen
in der ersten grossen Boomphase des Internets.
-Traditionelle Informatione-Retrieval-Systeme operieren auf einem relativ
+Traditionelle Information-Retrieval-Systeme operieren auf einem relativ
+\index{Information-Retrieval}%
kleinen Dokumentbestand und gehen davon aus, dass bereits wenige, spezifische
Wörter nur in einem kleinen Teil des Dokumentbestandes vorkommen und damit
eine übersichtliche Treffermenge ergeben.
-Die Einengung der Treffermenge dank der Suche nach spezifischer Menge
+Die Einengung der Treffermenge dank der Suche nach einzelnen Wörtern
bedeutet aber auch, dass nach Synonymen oder alternative Formen eines
Wortes separat gesucht werden muss, was die Übersichtlichkeit wieder
zerstört.
+\index{Treffermenge}%
%
% Ein Modell für Webseitenbesucher
@@ -45,34 +48,35 @@ zerstört.
\label{buch:figure:modellinternet}}
\end{figure}
-Das kombinierte Vorkommen von Wörtern oder Begriffen alleine kann also
-nicht ausreichen, um die Seiten zum Beispiel einem Fachgebiet zuzuordnen.
+Selbst das kombinierte Vorkommen von Wörtern oder Begriffen alleine reicht
+nicht aus, um die Seiten zum Beispiel einem Fachgebiet zuzuordnen.
Dazu muss eine externe Informationsquelle angezapft werden.
Bei traditionellen Dokumenten liefert der Kontext, in dem ein
Dokument erfasst wurde, solche ergänzenden Informationen.
Eine Publikation in einem Fachjournal ordnet einen Text einem Fachgebiet zu.
Im World-Wide-Web liefert die Link-Struktur diesen Kontext.
-Dokumente zu ähnlichen Themen werden bevorzugt untereinander verlinkt
-sein.
+\index{Link}%
+Dokumente zu ähnlichen oder verwandten Themen werden bevorzugt
+untereinander verlinkt sein.
Gesucht ist jetzt also ein Modell, welches objektiv die Linkstruktur
-bewertet und daraus eine Rangordnung der passenden Wörter ableitet.
+bewertet und daraus eine Rangordnung der Suchresultate ableitet.
Die Linkstruktur kann natürlich als gerichteter Graph betrachtet und
-mit Hilfe der Matrix~\eqref{buch:graphen:eqn:linkmatrix}
-beschrieben werden.
+mit Hilfe der Adjazenzmatrix~\eqref{buch:graphen:eqn:adjazenzmatrixgerichtet}
+\index{Adjazenzmatrix}%
+eines gerichteten Graphen beschrieben werden.
Dies trägt jedoch der Anzahl der Wahlmöglichkeiten nicht Rechnung.
-Eine Website mit nur einem Link auf die Seite $j$ hat mehr Gewicht
-als eine Seite mit vielen Links, unter denen der Link auf die Seite $j$
-einer von vielen ist.
-Im Beispiel-Inter der Abbildung~\ref{buch:figure:modellinternet}
-signalisiert die Seite $t$ mit nur einem Link auf die Seite $8$
+Eine Website mit nur einem Link auf die Seite $j$ gibt der Seite $j$
+mehr Gewicht als eine Seite mit vielen Links, unter denen der Link
+auf die Seite $j$ einer von Vielen ist.
+Im Beispiel-Internet der Abbildung~\ref{buch:figure:modellinternet}
+signalisiert die Seite $6$ mit nur einem Link auf die Seite $8$
viel deutlicher, dass $8$ eine wichtige Seite ist, also die die
Seite $5$ tut, die auch noch zwei andere Links enthält.
Wir können diesen Unterschied berücksichtigen, indem wir zu einem
Wahrscheinlichkeitsmodell übergehen, was wir im folgenden Abschnitt
tun werden.
-
%
% Wahrscheinlichkeitsinterpretation
%
@@ -104,7 +108,9 @@ lange Zeit ungefähr nach den gleichen Dingen suchen und sich daher
auf die gleiche Weise auf den verschiedenen Seiten verteilen und dass
insbesondere die Verteilung stationär ist, dass also $P(S_i) = P(S'_i)$
gilt.
+\index{Suchmaschine}%
Suchmaschinen wie Google gehen davon aus, dass alle Besucher ungefähr
+\index{Google}%
die gleichen Suchprioritäten haben, so dass es sich lohnt, die Suchresultate
nach der Wahrscheinlichkeit $P(S_i)$ zu ordnen und dem Suchenden die
wahrscheinlichsten Dokumente als erste zu zeigen.
@@ -113,19 +119,19 @@ wahrscheinlichsten Dokumente als erste zu zeigen.
Um einen Zusammenhang zwischen $P(S_i)$ und $P(S'_j)$ herzustellen, muss
die Navigation entlang der Links modelliert werden.
Die naheliegende Wahrscheinlichkeitsinterpretation ist die bedingte
-Wahrscheinlichkeit $P(S'_j|S_i)$ dass der Besucher auf der Seite $j$
+Wahrscheinlichkeit $P(S'_j\mid S_i)$ dass der Besucher auf der Seite $j$
landet, nachdem er auf der Seite $i$ die Linknavigation verwendet hat.
Wenn es keinen Link zwischen den Seiten $i$ und $j$ gibt, dann ist diese
-Navigation natürlich nicht möglich und es folgt $P(S'_j|S_i)=0$.
-Falls es einen Link gibt, ist $P(S'_j|S_i)\ge 0$.
+Navigation natürlich nicht möglich und es folgt $P(S'_j\mid S_i)=0$.
+Falls es einen Link gibt, ist $P(S'_j\mid S_i)\ge 0$.
A priori wissen wir nicht, wie wahrscheinlich es ist, dass der Besucher
dem Link auf die Seite $j$ folgt, normalerweise werden nicht alle
Links mit gleicher Wahrscheinlichkeit verwendet.
-Wir nehmen daher zusätzlich an, dass alle Links gleich wahrscheinlich
+Wir nehmen daher vereinfachend an, dass alle Links gleich wahrscheinlich
sind.
-Die Seite $i$ enthält $n_i$ Links, also ist die Wahrscheinlichkeit,
-auf einer von $i$ aus verlinkten Seite $j$ zu landen $P(S'_j|S_i) = 1/n_i$.
+Enthält die Seite $i$ genau $n_i$ Links, dann ist die Wahrscheinlichkeit,
+auf einer von $i$ aus verlinkten Seite $j$ zu landen, $P(S'_j\mid S_i) = 1/n_i$.
\subsubsection{Totale Wahrscheinlichkeit}
Der Satz von der totalen Wahrscheinlichkeit ermöglicht, einen Zusammenhang
@@ -136,13 +142,16 @@ Es gilt
\begin{equation}
P(S'_j)
=
-P(S'j|S_1) P(S_1)
+P(S'j\mid S_1) P(S_1)
+
-P(S'j|S_2) P(S_2)
+P(S'j\mid S_2) P(S_2)
+
\dots
+
-P(S'j|S_N) P(S_N).
+P(S'j\mid S_N) P(S_N)
+=
+\sum_{i=1}^N P(S_j'\mid S_i)P(S_i)
+.
\label{buch:google:eqn:totalewahrscheinlichkeit}
\end{equation}
Dies kann in Matrix- und Vektorform übersichtlicher geschrieben werden.
@@ -170,18 +179,21 @@ P(S'_N)
\end{pmatrix}
\]
zusammen.
-Die bedingten Wahrscheinlichkeiten $h_{ji}=P(S'_j|S_i)$ sind mit zwei Indizes
-beschrieben, sie bilden daher in natürlicher Weise eine Matrix
-\[
+Die bedingten Wahrscheinlichkeiten $h_{ji}=P(S'_j\mid S_i)$ sind mit zwei Indizes
+beschrieben, sie bilden daher in natürlicher Weise die sogenannte
+{\em Link-Matrix}
+\index{Link-Matrix}%
+\begin{equation}
H
=
\begin{pmatrix}
-P(S'_1|S_1)&P(S'_1|S_2)&\dots &P(S'_1|S_N)\\
-P(S'_2|S_1)&P(S'_2|S_2)&\dots &P(S'_2|S_N)\\
+P(S'_1\mid S_1)&P(S'_1\mid S_2)&\dots &P(S'_1\mid S_N)\\
+P(S'_2\mid S_1)&P(S'_2\mid S_2)&\dots &P(S'_2\mid S_N)\\
\vdots &\vdots &\ddots&\vdots \\
-P(S'_N|S_1)&P(S'_N|S_2)&\dots &P(S'_N|S_N)
+P(S'_N\mid S_1)&P(S'_N\mid S_2)&\dots &P(S'_N\mid S_N)
\end{pmatrix}.
-\]
+\label{buch:google:eqn:linkmatrix}
+\end{equation}
Die Formel~\eqref{buch:google:eqn:totalewahrscheinlichkeit} wird dann zur
Formel für das Produkt Matrix mal Vektor:
\[
@@ -189,7 +201,7 @@ Formel für das Produkt Matrix mal Vektor:
=
\sum_{i=1}^N h_{ji} p_i
=
-\sum_{i=1}^N P(S'_j|S_i) P(S_i)
+\sum_{i=1}^N P(S'_j\mid S_i) P(S_i)
=
p'_j
\qquad\Rightarrow\qquad
@@ -217,13 +229,26 @@ H =
\end{equation}
\qedhere
\end{beispiel}
-
+Die Link-Matrix kann aus der Adjazenzmatrix des gerichteten Graphen
+bestimmt werden.
+Dazu ist zu beachten, dass jede Spalte durch die Anzahl der Einsen
+in dieser Spalte zu teilen ist.
+Ein Zeilenvektor, der die Zahl der Einsen enthält, entsteht durch
+Multiplikation mit einem Zeilenvektor $U^t$ aus lauter Einsen.
+Mit dem Hadamard-Produkt ist dann die Link-Matrix durch
+\[
+H
+=
+(U(U^tA(G))^{\odot(-1)})\odot A(G)
+\]
+gegeben, wobei $(U^tA(G))^{\odot(-1)}$ die Inverse bezüglich des
+Hadamard-Produktes ist.
%
% Freier Wille
%
\subsection{``Freier Wille''
\label{buch:subsection:freier-wille}}
-Das Modell in
+Das in
Abschnitt~\eqref{buch:subsection:wahrscheinlichkeitsinterpretation}
beschriebene Modell geht unter anderem davon aus, dass der Benutzer
ausschliesslich die Navigation entlang der Links verwendet.
@@ -245,38 +270,39 @@ Wir bezeichnen das Ereignis, dass der Benutzer nicht die Link-Navigation
verwendet mit $F$ für ``freier Wille'', obwohl es so etwas natürlich nicht
gibt.
Die Wahrscheinlichkeit, auf der Seite $S'_j$ zu landen, setzt sich jetzt
-aus den zwei Fällen $F$ und $\overline{F}$ zusammen, für die erneut der
+aus den zwei Fällen $F$ und $\smash{\overline{F}}$ zusammen, für die erneut der
Satz von der totalen Wahrscheinlichkeit den Zusammenhang
\[
P(S'_j)
=
-P(S'_j|\overline{F}) P(\overline{F})
+P(S'_j\mid \overline{F}) P(\overline{F})
+
-P(S'_j|F) P(F)
+P(S'_j\mid F) P(F)
\]
+liefert.
Die Wahrscheinlichkeit $\alpha = P(F)$, mit der der Benutzer den
-``freiene Willen'' bemüht, kann experimentell durch Studien ermittelt
+``freien Willen'' bemüht, kann experimentell durch Studien ermittelt
werden, die das Benutzerverhalten beobachten.
-Die Wahrscheinlichkeit $P(S'_j|\overline{F})$ entsteht dadurch, dass
+Die Wahrscheinlichkeit $P(S'_j\mid \overline{F})$ entsteht dadurch, dass
der Benutzer der Linknavigation folgt, sie entspricht also der früher
-berechnenten Wahrscheinlichkeit
+berechneten Wahrscheinlichkeit
\[
-P(S'_j|\overline{F}) = \sum_{i=1}^N P(S'_j|S_i) P(S_i).
+P(S'_j\mid \overline{F}) = \sum_{i=1}^N P(S'_j\mid S_i) P(S_i).
\]
oder in Vektorform
\[
-(P(S'_j|\overline{F}))_{j=1,\dots,n}
+(P(S'_j\mid \overline{F}))_{j=1,\dots,n}
=
Hp.
\]
-Über die spontane Besuchswahrscheinlichkeit $P(S'_j|F)$ wissen wir
+Über die spontane Besuchswahrscheinlichkeit $P(S'_j\mid F)$ wissen wir
nichts.
Eine erste Annahme könnte sein, dass jede Seite gleich wahrscheinlich
-ist, dass also $P(S'_j|F)=1/N$.
+ist, dass also $P(S'_j\mid F)=1/N$.
Alternativ könnte man auch eine Wahrscheinlichkeitsverteilung
-$q_j = P(S'_j|F)$ experimentell zu ermitteln versuchen.
+$q_j = P(S'_j\mid F)$ experimentell zu ermitteln versuchen.
Unter der Annahme, dass alle Seitenbesuche im Falle $F$ auf Grund
eines Sucheresultats einer Suchmaschine erfolgen, könnte die
Suchmaschine den Vektor $q$ aus ihrer eigenen Suchstatistik ermitteln.
@@ -286,7 +312,7 @@ Das erweiterte Modell kann also durch
P(S'_j)
=
\sum_{i=1}^N
-\alpha P(S'_j|S_i) P(S_i)
+\alpha P(S'_j\mid S_i) P(S_i)
+
(1-\alpha) q_j
\qquad\Rightarrow\qquad
@@ -309,7 +335,7 @@ Wir streben daher an, die Formel~\eqref{buch:google:eqn:composed}
ebenfalls in die Form $p=Gp$ mit einer neuen Matrix $G$ zu bringen.
Die Matrixform von
-\label{buch:google:eqn:composed}
+\eqref{buch:google:eqn:composed}
zeigt, dass sich die gesuchte Matrix $G$ zusammensetzt aus dem Summanden
$\alpha H$ und einem weiteren Summanden $A$ mit der Eigenschaft, dass
$Ap = q$ für jeden beliebigen Wahrscheinlichkeitsvektor $p$.
@@ -384,8 +410,10 @@ heisst die
\index{Google-Matrix}%
\end{definition}
-Die Google-Matrix wurde von Sergei Brin und Larry Page
-in dem Artikel \cite{BRIN1998107} als Basis der Suchmaschine
+Die Google-Matrix wurde von Sergey Brin und Larry Page
+\index{Brin, Sergey}%
+\index{Page, Larry}%
+in dem Artikel \cite{BRIN1998107} als Grundlage der Suchmaschine
Google beschrieben.
Sie war die Basis für den Erfolg von Google und wird dem Prinzip nach
auch heute noch zur Rangierung der Suchresultate verwendet.
@@ -406,6 +434,8 @@ ansehen.
Die Kundenwebsite wird daher in den Suchresultaten weiter oben gezeigt.
Das Problem rührt natürlich daher, dass alle Links als gleichermassen
aussagekräftig betrachtet werden.
+Solche Websites werden heutzutage von der Berechnung der Google-Matrix
+ausgeschlossen.
Die aktuell verwendete Variante der Google-Matrix ist natürlich ein
Betriebsgeheimnis der Firma Google.
@@ -417,7 +447,7 @@ Betriebsgeheimnis der Firma Google.
\label{buch:subsection:wahrscheinlichkeitsverteilung}}
Die Google-Matrix $G$ selbst interessiert weniger als die
Wahrscheinlichkeitsverteilung $p$.
-Ziel dieses Abschnittes, ist den Vektor $p$ zu berechnen.
+Ziel dieses Abschnittes ist, den Vektor $p$ zu berechnen.
\subsubsection{Stationäre Verteilung}
Die Einträge $P(S_i)$ des Vektors $p$ geben die Wahrscheinlichkeit an, mit
@@ -445,14 +475,17 @@ Gp = p.
$p$ ist also ein Eigenvektor der Matrix $G$ zum Eigenwert $1$.
Für ein sehr kleines Netzwerk wie im oben dargestellten Beispiel ist es
-einfach, mit verbreiteten numerischen Algorithmen alle Eigenwerte und
+einfach, mit gängigen numerischen Algorithmen alle Eigenwerte und
Eigenvektoren zu finden.
Benötigt wird allerdings nur der Eigenvektor zum Eigenwert $1$.
\begin{beispiel}
-Ein Eigenvektor zum Eigenwert $1$ der Matrix $G$, die aus der Matrix $H$
+Octave
+\index{Octave}
+findet den folgenden Eigenvektor zum Eigenwert $1$ der Matrix $G$,
+die aus der Matrix $H$
von \eqref{buch:google:eqn:linkmatrixbeispiel}
-und dem Vektor $q=\frac18u$ und $\alpha=0.9$ gebildet wurde, ist
+und dem Vektor $q=\frac18U$ und $\alpha=0.9$ gebildet wurde:
\[
p_0=\begin{pmatrix}
0.20100\\
@@ -491,10 +524,14 @@ erhält man die Wahrscheinlichkeitsverteilung $p$.
\subsubsection{Potenzverfahren}
-Die üblichen Algorithmen wie der Francis-Algorithmus zur Bestimmung
-von Eigenwerten und Eigenvektoren ist für grosse Matrizen nicht praktikabel.
+Die üblichen Algorithmen wie der von den meisten Softwarepaketen
+verwendete Francis-Algorithmus \cite{francis:watkins_paper,buch:watkins}
+\index{Francis-Algorithmus}%
+zur Bestimmung von Eigenwerten
+und Eigenvektoren ist für grosse Matrizen nicht praktikabel.
Da aber $1$ der betragsgrösste Eigenwert ist, kann sehr oft ein zugehöriger
Eigenvektor mit der nachfolgend beschriebenen {\em Potenzmethode}
+\index{Potenzmethode}%
gefunden werden.
Sei $A$ eine $n\times n$-Matrix, der Einfachheit halber nehmen wir an,
@@ -535,8 +572,8 @@ a_n\biggl(\frac{\lambda_n}{\lambda_1}\biggr)^k v_n.
\]
Da alle Brüche Betrag $<1$ haben, konvergiert die rechte Seite für $k\to\infty$
gegeben den ersten Summanden.
-Durch wiederholte Anwendung von $A/\lambda_1$ auf einen (fast) belieibigen
-Startvektor $v$ erhält man also eine Folge von Vektoren, die gegen eine
+Durch wiederholte Anwendung von $A/\lambda_1$ auf einen (fast) beliebigen
+Startvektor $v$ erhält man also eine Folge von Vektoren, die gegen einen
Eigenvektor zum Eigenwert $\lambda_1$ konvergiert.
Numerische Ungenauigkeiten können bewirken, dass die Iteration mit der
diff --git a/buch/chapters/80-wahrscheinlichkeit/markov.tex b/buch/chapters/80-wahrscheinlichkeit/markov.tex
index 0485714..1e30010 100644
--- a/buch/chapters/80-wahrscheinlichkeit/markov.tex
+++ b/buch/chapters/80-wahrscheinlichkeit/markov.tex
@@ -18,7 +18,10 @@ werden.
%
\subsection{Markov-Eigenschaft}
% XXX Notation, Zustände, Übergangswahrscheinlichkeit
-Ein stochastischer Prozess ist eine Familie von Zustandsvariablen
+Ein stochastischer Prozess ist eine Familie von Zufallsvariablen
+\index{stochastischer Prozess}%
+\index{Prozess, stochastisch}%
+\index{Zufallsvariable}%
$X_t$ mit Werten in einer Menge $\mathcal{S}$ von Zuständen.
Der Parameter $t$ wird üblicherweise als die Zeit interpretiert,
er kann beliebige reelle Werte oder diskrete Werte annahmen, im letzten
@@ -36,6 +39,7 @@ Zustands $s\in\mathcal{S}$ zu einem späteren Zeitpunkt $t_1>t_0$
zu studieren.
Das Ereignis $\{X_t = x\}$ kann man sich als abhängig von der Vorgeschichte
vorstellen.
+\index{Vorgeschichte}%
Die Vorgeschichte besteht dabei aus dem Eintreten gewisser Ereignisse
\[
\{X_0=x_0\},
@@ -47,7 +51,7 @@ Die Vorgeschichte besteht dabei aus dem Eintreten gewisser Ereignisse
zu früheren Zeiten $t_0<t_1<\dots<t_n<t$.
Die bedingte Wahrscheinlichkeit
\begin{equation}
-P(X_t = x|
+P(X_t = x \mid
X_{t_n}=x_n\wedge X_{t_{n-1}}=x_{n-1}\wedge\dots\wedge X_{t_1}=x_1\wedge
X_{t_0}=x_0)
\label{buch:wahrscheinlichkeit:eqn:historybedingt}
@@ -58,6 +62,7 @@ die Zustände $x_0,x_1,\dots,x_n$ durchlaufen hat.
\subsubsection{Gedächtnislosigkeit}
% XXX Gedächtnislösigkeit, Markov-Eigenschaft
+\index{Markov-Eigenschaft}%
In vielen Fällen ist nur der letzte durchlaufene Zustand wichtig.
Die Zustände in den Zeitpunkten $t_0<\dots<t_{n-1}$ haben dann keinen
Einfluss auf die Wahrscheinlichkeit.
@@ -73,25 +78,26 @@ $x_0,\dots,x_n,x\in \mathcal{S}$ die
Wahrscheinlichkeit~\eqref{buch:wahrscheinlichkeit:eqn:historybedingt}
nicht von der Vorgeschichte abhängt, also
\[
-P(X_t = x|
+P(X_t = x\mid
X_{t_n}=x_n\wedge X_{t_{n-1}}=x_{n-1}\wedge\dots\wedge X_{t_1}=x_1\wedge
X_{t_0}=x_0)
=
-P(X_t = x|
+P(X_t = x \mid
X_{t_n}=x_n).
\]
\index{Markov-Eigenschaft}
\end{definition}
-Die Wahrscheinlichkeiten $P(X_t=x|X_s=y)$ mit $t>s$ bestimmen das
+Die Wahrscheinlichkeiten $P(X_t=x\mid X_s=y)$ mit $t>s$ bestimmen das
zeitliche Verhalten der Wahrscheinlichkeiten vollständig.
Wir schreiben daher auch
\[
p_{xy}(t, s)
=
-P(X_t = x|X_s=y)
+P(X_t = x\mid X_s=y)
\]
für die sogenannte {\em transiente Übergangswahrscheinlichkeit}.
+\index{transiente Übergangswahrscheinlichkeit}%
Für eine endliche Menge von Zuständen, können die transienten
Übergangswahrscheinlichkeiten auch als zeitabhängige
quadratische Matrix $P(s,t)$ geschrieben werden, deren
@@ -105,13 +111,14 @@ mit den Zuständen $x,y\in\mathcal{S}$ indiziert sind.
\subsubsection{Die Chapman-Kolmogorov-Gleichung}
% XXX Chapman-Kolmogorov-Gleichung
+\index{Chapman-Kolmogorov-Gleichung}%
Man beachte, dass in der Definition der Markov-Eigenschaft
keine Voraussetzungen darüber gemacht werden, wie nahe
am Zeitpunkt $t$ der letzte Zeitpunkt $t_n$ der Vorgeschichte liegt.
Die transienten Übergangswahrscheinlichkeiten $p_{xy}(s,t)$ werden
aber im allgemeinen davon abhängen, wie weit in der Vergangenheit
der Zeitpunkt $s<t$ liegt.
-Für eine näheren Zeitpunkt $\tau$ mit $s<\tau <t$ muss es daher
+Für einen näheren Zeitpunkt $\tau$ mit $s<\tau <t$ muss es daher
einen Zusammenhang zwischen den transienten Übergangswahrscheinlichkeiten
$p_{xy}(s,\tau)$, $p_{xy}(\tau,t)$ und $p_{xy}(s,t)$ geben.
@@ -187,16 +194,18 @@ Es ist üblich, für die Zeitpunkte ganze oder natürliche Zahlen zu
verwenden.
\begin{definition}
-Eine diskrete Markov-Kette ist ein stochastischer Prozess
+Eine {\em diskrete Markov-Kette} ist ein stochastischer Prozess
$(X_t)_{t\in\mathbb{N}}$ mit Werten in $\mathcal{S}$, der die
Markov-Eigenschaft
\[
-P(X_{n+1}=x_{n+1}|X_n=x_n\wedge\dots X_0=x_0)
+P(X_{n+1}=x_{n+1}\mid X_n=x_n\wedge\dots X_0=x_0)
=
-P(X_{n+1}=x_{n+1}|X_n=x_n)
+P(X_{n+1}=x_{n+1}\mid X_n=x_n)
\]
hat.
\end{definition}
+\index{diskrete Markov-Kette}%
+\index{Markov-Kette, diskret}%
\begin{figure}
\centering
@@ -220,8 +229,9 @@ p_{11}(n+1,n) & \dots & p_{1s}(n+1,n)\\
p_{11}(n+1,n) & \dots & p_{1s}(n+1,n)
\end{pmatrix},
\]
-auch die $1$-Schritt Übergangswahrscheinlichkeit genannt, kann man jetzt
+auch die $1$-Schritt-Übergangswahrscheinlichkeit genannt, kann man jetzt
auch die Matrix der Überganswahrscheinlichkeiten für mehrere Schritte
+\index{Ubergangswahrscheinlichkeit@Übergangswahrscheinlichkeit}%
\[
T(n+m,n)
=
@@ -239,12 +249,12 @@ verwendet werden, wenn sie zwei Bedingungen erfüllt:
\begin{enumerate}
\item Die Einträge von $T$ müssen als Wahrscheinlichkeiten interpretiert
werden können, sie müssen also alle zwischen $0$ und $1$ sein:
-$0\le t_{ij}\le 1$ für $i,j\in\mathcal{S}$
+$0\le t_{i\!j}\le 1$ für $i,j\in\mathcal{S}$
\item Die Matrix muss alle möglichen Fälle erfassen.
Dazu ist notwendig, dass sich die Wahrscheinlichkeiten aller Übergänge
aus einem Zustand $j$ zu $1$ summieren, also
\[
-\sum_{i\in\mathcal{S}} p_{ij} = 1.
+\sum_{i\in\mathcal{S}} p_{i\!j} = 1.
\]
Die Summe der Elemente einer Spalte
\end{enumerate}
@@ -252,6 +262,7 @@ Die Summe der Elemente einer Spalte
\begin{beispiel}
Die Permutationsmatrix einer Permutation $\sigma\in S_n$
(Abschnitt~\label{buch:section:permutationsmatrizen})
+\index{Permutationsmatrix}%
ist eine Matrix mit Einträgen $0$ und $1$, so dass die erste Bedingung
erfüllt ist.
In jeder Zeile oder Spalte kommt genau eine $1$ vor, so dass auch die
@@ -269,8 +280,8 @@ p_i(n)
=
P(X_i=n)
\]
-geschrieben, die auch in einem Vektor $p(n)$ zusammengefasst
-werden können.
+geschrieben, die auch in einem Vektor $p(n)$ mit den Komponten
+$p_i(n)$ zusammengefasst werden können.
Die Matrix der Übergangswahrscheinlichkeiten erlaubt, die Verteilung
$p(n+1)$ aus der Verteilung $p(n)$ zu berechnen.
Nach dem Satz von der totalen Wahrscheinlichkeit ist nämlich
@@ -278,9 +289,9 @@ Nach dem Satz von der totalen Wahrscheinlichkeit ist nämlich
P(X_{n+1}=x)
=
\sum_{y\in\mathcal{S}}
-P(X_{n+1}=x|X_n=y) P(X_n=y)
+P(X_{n+1}=x\mid X_n=y) P(X_n=y)
\qquad\text{oder}\qquad
-p^{(n+1)} = T(n+1,n) p^{(n)}
+p(n+1) = T(n+1,n) p(n)
\]
in Matrixform.
Die Zeitentwicklung kann also durch Multiplikation mit der Übergangsmatrix
@@ -288,6 +299,7 @@ berechnet werden.
\subsubsection{Zeitunabhängige Übergangswahrscheinlichkeiten}
% XXX Übergangswahrscheinlichkeit
+\index{zeitunabhängige Übergangswahrscheinlichkeiten}
Besonderes einfach wird die Situation, wenn die Übergangsmatrix $T(n+1,n)$
nicht von der Zeit abhängt.
In diesem Fall ist $T(n+1,n) = T$ für alle $n$.
@@ -311,32 +323,41 @@ homogene Markov-Kette mit Übergangsmatrix $T$, wenn $Tp=p$.
\end{definition}
Eine stationäre Verteilung ist offenbar ein Eigenvektor der Matrix
-$T$ zum Eigenwert $1$.
+$T$ zum Eigenwert $1$.
Gefunden werden kann er als Lösung des Gleichungssystems $Tp=p$.
-Dazu muss die Matrix $T-E$ singulär sein.
-Die Summe einer Spalte von $T$ ist aber immer ein, da $E$ in jeder Spalte
+Dazu muss aber die Matrix $T-I$ singulär sein, wie man wie folgt
+einsehen kann.
+Die Summe einer Spalte von $T$ ist aber immer $1$, da sich die
+Wahrscheinlichkeiten zu $1$ summieren müssen.
+Da die Einheitsmatrix $I$ in jeder Spalte
genau eine $1$ enthält, ist die Summe der Einträge einer Spalte von
-$T-E$ folglich $0$.
-Die Summe aller Zeilen von $T-E$ ist also $0$, die Matrix $T-E$
+$I$ ebenfalls $1$.
+Die Summe einer Spalte von $T-I$ ist folglich $0$.
+Die Summe aller Zeilen von $T-I$ ist also $0$, die Matrix $T-I$
ist singulär.
-Dies garantiert aber noch nicht, dass alle Einträge in diesem
-Eigenvektor auch tatsächlich nichtnegativ sind.
+
+Dass $T-I$ singulär ist, garantiert aber noch nicht,
+dass alle Einträge in einem zum Eigenwert $1$
+Eigenvektor auch tatsächlich nichtnegativ gewählt werden können.
Die Perron-Frobienus-Theorie von
+\index{Perron-Frobenius-Theorie}%
Abschnitt~\ref{buch:section:positive-vektoren-und-matrizen}
-beweist, dass sich immer ein Eigenvektor mit nichtnegativen
-Einträgen finden lässt.
+beweist, dass genau dies immer möglich ist.
-Es ist aber nicht garantiert, dass eine stationäre Verteilung
+Es ist nicht garantiert, dass eine stationäre Verteilung
auch eindeutig bestimmt ist.
Dieser Fall tritt immer ein, wenn die geometrische Vielfachheit
des Eigenwerts $1$ grösser ist als $1$.
In Abschnitt~\ref{buch:subsection:elementare-eigenschaften}
werden Bedingungen an eine Matrix $T$ untersucht, die garantieren,
-dass der Eigenraum zum Eigenvektor $1$ einedeutig bestimmt ist.
+dass der Eigenraum zum Eigenvektor $1$ eindimensional ist.
\begin{beispiel}
-Als Beispiel dafür betrachten wir eine Permutation $\sigma\in S_n$
-und die zugehörige Permutationsmatrix $P$,
+Als Beispiel dafür, dass der Eigenraum $\mathcal{E}_1(T)$
+mehrdimensional sein kann, betrachten wir eine Permutation $\sigma\in S_n$
+\index{Permutation}%
+und die zugehörige Permutationsmatrix $P_\sigma$,
+\index{Permutationsmatrix}%
wie sie in Abschnitt~\label{buch:section:permutationsmatrizen}
beschrieben worden ist.
Wir verwenden die
@@ -365,7 +386,8 @@ setzt.
Die Konstruktion stellt sicher, dass sich die Komponenten zu $1$
summieren.
Wir können aus dem Beispiel auch ableiten, dass die geometrische
-Vielfachheit des Eigenvektors $1$ mindestens so gross ist wie die
+Vielfachheit des Eigenwerts $1$ einer Permutationsmatrix $P_\sigma$
+mindestens so gross ist wie die
Anzahl der Zyklen der Permutation $\sigma$.
\end{beispiel}
@@ -377,8 +399,9 @@ Die Zyklen können daher unabhängig voneinander studiert werden.
Diese Idee kann auf allgemeine Markov-Ketten verallgemeinert werden.
\begin{definition}
-Zwei Zustände $i,j\in\mathcal{S}$ kommunizieren, wenn die
-Übergangswahrscheinlichkeiten $T_{ij}(n) \ne 0$ und $T_{ij}(n)\ne 0$ sind
+Zwei Zustände $i,j\in\mathcal{S}$ {\em kommunizieren}, wenn die
+\index{kommunizieren}%
+Übergangswahrscheinlichkeiten $T_{i\!j}(n) \ne 0$ und $T_{i\!j}(n)\ne 0$ sind
für $n$ gross genug.
\end{definition}
@@ -407,12 +430,14 @@ Solche Markov-Ketten können unabhängig voneinander studiert werden.
Die Bedingung der Irreduzibilität ist gleichbedeutend damit,
dass für genügend grosses $n$ alle Matrixelemente von $T^n$ positiv sind.
-Solche Matrizen nennt man positiv,
+Solche Matrizen nennt man {\em positiv},
+\index{positive Matrix}%
in Abschnitt~\ref{buch:section:positive-vektoren-und-matrizen}
wird gezeigt, dass positive Matrizen immer eine eindeutige
stationäre Verteilung haben.
In Abbildung~\ref{buch:wahrscheinlichkeit:fig:markovzerfall}
ist eine reduzible Markov-Kette dargestellt, die Zustandsmenge
+\index{reduzible Markov-Kette}%
zerfällt in zwei Teilmengen von Zuständen, die nicht miteinander
kommunizieren.
Ein irreduzible Markov-Kette liegt vor, wenn sich ähnlich wie
@@ -420,7 +445,7 @@ in Abbildung~\ref{buch:wahrscheinlichkeit:fig:diskretemarkovkette}
jeder Zustand von jedem anderen aus erreichen lässt.
Wenn sich der Vektorraum $\mathbb{R}^n$ in zwei unter $T$ invariante
-Unterräme zerlegen lässt, dann hat nach Wahl von Basen in den Unterräumen
+Unterräume zerlegen lässt, dann hat nach Wahl von Basen in den Unterräumen
die Matrix $T$ die Form
\[
\left(
@@ -483,7 +508,7 @@ Die stationären Verteilungen
\operatorname{Stat}(T)
=
\{
-p\in\mathbb R_+^n\;|\; \text{$Tp=p $ und $\|p\|_1=1$}
+p\in\mathbb R_+^n \mid \text{$Tp=p $ und $\|p\|_1=1$}
\}
\]
bilden was man eine konvexe Menge nennt.
@@ -495,7 +520,7 @@ Jede Verteilung auf der ``Verbindungsstrecke'' zwischen den beiden
Verteilungen ist auch wieder stationär.
\begin{definition}
-Eine {\em konvexe Kombination} von Vektoren $v_1,\dots,v_k\in\mathbb{R^n}$
+Eine {\em konvexe Kombination} von Vektoren $v_1,\dots,v_k\in\mathbb{R}^n$
ist ein Vektor der Form
\[
v=t_1v_1+\dots + t_kv_k
@@ -512,7 +537,8 @@ wieder in $M$ ist.
Die konvexen Kombinationen der Vektoren sind Linearkombination
mit nichtnegativen Koeffizienten. Sie bilden im Allgemeinen
-einen $(k-1)$-Simplex in $\mathbb{R}^n$.
+einen $(k-1)$-Simplex in $\mathbb{R}^n$ (siehe auch
+Abbildung~\ref{buch:wahrscheinlichkeit:fig:konvex}).
Für zwei Punkte $x$ und $y$ bilden die konvexen Kombination
$tx+(1-t)y$ für $t\in[0,1]$ die Verbindungsstrecke der beiden
Vektoren.
@@ -527,7 +553,7 @@ ihre Verbindungsstrecke enthält
Im Beispiel der Google-Matrix wurde ein iterativer Algorithmus
zur Berechnung des Pagerank verwendet.
Es stellt sich daher die Frage, ob diese Methode für andere homogene
-Markov-Ketten auch funkioniert.
+Markov-Ketten auch funktioniert.
Man beginnt also mit einer beliebigen Verteilung $p(0)$ und wendet
die Übergangsmatrix $T$ wiederholt an.
Es entsteht somit eine Folge $p(n) = T^np(0)$.
@@ -546,8 +572,8 @@ Verteilung.
Für eine stationäre Verteilung $p(0)$ ist die Folge $p(n)$ eine
konstante Folge, sie konvergiert also gegen $p(0)$.
Stationäre Verteilungen sind also automatisch Grenzverteilungen.
-Falls der Raum der stationären Verteilungen mehrdimensional sind,
-dann ist auch die Grenzverteilung nicht eindeutig bestimmt, selbst
+Falls der Raum der stationären Verteilungen mehrdimensional ist,
+braucht die Grenzverteilung nicht eindeutig bestimmt zu sein, selbst
wenn sie existiert.
Aber nicht einmal die Existenz einer Grenzverteilung ist garantiert,
wie das folgende Beispiel zeigt.
@@ -578,6 +604,8 @@ p(2)&=p(5)=p(8)=\dots =\begin{pmatrix}p_3(0)\\p_1(0)\\p_2(0)\end{pmatrix}.
\end{align*}
Die Folge $p(n)$ kann also nur dann konvergieren, wenn die drei
Komponenten gleich sind.
+Insbesondere gibt es keine Grenzverteilung, wenn sie nicht alle
+gleich sind.
\end{beispiel}
\subsubsection{Erwartungswert und Varianz}
@@ -588,11 +616,11 @@ zu berechnen.
Dazu muss jedem Zustand ein Zahlenwert zugeordnet werden.
Sei also
\(
-g: \mathcal{S}\to R
+g: \mathcal{S}\to \mathbb{R}
\)
eine Funktion, die einem Zustand eine reelle Zahl zuordnet.
Aus der Zufallsvariable $X_n$ des Zustands zur Zeit $n$ wird daraus
-die Zufallsvariable $Y_n=g(X_n)$ des Wertes zur Zeit $n$.
+die reellwertige Zufallsvariable $Y_n=g(X_n)$ des Wertes zur Zeit $n$.
Die Abbildung $g$ kann auch als Vektor mit der Komponenten $g_i$
für $i\in\mathcal{S}$ betrachtet werden, wir verwenden für diesen
Vektor wieder die Schreibweise $g$.
@@ -634,7 +662,7 @@ definieren.
In Abschnitt~\ref{buch:section:paradoxon-von-parrondo} wird ein Spiel
vorgestellt, in dem der Gewinn davon abhängt, welcher Übergang stattfindet,
nicht welcher Zustand erreicht wird.
-Es git daher eine Matrix $G$ von Gewinnen, der Eintrag $g_{ij}$ ist
+Es git daher eine Matrix $G$ von Gewinnen, der Eintrag $g_{i\!j}$ ist
der Gewinn, der bei einem Übergang von Zustand $j$ in den Zustand $i$
ausgezahlt wird.
Mit dieser Matrix lassen sich jetzt viele verschiedene Fragen beantworten:
@@ -642,7 +670,7 @@ Mit dieser Matrix lassen sich jetzt viele verschiedene Fragen beantworten:
\begin{frage}
\label{buch:wahrscheinlichkeit:frage1}
Mit welchem Gewinn kann man in Runde $n$ des Spiels rechnen,
-wenn $p(n-1)$ die Verteilung zur Zeit $n-1$ ist?
+wenn die Verteilung zur Zeit $n-1$ durch $p(n-1)$ gegeben ist?
\end{frage}
Der Erwartungswert ist
@@ -664,15 +692,15 @@ einer Spielrunde im Zustand $i$ befindet?
\end{frage}
Dies ist der Spezialfall der Frage~\ref{buch:wahrscheinlichkeit:frage1}
-für die Verteilung $p_j(n-1) = \delta_{ij}$.
+für die Verteilung $p_j(n-1) = \delta_{i\!j}$.
Der Erwartungswert ist die Summe der Spalte $j$ der Matrix $G\odot T$.
Man kann das Produkt $U^t(G\odot T)$ also auch als eine Zeilenvektor
von Gewinnerwartungen unter der Vorbedingung $X_{n-1}=j$ betrachten.
\[
\begin{pmatrix}
-E(Y|X_{n-1}=1)
+E(Y\mid X_{n-1}=1)
&\dots&
-E(Y|X_{n-1}=n)
+E(Y\mid X_{n-1}=n)
\end{pmatrix}
=
U^t (G\odot T).
@@ -681,6 +709,9 @@ Indem man $G$ durch $G^{\odot k}$ ersetzt, kann man beliebige höhere
Momente berechnen.
\subsection{Absorbierende Zustände}
+In diesem Abschnitt gehen wir immer von einer irreduziblen Markov-Kette
+aus.
+
% XXX Definition
Eine Grenzverteilung beschreibt die relative Häufigkeit, mit der
der Prozess in den verschiedenen Zuständen vorbeikommt.
@@ -710,13 +741,13 @@ sie für alle zukünftigen Zustände in diesem Zustand.
Eine Markov-Kette kann mehrere absorbierende Zustände haben, wie in
Abbildung~\ref{buch:wahrscheinlichkeit:fig:abs} dargestellt.
-Indem man die absorbierenden Zustände zuerst auflistet, bekommt die
-Übergangsmatrix die Form
+Indem man die absorbierenden Zustände zuerst auflistet, gefolgt von
+den transienten Zustädnen, bekommt die Übergangsmatrix die Form
\[
T=
\left(
\begin{array}{c|c}
-E&R\\
+I&R\\
\hline
0&Q
\end{array}
@@ -732,7 +763,7 @@ T^2
=
\left(
\begin{array}{c|c}
-E&R+RQ \\
+I&R+RQ \\
\hline
0&Q^2
\end{array}
@@ -742,7 +773,7 @@ T^3
=
\left(
\begin{array}{c|c}
-E&R+RQ+RQ^2 \\
+I&R+RQ+RQ^2 \\
\hline
0&Q^3
\end{array}
@@ -754,18 +785,19 @@ T^k
=
\left(
\begin{array}{c|c}
-E&\displaystyle R\sum_{l=0}^{k-1} Q^l \\
+I&\displaystyle R\sum_{l=0}^{k-1} Q^l \\
\hline
0&Q^k
\end{array}
\right).
\]
-Da man früher oder später in einem absorbierenden Zustand landet,
-muss $\lim_{k\to\infty} Q^k=0$ sein.
+Wegen der angenommenen Irreduzibilität wird man
+früher oder später in einem absorbierenden Zustand landet,
+daher muss $\lim_{k\to\infty} Q^k=0$ sein.
Die Summe in der rechten oberen Teilmatrix kann man als geometrische
Reihe summieren, man erhält die Matrix
\[
-\sum_{l=0}^{k-1} Q^l = (E-Q)^{-1}(E-Q^k),
+\sum_{l=0}^{k-1} Q^l = (I-Q)^{-1}(I-Q^k),
\]
die für $k\to\infty$ gegen
\[
@@ -773,7 +805,7 @@ N
=
\lim_{k\to\infty} \sum_{l=0}^{k-1} Q^l
=
-(E-Q)^{-1}
+(I-Q)^{-1}
\]
konvergiert.
Die Matrix $N$ heisst die {\em Fundamentalmatrix} der absorbierenden
@@ -784,12 +816,13 @@ Markov-Kette.
% XXX Absorptionszeit
Wie lange dauert es im Mittel, bis der Prozess in einem
Absorptionszustand $i$ stecken bleibt?
+\index{Absorbtionszeit}%
Die Fundamentalmatrix $N$ der Markov-Kette beantwortet diese
Frage.
-Wenn der Prozess genau im Schritt $k$ zum ersten Mal Zustand $i$
+Wenn der Prozess genau im Schritt $k$ zum ersten Mal im Zustand $i$
ankommt, dann ist $E(k)$ die mittlere Wartezeit.
Der Prozess verbringt also zunächst $k-1$ Schritte in transienten
-Zuständen, bevor er in einen absorbierenden Zustand wechselt.
+Zuständen, bevor er in einen absorbierenden Zustand $i$ wechselt.
Wir brauchen die Wahrscheinlichkeit für einen Entwicklung des Zustandes
ausgehend vom Zustand $j$, die nach $k-1$ Schritten im Zustand $l$
@@ -808,7 +841,7 @@ innerhalb der Menge der Pfade, die auch tatsächlich absorbiert werden,
das ist die bedingte Wahrscheinlichkeit
\begin{equation}
\begin{aligned}
-P(X_k = i\wedge X_{k-1} = l \wedge X_0=j|X_k=i)
+P(X_k = i\wedge X_{k-1} = l \wedge X_0=j\mid X_k=i)
&=
\frac{
P(X_k = i\wedge X_{k-1} = l \wedge X_0=j)
@@ -833,25 +866,25 @@ E(k)
&=
\sum_{k=0}^\infty
k(
-q^{(k)}_{lj}
+q^{(k)}_{l\!j}
-
-q^{(k-1)}_{lj}
+q^{(k-1)}_{l\!j}
)
\notag
\\
&=
\dots
+
-(k+1)(
-q^{(k)}_{lj}
+k(
+q^{(k-1)}_{l\!j}
-
-q^{(k+1)}_{lj}
+q^{(k)}_{l\!j}
)
+
-k(
-q^{(k-1)}_{lj}
+(k+1)(
+q^{(k)}_{l\!j}
-
-q^{(k)}_{lj}
+q^{(k+1)}_{l\!j}
)
+
\dots
@@ -860,23 +893,44 @@ q^{(k)}_{lj}
&=
\dots
+
-q^{(k-1)}_{lj}
+k
+q^{(k-1)}_{l\!j}
+\underbrace{
+\mathstrut
+-
+q^{(k)}_{l\!j}
++
+(k+1)
+q^{(k)}_{l\!j} }_{\displaystyle q^{(k)}_{l\!j}}
+\mathstrut
+-
+(k+1)
+q^{(k+1)}_{l\!j}
++
+\dots
+\\
+&=
+\dots
++
+q^{(k)}_{l\!j}
+
\dots
=
-\sum_{k} q^{(k)}_{lj}.
+\sum_{k} q^{(k)}_{l\!j}.
\notag
\end{align}
In zwei benachbarten Termen in
\eqref{buch:wahrscheinlichkeit:eqn:telescope}
-heben sich die Summanden $kq^{(k)}_{lj}$ weg, man spricht von
+heben sich die Summanden $kq^{(k)}_{l\!j}$ weg, man spricht von
einer teleskopischen Reihe.
+\index{teleskopische Reihe}%
Die verbleibenden Terme sind genau die Matrixelemente der Fundamentalmatrix $N$.
Die Fundamentalmatrix enthält also im Eintrag $(l,j)$ die Wartezeit
bis zur Absorption über den Zustand $l$.
\subsubsection{Wartezeit}
% XXX Mittlere Zeit bis zu einem bestimmten Zustand
+\index{Wartezeit}%
Die mittlere Wartezeit bis zum Erreichen eines Zustands kann mit der
Theorie zur Berechnung der Absorptionszeit berechnet werden.
Dazu modifiziert man den Prozess dahingehend, dass der Zielzustand
diff --git a/buch/chapters/80-wahrscheinlichkeit/parrondo.tex b/buch/chapters/80-wahrscheinlichkeit/parrondo.tex
index 50e7fda..94b39fc 100644
--- a/buch/chapters/80-wahrscheinlichkeit/parrondo.tex
+++ b/buch/chapters/80-wahrscheinlichkeit/parrondo.tex
@@ -32,7 +32,7 @@ E(X)
=
1\cdot P(X=1) + (-1)\cdot P(X=-1)
=
-\frac12+e + (-1)\biggl(\frac12-e\biggr)
+\frac12+e + (-1)(\frac12-e)
=
2e.
\)
@@ -41,6 +41,7 @@ Die Gewinnerwartung ist also genau dann negativ, wenn $e<0$ ist.
\subsubsection{Das Spiel $B$}
Das zweite Spiel $B$ ist etwas komplizierter, da der Spielablauf vom
aktuellen Kapital $K$ des Spielers abhängt.
+\index{Kapital}%
Wieder gewinnt oder verliert der Spieler eine Einheit,
die Gewinnwahrscheinlichkeit hängt aber vom Dreierrest des Kapitals ab.
Sei $Y$ die Zufallsvariable, die den Gewinn beschreibt.
@@ -49,9 +50,9 @@ andernfalls ist sie $\frac34$.
Formell ist
\begin{equation}
\begin{aligned}
-P(Y=1|\text{$K$ durch $3$ teilbar}) &= \frac{1}{10}
+P(Y=1\mid \text{$K$ durch $3$ teilbar}) &= \frac{1}{10}
\\
-P(Y=1|\text{$K$ nicht durch $3$ teilbar}) &= \frac{3}{4}
+P(Y=1\mid \text{$K$ nicht durch $3$ teilbar}) &= \frac{3}{4}
\end{aligned}
\label{buch:wahrscheinlichkeit:eqn:Bwahrscheinlichkeiten}
\end{equation}
@@ -74,7 +75,7 @@ statt, der Eintrag $b_{ij}$ ist die Wahrscheinlichkeit
\[
b_{ij}
=
-P(K\equiv i|K\equiv j),
+P(K\equiv i\mid K\equiv j),
\]
dass ein Übergang vom Zustand $j$ in den Zustand $i$ stattfindet.
Die Matrix ist
@@ -95,11 +96,11 @@ Mit den Wahrscheinlichkeiten von
findet man die Gewinnerwartung
\begin{equation}
\begin{aligned}
-E(Y| \text{$K$ durch $3$ teilbar})
+E(Y\mid \text{$K$ durch $3$ teilbar})
&=
-1\cdot P(Y=1|K\equiv 0\mod 3)
+1\cdot P(Y=1\mid K\equiv 0\mod 3)
+
-(-1)\cdot P(Y=-1|K\equiv 0\mod 3)
+(-1)\cdot P(Y=-1\mid K\equiv 0\mod 3)
\\
&=
\frac1{10}
@@ -108,11 +109,11 @@ E(Y| \text{$K$ durch $3$ teilbar})
=
-\frac{8}{10}
\\
-E(Y| \text{$K$ nicht durch $3$ teilbar})
+E(Y\mid \text{$K$ nicht durch $3$ teilbar})
&=
-1\cdot P(Y=1|K\not\equiv 0\mod 3)
+1\cdot P(Y=1\mid K\not\equiv 0\mod 3)
+
-(-1)\cdot P(Y=-1|K\not\equiv 0\mod 3)
+(-1)\cdot P(Y=-1\mid K\not\equiv 0\mod 3)
\\
&=
\frac34-\frac14
@@ -131,9 +132,9 @@ Die Gewinnerwartung in diesem Fall ist dann
\begin{align}
E(Y)
&=
-E(Y|\text{$K$ durch $3$ teilbar}) \cdot \frac13
+E(Y\mid \text{$K$ durch $3$ teilbar}) \cdot \frac13
+
-E(Y|\text{$K$ nicht durch $3$ teilbar}) \cdot \frac23
+E(Y\mid\text{$K$ nicht durch $3$ teilbar}) \cdot \frac23
\notag
\\
&=
@@ -164,13 +165,13 @@ G=\begin{pmatrix}
\end{pmatrix}
\]
gibt die Gewinne an, die bei einem Übergang anfallen.
-Die Matrixelemente $g_{ij}b_{ij}$ des Hadamard-Produktes
-$G\odot B$
-von $G$ mit $B$ enthält in den Spalten die Gewinnerwartungen
+Die Matrix mit den Matrixelementen $g_{ij}b_{ij}$ ist das Hadamard-Produktes
+$G\odot B$ von $G$ mit $B$.
+Sie enthält in den Spalten die Gewinnerwartungen
für die einzelnen Übergänge aus einem Zustand.
Die Summe der Elemente der Spalte $j$ enthält die Gewinnerwartung
\[
-E(Y|K\equiv j)
+E(Y\mid K\equiv j)
=
\sum_{i=0}^2 g_{ij}b_{ij}
\]
@@ -181,9 +182,9 @@ $U^t=\begin{pmatrix}1&1&1\end{pmatrix}$
entsteht:
\[
\begin{pmatrix}
-E(Y|K\equiv 0)&
-E(Y|K\equiv 1)&
-E(Y|K\equiv 2)
+E(Y\mid K\equiv 0)&
+E(Y\mid K\equiv 1)&
+E(Y\mid K\equiv 2)
\end{pmatrix}
=
U^t
@@ -194,7 +195,7 @@ Die Gewinnerwartung ist dann das Produkt
E(Y)
=
\sum_{i=0}^2
-E(Y|K\equiv i) p_i
+E(Y\mid K\equiv i) p_i
=
U^t
(G\odot B)p.
@@ -247,7 +248,7 @@ Das Spiel kennt die Dreierreste als die drei für das Spiel ausschlaggebenden
Zuständen.
Das Zustandsdiagramm~\ref{buch:wahrscheinlichkeit:fig:spielB} zeigt
die möglichen Übergänge und ihre Wahrscheinlichkeiten, die zugehörige
-Matrix ist
+Übergangsmatrix ist
\[
B
=
@@ -255,7 +256,7 @@ B
0 &\frac14 &\frac34\\
\frac1{10} &0 &\frac14\\
\frac9{10} &\frac34 &0
-\end{pmatrix}
+\end{pmatrix}.
\]
Die Matrix $B$ ist nicht negativ und man kann nachrechnen, dass $B^2>0$ ist.
Damit ist die Perron-Frobenius-Theorie von
@@ -263,6 +264,7 @@ Abschnitt~\ref{buch:section:positive-vektoren-und-matrizen}
anwendbar.
Ein Eigenvektor zum Eigenwert $1$ kann mit Hilfe des Gauss-Algorithmus
+\index{Gauss-Algorithmus}%
gefunden werden:
\begin{align*}
\begin{tabular}{|>{$}c<{$}>{$}c<{$}>{$}c<{$}|}
@@ -301,7 +303,7 @@ Daraus liest man einen möglichen Lösungsvektor mit den Komponenten
$5$, $2$ und $6$ ab.
Wir suchen aber einen Eigenvektor, der als Wahrscheinlichkeitsverteilung
dienen kann.
-Dazu müssen sich die Komponente zu $1$ summieren, was man durch normieren
+Dazu müssen sich die Komponenten zu $1$ summieren, was man durch Normieren
in der $l^1$-Norm erreichen kann:
\begin{equation}
p
@@ -344,11 +346,13 @@ nach
\begin{align*}
P(Y=+1)
&=
-P(Y=+1|K\equiv 0) \cdot P(K\equiv 0)
+P(Y=+1\mid K\equiv 0) \cdot P(K\equiv 0)
+
-P(Y=+1|K\equiv 1) \cdot P(K\equiv 1)
+P(Y=+1\mid K\equiv 1) \cdot P(K\equiv 1)
+\\
+&\qquad
+
-P(Y=+1|K\equiv 2) \cdot P(K\equiv 2)
+P(Y=+1\mid K\equiv 2) \cdot P(K\equiv 2)
\\
&=
\frac{1}{10}\cdot\frac{5}{13}
@@ -368,11 +372,13 @@ P(Y=+1|K\equiv 2) \cdot P(K\equiv 2)
\\
P(Y=-1)
&=
-P(Y=-1|K\equiv 0) \cdot P(K\equiv 0)
+P(Y=-1\mid K\equiv 0) \cdot P(K\equiv 0)
+
-P(Y=-1|K\equiv 1) \cdot P(K\equiv 1)
+P(Y=-1\mid K\equiv 1) \cdot P(K\equiv 1)
+\\
+&\qquad
+
-P(Y=-1|K\equiv 2) \cdot P(K\equiv 2)
+P(Y=-1\mid K\equiv 2) \cdot P(K\equiv 2)
\\
&=
\frac{9}{10}\cdot\frac{5}{13}
@@ -479,9 +485,9 @@ G\odot F = \begin{pmatrix}
Nach der früher dafür gefundenen Formel ist
\begin{align*}
\begin{pmatrix}
-E(Y|K\equiv 0)&
-E(Y|K\equiv 1)&
-E(Y|K\equiv 2)
+E(Y\mid K\equiv 0)&
+E(Y\mid K\equiv 1)&
+E(Y\mid K\equiv 2)
\end{pmatrix}
&=
U^t (G\odot \tilde{B})
@@ -710,10 +716,10 @@ A=\begin{pmatrix}
\subsubsection{Das Spiel $C$}
In jeder Durchführung des Spiels wird mit einem Münzwurf entschieden,
ob Spiel $A$ oder Spiel $B$ gespielt werden soll.
-Mit je Wahrscheinlichkeit $\frac12$ werden also die Übergansmatrizen
+Mit Wahrscheinlichkeit je $\frac12$ werden also die Übergansmatrizen
$A$ oder $B$ verwendet:
\[
-P(K\equiv i|K\equiv j)
+P(K\equiv i\mid K\equiv j)
=
A\cdot P(\text{Münzwurf Kopf})
+
diff --git a/buch/chapters/80-wahrscheinlichkeit/positiv.tex b/buch/chapters/80-wahrscheinlichkeit/positiv.tex
index 9f8f38f..159d6d3 100644
--- a/buch/chapters/80-wahrscheinlichkeit/positiv.tex
+++ b/buch/chapters/80-wahrscheinlichkeit/positiv.tex
@@ -7,15 +7,18 @@
\label{buch:section:positive-vektoren-und-matrizen}}
\rhead{Positive Vektoren und Matrizen}
Die Google-Matrix und die Matrizen, die wir in Markov-Ketten angetroffen
+\index{Google-Matrix}%
haben, zeichnen sich dadurch aus, dass alle ihre Einträge positiv oder
mindestens nicht negativ sind.
Die Perron-Frobenius-Theorie, die in diesem Abschnitt entwickelt
+\index{Perron-Frobenius-Theorie}%
werden soll, zeigt, dass Positivität einer Matrix nützliche
Konsequenzen für Eigenwerte und Eigenvektoren hat.
-Das wichtigste Resultat ist die Tatsache, dass postive Matrizen immer
+Das wichtigste Resultat ist die Tatsache, dass positive Matrizen immer
einen einzigen einfachen Eigenwert mit Betrag $\varrho(A)$ haben,
-was zum Beispiel die Konvergenz des Pagerank-Algorithmus garantiert.
-Dies wird im Satz von Perron-Frobenius in
+was zum Beispiel die Konvergenz des PageRank-Algorithmus garantiert.
+Dies wird im Satz~\ref{buch:wahrscheinlichkeit:satz:perron-frobenius}
+von Perron-Frobenius in
Abschnitt~\ref{buch:subsection:der-satz-von-perron-frobenius}
erklärt.
@@ -42,6 +45,8 @@ seine Komponenten nicht negativ sind: $v_i\ge 0\forall i$.
Geometrisch kann man sich die Menge der positven Vektoren in zwei Dimensionen
als die Punkte des ersten Quadranten oder in drei Dimensionen als die
+\index{Quadrant}%
+\index{Oktant}%
Vektoren im ersten Oktanten vorstellen.
Aus der Positivität eines Vektors lässt sich jetzt eine Vergleichsrelation
@@ -62,9 +67,9 @@ Die Definition funktionieren analog auch für Matrizen:
\begin{definition}
Eine Matrix $A\in M_{m\times n}(\mathbb{R})$ heisst {\em positiv},
-wenn alle ihre Einträge $a_{ij}$ positiv sind: $a_{ij}>0\forall i,j$.
+wenn alle ihre Einträge $a_{i\!j}$ positiv sind: $a_{i\!j}>0\forall i,j$.
Eine Matrix $A\in M_{m\times n}(\mathbb{R})$ heisst {\em nichtnegativ},
-wenn alle ihre Einträge $a_{ij}$ nichtnegativ sind: $a_{ij}\ge 0\forall i,j$.
+wenn alle ihre Einträge $a_{i\!j}$ nichtnegativ sind: $a_{i\!j}\ge 0\forall i,j$.
\index{positive Matrix}%
\index{nichtnegative Matrix}%
Man schreibt $A>B$ bzw.~$A\ge B$ wenn $A-B>0$ bzw.~$A-B\ge 0$.
@@ -133,7 +138,7 @@ Die Zyklen-Zerlegung einer Permutationsmatrix zeigt, welche
Unterräume von $\mathbb{R}^n$ die iterierten Bilder eines
Standardbasisvektors aufspannen.
Diese sind invariante Unterräume der Matrix.
-Das im Beispiel illustrierte Phänomen findet dann nur in invarianten
+Das im Beispiel illustrierte Phänomen findet nur in invarianten
Unterräumen statt.
\begin{beispiel}
@@ -151,7 +156,7 @@ A=\begin{pmatrix}
\end{equation}
besteht aus zwei $3\times 3$-Blöcken.
Die beiden Unterräume $V_1=\langle e_1,e_2,e_3\rangle$
-und $V_2=\langle e_4,e_5,e_6\rangle$ sind daher invariante
+und $V_2=\langle e_4,e_5,e_6\rangle$ sind invariante
Unterräume von $A$ und damit auch von $A^n$.
Die Potenzen haben daher auch die gleich Blockstruktur.
Insbesondere sind zwar die Blöcke von $A^n$ für $n>1$ positive
@@ -161,6 +166,7 @@ Teilmatrizen, aber die Matrix $A^n$ ist für alle $n$ nicht positiv.
\begin{definition}
Eine nichtnegative Matrix mit der Eigenschaft, dass $A^n>0$ für
ein genügend grosses $n$, heisst {\em primitiv}.
+\index{primitive Matrix}%
\end{definition}
Die Matrix $A$ von \eqref{buch:wahrscheinlichkeit:eqn:diffusion}
@@ -200,6 +206,7 @@ hinaus.
\begin{satz}[Trenntrick]
\label{buch:wahrscheinlichkeit:satz:trenntrick}
+\index{Trenntrick}%
Sind $u$ und $v$ nichtnegative Vektoren und $u>v$, dann gibt es eine
positive Zahl $\varepsilon>0$ derart, dass
$u\ge (1+\varepsilon)v$.
@@ -214,7 +221,7 @@ Wir betrachten die Zahl
=
\max_{v_i\ne 0} \frac{u_i}{v_i}.
\]
-Wegen $u>v$ sind die Quotienten auf der rechten Seite alle $>0$.
+Wegen $u>v$ sind die Quotienten auf der rechten Seite alle $>1$.
Da nur endlich viele Quotienten miteinander verglichen werden, ist
daher auch $\vartheta >1$.
Es folgt $u\ge \vartheta v$.
@@ -244,6 +251,7 @@ $Au>Av$ (siehe auch Satz~\ref{buch:wahrscheinlichkeit:satz:vergleichstrick})
\begin{satz}[Vergleichstrick]
\label{buch:wahrscheinlichkeit:satz:vergleichstrick}
+\index{Vergleichstrick}%
Sei $A$ eine positive Matrix und seinen $u$ und $v$ Vektoren
mit $u\ge v$ und $u\ne v$, dann ist $Au > Av$
(siehe auch Abbildung~\ref{buch:wahrscheinlichkeit:fig:vergleich}).
@@ -251,8 +259,8 @@ mit $u\ge v$ und $u\ne v$, dann ist $Au > Av$
\begin{proof}[Beweis]
Wir schreiben $d=u-v$, nach Voraussetzung ist $d\ne 0$.
-Der Satz besagt dann, dass aus $d\ge 0$ folgt, dass $Ad>0$, dies
-müssen wir beweisen.
+Der Satz besagt dann, dass aus $d\ge 0$ folgt, dass $Ad>0$.
+Dies müssen wir beweisen.
Die Ungleichung $Ad>0$ besagt, dass alle Komponenten von $Ad$
positiv sind.
@@ -261,16 +269,16 @@ Um dies nachzuweisen, berechnen wir
(Ad)_i
=
\sum_{j=1}^n
-a_{ij}
+a_{i\!j}
d_j.
\label{buch:wahrscheinlichkeit:eqn:Adpositiv}
\end{equation}
-Alle Terme $a_{ij}>0$, weil $A$ positiv ist, und mindestens eine
-der Komponenten $d_j>0$, weil $d\ne 0$.
+Alle Koeffizienten $a_{i\!j}$ sind $>0$, weil $A$ positiv ist.
+Mindestens eine der Komponenten $d_j$ ist $>0$, weil $d\ne 0$.
Insbesondere sind alle Terme der Summe $\ge 0$, woraus wir
bereits schliessen können, dass $(Ad)_i\ge 0$ sein muss.
Die Komponente $d_j>0$ liefert einen positiven Beitrag
-$a_{ij}d_j>0$
+$a_{i\!j}d_j>0$
zur Summe~\eqref{buch:wahrscheinlichkeit:eqn:Adpositiv},
also ist $(Ad)_i>0$.
\end{proof}
@@ -284,8 +292,8 @@ Ist $A$ eine positive Matrix und $u\ge 0$ mit $u\ne 0$, dann
ist $Au>0$.
\end{korollar}
-Eine positive Matrix macht also aus nicht verschwindenden
-und nicht negativen Vektoren positive Vektoren.
+Eine positive Matrix macht also aus nicht verschwindenden,
+nicht negativen Vektoren positive Vektoren.
%
% Die verallgemeinerte Dreiecksungleichung
@@ -331,30 +339,38 @@ eines gemeinsamen Einheitsvektors $c$ sind: $u_i=|u_i|c$
\begin{proof}[Beweis]
Die Aussage kann mit vollständiger Induktion bewiesen werden.
-Die Induktionsverankerung ist der Fall $n=2$ gegeben durch die
+Die Induktionsverankerung ist der Fall $n=2$, gegeben durch die
gewöhnliche Dreiecksungleichung.
Wir nehmen daher jetzt an, die Aussage sei für $n$ bereits bewiesen,
-wir müssen sie dann für $n+1$ beweisen.
+wir müssen sie für $n+1$ beweisen.
Die Summe von $n+1$ Vektoren kann man $u=u_1+\dots+u_n$ und $v=u_{n+1}$
aufteilen.
-Es gilt dann
+Es gilt nach der gewöhnlichen Dreiecksungleichung, dass
\[
|u+v|
=
|u_1+\dots+u_n+u_{n+1}|
+\le
+|u_1+\dots+u_n|+|u_{n+1}|
\]
-und
+mit Gleichheit genau dann, wenn $u_1+\dots+u_n$ und $u_{n+1}$
+linear abhängig sind.
+Nach Induktionsannahme gilt ausserdem
\[
-|u_1+\dots+u_n| = |u_1|+\dots+|u_n|.
+|u_1+\dots+u_n| \le |u_1|+\dots+|u_n|
\]
-Aus der Induktionsannahme folgt dann, dass die Vektoren $u_1,\dots,u_n$
+mit Gleichheit genau dann, wenn die Vektoren $u_1,\dots,u_n$
positive Vielfache eines Einheitsvektors $u$ sind, $u_i=|u_i|c$.
Es ist dann
\[
-u=u_1+\dots+u_n = \biggl(\sum_{i=1}^n |u_i|\biggr).
+u=u_1+\dots+u_n
+=
+\biggl(\sum_{i=1}^n |u_i|c\biggr)
+=
+\biggl(\sum_{i=1}^n |u_i|\biggr)c.
\]
-Aus der gewöhnlichen Dreiecksungleichung, angewendet auf $u$ und $v$
+Da $|u+v|=|u|+|v|$ genau dann gilt, wenn $u$ und $v$ linear abhängig sind,
folgt jetzt, dass $v$ ebenfalls ein nichtnegatives Vielfaches von $c$ ist.
Damit ist der Induktionsschritt vollzogen.
\end{proof}
@@ -380,7 +396,7 @@ Die motiviert den nachstehenden geometrischen Beweis des Satzes.
\begin{proof}[Beweis]
Wer stellen uns die komplexen Zahlen $u_i$ als Vektoren in der
-zweidimensionalen Gaussschen Ebene vor.
+zweidimensionalen Gauss\-schen Ebene vor.
Dann ist die Aussage nichts anderes als ein Spezialfall von
Satz~\ref{buch:wahrscheinlichkeit:satz:verallgemeinerte-dreiecksungleichung}
für den zweidimensionalen reellen Vektorraum $\mathbb{C}$.
@@ -396,8 +412,8 @@ Wir sind an den Eigenwerten und Eigenvektoren einer positiven
oder primitiven Matrix interessiert.
Nach Definition des Spektralradius $\varrho(A)$ muss es einen Eigenvektor
zu einem Eigenwert $\lambda$ mit Betrag $|\lambda|=\varrho(A)$ geben,
-aber a priori wissen wir nicht, ob es einen reellen Eigenwert vom
-Betrag $\varrho(A)$ gibt, und ob der Eigenvektor dazu reell ist.
+aber a priori wissen wir nicht, ob es einen reellen Eigenvektor zum
+Eigenwert $\varrho(A)$ gibt.
\begin{figure}
\centering
@@ -415,14 +431,16 @@ Iteriert man dies (Abbildung~\ref{buch:wahrscheinlichkeit:figure:positiv}),
wird die Bildmenge immer enger, bis sie nur ein
sehr enger Kegel um die Richtung des Eigenvektors ist.
Tatsächlich kann man aus dieser Idee auch einen topologischen
-Beweis des untenstehenden Satzes von Perron-Frobenius konstruieren.
+Beweis des untenstehenden Satzes von Perron-Frobenius konstruieren
+(\cite{skript:pftopo} und
+\cite{skript:hilbertmetric}).
Er beruht darauf, dass eine Abbildung, die Distanzen verkleinert,
einen Fixpunkt hat.
Die Konstruktion einer geeigneten Metrik ist allerdings eher
kompliziert, weshalb wir im Beweise der nachstehenden Aussagen
den konventionellen Weg wählen.
-Wir beginnen damit zu zeigen, dass für positive Matrizen $A$,
+Wir beginnen damit zu zeigen, dass für positive Matrizen $A$
nichtnegative Eigenvektoren zu Eigenwerten $\lambda\ne 0$
automatisch positiv sind.
Ausserdem müssen die zugehörigen Eigenwerte sogar positiv sein.
@@ -444,6 +462,14 @@ alle Komponenten von $\lambda u$ positiv sein.
Das ist nur möglich, wenn $\lambda > 0$.
\end{proof}
+Wenn $v$ ein Eigenvektor von $A$ ist, dann ist auch jedes Vielfache
+davon ein Eigenvektor, insbesondere können einzelne Komponenten
+des Vektors $v$ auch negativ sein.
+Der folgende Satz zeigt aber, dass man der Vektor aus den Beträgen
+von der Komponenten von $v$ ebenfalls ein Eigenvektor zum
+gleichen Eigenwert ist.
+Insbesondere gibt es immer einen nichtnegativen Eigenvektor.
+
\begin{satz}
\label{buch:wahrscheinlichkeit:satz:positivereigenvektor}
Sei $A$ eine positive Matrix und $v$ ein Eigenvektor von $A$ zu einem
@@ -457,12 +483,12 @@ Es gilt natürlich auch, dass
\[
(Au)_i
=
-\sum_{j=1}^n a_{ij}u_j
+\sum_{j=1}^n a_{i\!j}u_j
=
-\sum_{j=1}^n |a_{ij}v_j|
+\sum_{j=1}^n |a_{i\!j}v_j|
\ge
\biggl|
-\sum_{j=1}^n a_{ij}v_j
+\sum_{j=1}^n a_{i\!j}v_j
\biggr|
=
|(Av)_i|
@@ -490,22 +516,26 @@ können wir jetzt eine Zahl $\vartheta>1$ finden derart, dass
A^2 u \ge \vartheta \varrho(A) Au
\]
ist.
-Durch weitere Anwendung von $A$ findet man
-\begin{align*}
+Durch wiederholte Anwendung von $A$ findet man
+\begin{align}
A^3 u & \ge (\vartheta \varrho(A))^2 Au
+\notag
\\
&\phantom{0}\vdots
+\notag
\\
A^{k+1} u & \ge (\vartheta \varrho(A))^{k} Au
-\end{align*}
-Daraus kann man jetzt die Norm abschätzen:
+\label{buch:pf:eqn:ak+1}
+\end{align}
+Aus $|A^{k+1}u| \le \|A^k\|\,|Ak|$ und
+\eqref{buch:pf:eqn:ak+1} kann man jetzt die Norm von $A^k$ abschätzen:
\[
\begin{aligned}
-\| A^{k}\|\, |Au|
+\| A^{k}\|\cdot |Au|
&\ge
-\| A^{k+1}u\|
+| A^{k+1}u|
\ge
-(\vartheta\varrho(A))^{k} |Au|
+(\vartheta\varrho(A))^{k}\, |Au|
&&
\Rightarrow
&
@@ -518,8 +548,11 @@ Daraus kann man jetzt die Norm abschätzen:
\lim_{k\to\infty}
\|A^k\|^{\frac{1}{k}} &\ge \vartheta\varrho(A)
\\
-&&&\Rightarrow&
-\varrho(A)&\ge \vartheta\varrho(A)
+&&&&\|\phantom{00}&
+\\
+&&&%\Rightarrow&
+&
+\varrho(A)&\ge \vartheta\varrho(A).
\end{aligned}
\]
Wegen $\vartheta>1$ ist dies aber gar nicht möglich.
@@ -527,6 +560,10 @@ Dieser Widerspruch zeigt, dass $u=v$ sein muss, insbesondere ist
$v$ ein nichtnegativer Eigenvektor.
\end{proof}
+Die Potenzmethode funktioniert nur, wenn kein anderer Eigenwert
+den Betrag $\varrho(A)$ hat.
+Der folgende Satz garantiert dies.
+
\begin{satz}
Sei $A$ eine positive Matrix und $v$ ein Eigenvektor zu einem
Eigenwert $\lambda$ mit Betrag $|\lambda|=\varrho(A)$.
@@ -541,24 +578,22 @@ Aus der Eigenvektorgleichung für $u$ folgt
\begin{equation}
Au = \varrho(A) u
\quad\Rightarrow\quad
-\sum_{j=1}^n a_{ij}|v_j| = \varrho(A) |v_i|.
+\sum_{j=1}^n a_{i\!j}|v_j| = \varrho(A) |v_i|.
\label{buch:wahrscheinlichkeit:eqn:pev1}
\end{equation}
Anderseits ist $v$ ein Eigenvektor zum Eigenwert $\lambda$, also gilt
\[
-\sum_{j=1}^n a_{ij}v_j = \lambda v_i.
+\sum_{j=1}^n a_{i\!j}v_j = \lambda v_i.
\]
Der Betrag davon ist
\begin{equation}
\biggl|
-\sum_{j=1}^n a_{ij}v_j
+\sum_{j=1}^n a_{i\!j}v_j
\biggr|
=
|\lambda v_i|
=
-\varrho(A) |v_i|
-=
-\varrho |v_i|.
+\varrho(A) |v_i|.
\label{buch:wahrscheinlichkeit:eqn:pev2}
\end{equation}
Die beiden Gleichungen
@@ -566,28 +601,35 @@ Die beiden Gleichungen
und
\eqref{buch:wahrscheinlichkeit:eqn:pev2}
zusammen ergeben die Gleichung
-\[
+\begin{equation}
\biggl|
-\sum_{j=1}^n a_{ij}v_j
+\sum_{j=1}^n a_{i\!j}v_j
\biggr|
=
-\sum_{j=1}^n a_{ij}|v_j|.
-\]
+\sum_{j=1}^n a_{i\!j}|v_j|.
+\label{buch:pf:eqn:gleich}
+\end{equation}
Nach der verallgemeinerten Dreiecksungleichung
Satz~\ref{buch:subsection:verallgemeinerte-dreiecksungleichung}
-folgt jetzt, dass es eine komplexe Zahl $c$ vom Betrag $1$ gibt derart,
+folgt jetzt aus der Gleichheit in~\eqref{buch:pf:eqn:gleich},
+dass es eine komplexe Zahl $c$ vom Betrag $1$ gibt derart,
dass $v_j = |v_j|c=u_jc$.
-Insbesondere ist $v=cu$ und damit ist
+Insbesondere ist $v=cu$.
+Damit kann man jetzt $\lambda$ berechnen, es ist
\[
\lambda v = Av = Acu = c Au = c\varrho(A) u = \varrho(A) v,
\]
woraus $\lambda=\varrho(A)$ folgt.
\end{proof}
+In Anwendungen wollen wir schliessen, dass die Grenzverteilung
+eindeutig ist, dazu ist notwendig, dass der Eigenraum des
+Eigenwertes $\varrho(A)$ eindimensional ist.
+
\begin{satz}
\label{buch:wahrscheinlichkeit:satz:geometrischeinfach}
-Der Eigenraum einer positiven Matrix $A$ zum Eigenwert $\varrho(A)$ ist
-eindimensional.
+Der Eigenraum $E_{\varrho(A)}(A)$ einer positiven Matrix $A$
+zum Eigenwert $\varrho(A)$ ist eindimensional.
\end{satz}
\begin{proof}[Beweis]
@@ -613,7 +655,7 @@ A(u-cv)
\]
Der Vektor auf der rechten Seite hat mindestens eine verschwindende
Komponente.
-Der Vektor auf der linken Seite ist nach Vergleichstrick
+Der Vektor auf der linken Seite ist nach dem Vergleichstrick
Satz~\ref{buch:wahrscheinlichkeit:satz:vergleichstrick}
\[
A(u-cv) > 0,
@@ -623,14 +665,20 @@ Dieser Widerspruch zeigt, dass die Annahme, es gäbe einen von $u$ linear
unabhängigen Eigenvektor zum Eigenwert $\varrho(A)$ nicht haltbar ist.
\end{proof}
+Satz~\ref{buch:wahrscheinlichkeit:satz:geometrischeinfach} garantiert,
+dass der Eigenwert einfach ist.
+Es ist aber immer noch möglich, dass die algebraische Vielfachheit
+von $\varrho(A) >1$ ist, dass also $\dim\mathcal{E}_{\varrho(A)}(A)>1$
+ist.
+Dies ist jedoch nicht der Fall.
+
\begin{satz}
\label{buch:wahrscheinlichkeit:satz:algebraischeinfach}
-Der verallgemeinerte Eigenraum zum Eigenwert $\varrho(A)$ einer
-positiven Matrix $A$ ist eindimensional.
+Sei $A$ eine positive Matrix und $p^t$ ein positiver Eigenvektor
+der Matrix $A^t$ zum Eigenwert $\varrho(A^t)=\varrho(A)$.
Ist $u$ der Eigenvektor von $A$ zum Eigenwert $\varrho(A)$ nach
-Satz~\ref{buch:wahrscheinlichkeit:satz:geometrischeinfach}
-und $p^t$ der entsprechende Eigenvektor $A^t$, dann
-ist
+Satz~\ref{buch:wahrscheinlichkeit:satz:geometrischeinfach},
+dann ist
\[
\mathbb{R}^n
=
@@ -643,6 +691,8 @@ ist
\ker p
\]
eine Zerlegung in invariante Unterräume von $A$.
+Insbesondere ist der verallgemeinerte Eigenraum $\mathcal{E}_{\varrho(A)}(A)$
+von $A$ eindimensional.
\end{satz}
\begin{proof}[Beweis]
@@ -652,7 +702,8 @@ Insbesondere ist $u\not\in\ker p$
Es ist klar, dass $A\langle u\rangle = \langle Au\rangle = \langle u\rangle$
ein invarianter Unterraum ist.
-Für einen Vektor $x\in\mathbb{R}^n$ mit $px=0$ erfüllt das Bild $Ax$
+Für einen Vektor $x\in\mathbb{R}^n$ mit $px=0$, also $x\in\ker p$,
+erfüllt das Bild $Ax$ die Gleichung
\[
p(Ax)=(pA)x=(A^tp^t)^tx=
\varrho(A)(p^t)^tx
@@ -666,8 +717,8 @@ $\ker p$ ist $(n-1)$-dimensional, $\langle u\rangle$ ist eindimensional
und $u$ ist nicht in $\ker p$ enthalten.
Folglich spannen $\langle u\rangle$ und $\ker p$ den ganzen Raum auf.
-Gäbe es einen weitern linear unabhängigen Vektor im verallgemeinerten
-Eigenraum von $\mathcal{E}_{\varrho(A)}$, dann müsste es auch einen
+Gäbe es einen weiteren linear unabhängigen Vektor im verallgemeinerten
+Eigenraum $\mathcal{E}_{\varrho(A)}(A)$, dann müsste es auch einen
solchen Vektor in $\ker p$ geben.
Da $\ker p$ invariant ist, müsste es also auch einen weiteren Eigenvektor
$u_2$ zum Eigenwert $\varrho(A)$ in $\ker p$ geben.
@@ -712,10 +763,10 @@ Dann ist $\varrho(A)$ der einzige Eigenwert vom Betrag $\varrho(A)$
und er hat geometrische und algebraische Vielfachheit $1$.
\end{satz}
-\begin{proof}[Beweis]
+\begin{proof}[Beweisansatz]
Nach Voraussetzung gibt es ein $n$ derart, dass $A^n>0$.
Für $A^n$ gelten die Resultate von
Satz~\ref{buch:wahrscheinlichkeit:satz:perron-frobenius}.
-
-XXX TODO
+Man kann zeigen, dass die Eigenvektoren von $A^n$ auch
+Eigenvektoren von $A$ sind.
\end{proof}