From 2db90bfe4b174570424c408f04000902411d8755 Mon Sep 17 00:00:00 2001 From: Joshua Baer Date: Mon, 12 Apr 2021 21:51:55 +0200 Subject: update to current state of book --- buch/chapters/40-eigenwerte/spektraltheorie.tex | 1604 +++++++++++------------ 1 file changed, 802 insertions(+), 802 deletions(-) (limited to 'buch/chapters/40-eigenwerte/spektraltheorie.tex') diff --git a/buch/chapters/40-eigenwerte/spektraltheorie.tex b/buch/chapters/40-eigenwerte/spektraltheorie.tex index 466b99e..367a4c9 100644 --- a/buch/chapters/40-eigenwerte/spektraltheorie.tex +++ b/buch/chapters/40-eigenwerte/spektraltheorie.tex @@ -1,802 +1,802 @@ -% -% spektraltheorie.tex -% -% (c) 2020 Prof Dr Andreas Müller, Hochschule Rapperswil -% -\section{Spektraltheorie -\label{buch:section:spektraltheorie}} -Aufgabe der Spektraltheorie ist, Bedingungen an eine Matrix $A$ und eine -Funktion $f(z)$ zu finden, unter denen es möglich ist, $f(A)$ auf -konsistente Art und Weise zu definieren. -Weiter müssen Methoden entwickelt werden, mit denen $f(A)$ berechnet -werden kann. -Für ein Polynom $p(z)$ ist $p(A)$ durch einsetzen definiert. -Für Funktionen, die sich nicht durch ein Polynom darstellen lassen, -muss eine Approximation der Funktion durch Polynome verwendet werden. -Sei also $p_n(z)$ eine Folge von Polynomen, die als Approximation der -Funktion $f(z)$ verwendet werden soll. -Das Ziel ist, $f(A)$ als den Grenzwert der Matrixfolge $p_n(A)$ -zu definieren. - -Zunächst ist nicht klar, wie eine solche Folge gewählt werden muss. -Es muss eine Teilmenge von $K\subset\mathbb{C}$ spezifiziert werden, -auf der die Funktionenfolge $p_n(z)$ konvergieren muss, -damit auch die Konvergenz der Matrizenfolge $p_n(A)$ garantiert ist. -Auch die Art der Konvergenz von $p_n(z)$ auf der Menge $K$ ist noch -unklar. -Da der Abstand zweier Matrizen $A$ und $B$ in der Operatornorm -mit der grössten Abweichung $\|(A-B)v\|$ für Einheitsvektoren $v$ -gemessen wird, ist es einigermassen plausibel, dass -die grösse Abweichung zwischen zwei Polynomen $|p(z) - q(z)|$ auf -der Menge $K$ kleine sein muss, wenn $\|p(A)-q(A)\|$ klein -sein soll. -Da die Differenz $p(z)-q(z)$ für beliebige Polynome, die sich nicht -nur um eine Konstante unterscheiden, mit $z$ über alle Grenzen wächst, -muss $K$ beschränkt sein. -Gesucht ist also eine kompakte Menge $K\subset\mathbb{C}$ und eine -Folge $p_n(z)$ von Polynomen, die auf $K$ gleichmässig gegen $f(z)$ -konvergieren. -Die Wahl von $K$ muss sicherstellen, dass für jede gleichmässig -konvergente Folge von Polynomen $p_n(z)$ auch die Matrizenfolge -$p_n(A)$ konvergiert. - -Es wird sich zeigen, dass die Menge $K$ das Spektrum von $A$ ist, -also eine endliche Teilmenge von $\mathbb{C}$. -Jede Funktion kann auf so einer Menge durch Polynome exakt wiedergegeben -werden. -Es gibt insbesondere Folgen von Polynomen, die eingeschränkt -auf das Spektrum gleich sind, also $p_n(z)=p_m(z)$ für alle $z\in K$, -die aber ausserhalb des Spektrums alle verschieden sind. -Als Beispiel kann die Matrix -\[ -N=\begin{pmatrix}0&1\\0&0\end{pmatrix} -\] -herangezogen werden. -Ihr Spektrum ist $\operatorname{Sp}(N)=\{0\}\subset\mathbb{C}$. -Zwei Polynome stimmen genau dann auf $\operatorname{Sp}(N)$ überein, -wenn der konstante Koeffizient gleich ist. -Die Polynome $p(z)=z$ und $q(z)=z^2$ stimmen daher auf dem Spektrum -überein. -Für die Matrizen gilt aber $p(N)=N$ und $q(N)=N^2=0$, die Matrizen -stimmen also nicht überein. -Es braucht also zusätzliche Bedingungen an die Matrix $A$, die -sicherstellen, dass $p(A)=0$ ist, wann immer $p(z)=0$ für -$z\in\operatorname{Sp}(A)$ gilt. - -In diesem Abschnitt sollen diese Fragen untersucht werden. -In Abschnitt~\ref{buch:subsection:approximation-durch-polynome} -wird gezeigt, wie sich Funktionen durch Polynome approximieren -lassen, woraus sich dann Approximationen von $f(A)$ für diagonalisierbare -Matrizen mit reellen Eigenwerten ergeben. - -Der Satz von Stone-Weierstrass, der in -Abschnitt~\ref{buch:subsetion:stone-weierstrass} dargestellt wird, -ist ein sehr allgemeines Approximationsresultat, welches nicht nur -zeigt, dass die Approximation unter sehr natürlichen Voraussetzungen -beliebig genau möglich ist, sondern uns im komplexen Fall auch -weitere Einsicht dafür geben kann, welche Voraussetzungen an eine -komplexe Matrix gestellt werden müssen, damit man damit rechnen kann, -dass die Approximation zu einer konsistenten Definition von $f(A)$ führt. - -% -% Approximation -% -\subsection{Approximation durch Polynome -\label{buch:subsection:approximation-durch-polynome}} -Die der Berechnung von $f(A)$ für eine beleibige stetige Funktion, -die sich nicht als Potenzreihe schreiben lässt, verwendet Approximationen -von Polynomen. -Die numerische Mathematik hat eine grosse Menge von solchen -Approximationsverfahren entwickelt, wovon zwei kurz (ohne Beweise) -vorgestellt werden sollen. - -\subsubsection{Das Legendre-Interpolationspolynom} -Zu vorgegebenen, verschiedenen Zahlen $z_i\in\mathbb{C}$, $0\le i\le n$, -die auch die {\em Stützstellen} genannt werden, -gibt es immer ein Polynom vom Grade $n$, welches in den $z_i$ vorgegebene -Werte $f(z_i)$ annimmt. -Ein solches Polynom lässt sich im Prinzip mit Hilfe eines linearen -Gleichungssystems finden, man kann aber auch direkt eine Lösung -konstruieren. -Dazu bildet man erst die Polynome -\begin{align*} -l(z) &= (z-z_0)(z-z_1)\dots (z-z_n) \qquad\text{und} -\\ -l_i(z) &= (z-z_0)\dots \widehat{(z-z_i)}\dots (z-z_n). -\end{align*} -Darin bedeutet der Hut, dass dieser Term weggelassen werden soll. -Für $z\ne z_i$ ist $l_i(z)=l(z)/(z-z_i)$. -Die Polynome -\[ -k_i(z) -= -\frac{l_i(z)}{l_i(z_i)} -= -\frac{(z-z_0)\dots \widehat{(z-z_i)}\dots (z-z_n)}{(z_i-z_0)\dots \widehat{(z_i-z_i)}\dots (z_i-z_n)} -\] -haben die Eigenschaft -$k_i(z_j)=\delta_{ij}$. -Damit lässt sich jetzt ein Polynom -\[ -p(z) = \sum_{j=0}^n f(z_j) \frac{l_j(z)}{l_j(z_j)} -\] -vom Grad $n$ konstruieren, welches die Werte -\[ -p(z_i) -= -\sum_{j=0}^n f(z_j) \frac{l_j(z_i)}{l_j(z_j)} -= -\sum_{j=0}^n f(z_j) \delta_{ij} -= -f_(z_i) -\] -annimmt. -Das Polynom $p(z)$ heisst das {\em Legendre-Interpolationspolynom}. - -Zwar lässt sich also für eine endliche Menge von komplexen Zahlen immer -ein Polynom finden, welches vorgeschriebene Wert in allen diesen Zahlen -annimmt, doch ist die Stabilität für grosse $n$ eher beschränkt. - - -\subsubsection{Gleichmassige Approximation mit Bernstein-Polynomen} -Das Legendre-Interpolationspolynom nimmt in den Stützstellen die -verlangten Werte an, aber ausserhalb der Stützstellen ist nicht -garantiert, dass man eine gute Approximation einer Funktion $f(z)$ -erhält. - -Für die Approximation auf einem reellen Interval $[a,b]$ hat -Sergei Natanowitsch Bernstein ein -Dazu werden zuerst die reellen Bernsteinpolynome vom Grad $n$ -durch -\begin{align*} -B_{i,n}(t) = \binom{n}{i} t^i(1-t)^{n-i}. -\end{align*} -definiert. -Als Approximationspolynom für die auf dem Interval -$[0,1]$ definierte, stetige Funktion $f(t)$ kann man dann -\[ -B_n(f)(t) -= -\sum_{i=0}^n B_{i,n}(t) f\biggl(\frac{i}{n}\biggr) -\] -verwenden. -Die Polynome $B_n(f)(t)$ konvergieren gleichmässig auf $[0,1]$ -gegen die Funktion $f(t)$. -Über die Konvergenz ausserhalb des reellen Intervalls wird nichts -ausgesagt. -Die Approximation mit Bernstein-Polynomen ist daher nur sinnvoll, -wenn man weiss, dass die Eigenwerte der Matrix reell sind, was im -wesentlichen auf diagonalisierbare Matrizen führt. - -Für ein anderes Interval $[a,b]$ kann man ein Approximationspolynom -erhalten, indem man die affine Transformation -$s\mapsto (s-a)/(b-a)$ -von $[a,b]$ auf $[0,1]$ -verwendet. - -% -% Der Satz von Stone-Weierstrass -% -\subsection{Der Satz von Stone-Weierstrasss -\label{buch:subsetion:stone-weierstrass}} -Der Satz von Stone-Weierstrass behandelt im Gegensatz zu den in -Abschnitt~\ref{buch:subsection:approximation-durch-polynome} -besprochenen Approximationsmethoden nicht nur Funktionen von -reellen Variablen durch Polynome. -Vielmehr kann das Definitionsgebiet irgend eine abgeschlossene -und beschränkte Teilmenge eines reellen oder komplexen Vektorraumes -sein und die Funktionen können Polynome aber auch viel allgemeinere -Funktionen verwendet werden, wie zum Beispiel die Funktionen -$x\mapsto \cos nx$ und $x\mapsto \sin nx$ definiert auf dem -Intervall $[0,2\pi]$. -In diesem Fall liefert der Satz von Stone-Weierstrass die Aussage, -dass sich jede stetige periodische Funktion gleichmässig durch -trigonometrische Polynome approximieren lässt. - -Die Aussage des Satz von Stone-Weierstrass über reelle Funktionen -lässt sich nicht auf komplexe Funktionen erweitern. -Von besonderem Interesse ist jedoch, dass der Beweis des Satz -zeigt, warum solche Aussagen für komplexe Funktionen nicht mehr -zutreffen. -Im Falle der Approximation von komplexen Funktionen $f(z)$ durch Polynome -zwecks Definition von $f(A)$ werden sich daraus Bedingungen an die -Matrix ableiten lassen, die eine konsistente Definition überhaupt -erst ermöglichen werden. - -\subsubsection{Punkte trennen} -Aus den konstanten Funktionen lassen sich durch algebraische -Operationen nur weitere konstante Funktionen erzeugen. -Die konstanten Funktionen sind also nur dann eine genügend -reichhaltige Menge, wenn die Menge $K$ nur einen einzigen Punkt -enthält. -Damit sich Funktionen approximieren lassen, die in zwei Punkten -verschiedene Werte haben, muss es auch unter den zur Approximation -zur Verfügung stehenden Funktionen solche haben, deren Werte sich -in diesen Punkten unterscheiden. -Diese Bedingung wird in der folgenden Definition formalisiert. - -\begin{definition} -Sei $K$ eine beliebige Menge und $A$ eine Menge von Funktionen -$K\to \mathbb{C}$. -Man sagt, $A$ {\em trennt die Punkte von $K$}, wenn es für jedes Paar -\index{Punkte trennen}% -von Punkten $x,y\in K$ eine Funktion $f\in A$ gibt derart, dass -$f(x)\ne f(y)$. -\end{definition} - -Man kann sich die Funktionen $f$, die gemäss dieser Definition die Punkte -von $K$ trennen, als eine Art Koordinaten der Punkte in $K$ vorstellen. -Die Punkte der Teilmenge $K\subset \mathbb{R}^n$ werden zum Beispiel -von den Koordinatenfunktionen $x\mapsto x_i$ getrennt. -Wir schreiben für die $i$-Koordinate daher auch als Funktion $x_i(x)=x_i$. -Zwei verschiedene Punkte $x,y\in K$ unterscheiden sich in mindestens -einer Koordinate. -Für diese Koordinate sind dann die Werte der zugehörigen -Koordinatenfunktion $x_i=x_i(x)\ne x_i(y)=y_i$ verschieden, die -Funktionen $x_1(x)$ bis $x_n(x)$ trennen also die Punkte. - -\begin{beispiel} -Wir betrachten einen Kreis in der Ebene, also die Menge -\[ -S^1 -= -\{(x_1,x_2)\;|\; x_1^2 + x_2^2=1\} -\] -$S^1$ ist eine abgeschlossene und beschränkte Menge in $\mathbb{R}^2$. -Die Funktion $x\mapsto x_1$ trennt die Punkte nicht, denn zu jedem -Punkt $(x_1,x_2)\in S^2$ gibt es den an der ersten Achse -gespiegelten Punkt $\sigma(x)=(x_1,-x_2)$, dessen erste Koordinate -den gleichen Wert hat. -Ebenso trennt die Koordinatenfunktion $x\mapsto x_2$ die Punkte nicht. -Die Menge $A=\{ x_1(x), x_2(x)\}$ bestehend aus den beiden -Koordinatenfunktionen trennt dagegen die Punkte von $S^1$, da die Punkte -sich immer in mindestens einem Punkt unterscheiden. - -Man könnte auch versuchen, den Kreis in Polarkoordinaten zu beschreiben. -Die Funktion $\varphi(x)$, die jedem Punkt $x\in S^1$ den Polarwinkel -zuordnet, trennt sicher die Punkte des Kreises. -Zwei verschiedene Punkte auf dem Kreis haben verschieden Polarwinkel. -Die Menge $\{\varphi\}$ trennt also die Punkte von $S^1$. -Allerdings ist die Funktion nicht stetig, was zwar der Definition -nicht widerspricht aber ein Hindernis für spätere Anwendungen ist. -\end{beispiel} - - -\subsubsection{Der Satz von Stone-Weierstrass für reelle Funktionen} -Die Beispiele von Abschnitt~\ref{buch:subsection:approximation-durch-polynome} -haben bezeigt, dass sich reellwertige Funktionen einer reellen -Variable durch Polynome beliebig genau approximieren lassen. -Es wurde sogar eine Methode vorgestellt, die eine auf einem Intervall -gleichmässig konvergente Polynomefolge produziert. -Die Variable $x\in[a,b]$ trennt natürlich die Punkte, die Algebra der -Polynome in der Variablen $x$ enthält also sicher Funktionen, die in -verschiedenen Punkten des Intervalls auch verschiedene Werte annehmen. -Nicht ganz so selbstverständlich ist aber, dass sich daraus bereits -ergibt, dass jede beliebige Funktion sich als Polynome in $x$ -approximieren lässt. -Dies ist der Inhalt des folgenden Satzes von Stone-Weierstrass. - -\begin{figure} -\centering -\includegraphics{chapters/40-eigenwerte/images/wurzel.pdf} -\caption{Konstruktion einer monoton wachsenden Approximationsfolge für -$\sqrt{a}$ -\label{buch:eigenwerte:fig:wurzelverfahren}} -\end{figure} - -\begin{figure} -\centering -\includegraphics[width=\textwidth]{chapters/40-eigenwerte/images/wurzelapprox.pdf} -\caption{Monoton wachsende Approximation der Funktion $t\mapsto\sqrt{t}$ mit -Polynomen $u_n(t)$ nach -\eqref{buch:eigenwerte:eqn:wurzelapproximation} -(links) und der Fehler der Approximation -(rechts). -\label{buch:eigenwerte:fig:wurzelapproximation}} -\end{figure} - -\begin{satz}[Stone-Weierstrass] -\label{buch:satz:stone-weierstrass} -Enthält eine $\mathbb{R}$-Algebra $A$ von stetigen, rellen Funktionen -auf einer kompakten Menge $K$ die konstanten Funktionen und trennt sie -Punkte, d.~h.~für zwei verschiedene Punkte $x,y\in K$ gibt es -immer eine Funktion $f\in A$ mit $f(x)\ne f(y)$, dann ist jede stetige, -reelle Funktion auf $K$ gleichmässig approximierbar durch Funktionen -in $A$. -\end{satz} - -Für den Beweis des Satzes wird ein Hilfsresultat benötigt, welches wir -zunächst ableiten. -Es besagt, dass sich die Wurzelfunktion $t\mapsto\sqrt{t}$ -auf dem Interval $[0,1]$ gleichmässig -von unten durch Polynome approximieren lässt, die in -Abbildung~\ref{buch:eigenwerte:fig:wurzelapproximation} dargestellt -sind. - -\begin{satz} -Die rekursiv definierte Folge von Polynomen -\begin{equation} -u_{n+1}(t) -= -u_n(t) + \frac12(t-u_n(t)^2), -\qquad -u_0(t)=0 -\label{buch:eigenwerte:eqn:wurzelapproximation} -\end{equation} -ist monoton wachsend und approximiert die Wurzelfunktion $t\mapsto\sqrt{t}$ -gleichmässig auf dem Intervall $[0,1]$. -\end{satz} - -\begin{figure} -\centering -\includegraphics{chapters/40-eigenwerte/images/minmax.pdf} -\caption{Graphische Erklärung der -Identitäten~\eqref{buch:eigenwerte:eqn:minmax} für -$\max(f(x),g(x))$ und $\min(f(x),g(x))$. -Die purpurrote Kurve stellt den Mittelwert von $f(x)$ und $g(x)$ dar, -die vertikalen grünen Linien haben die Länge der Differenz $|f(x)-g(x)|$. -Das Maximum erhält man, indem man den halben Betrag der Differenz zum -Mittelwert hinzuaddiert, das Minimum erhält man durch Subtraktion -der selben Grösse. -\label{buch:eigenwerte:fig:minmax}} -\end{figure} - -\begin{proof}[Beweis] -Wer konstruieren zunächst das in -Abbildung~\ref{buch:eigenwerte:fig:wurzelverfahren} -visualierte Verfahren, mit dem für jede Zahl $a\in[0,1]$ -die Wurzel $\sqrt{a}$ berechnet werden kann. -Sei $u < \sqrt{a}$ eine Approximation der Wurzel. -Die Approximation ist der exakte Wert der Lösung, wenn $a-u^2=0$. -In jedem anderen Fall muss $u$ um einen Betrag $d$ vergrössert werden. -Natürlich muss immer noch $u+d<\sqrt{a}$ sein. -Man kann die maximal zulässige Korrektur $d$ geometrisch abschätzen, -wie dies in Abbildung~\ref{buch:eigenwerte:fig:wurzelverfahren} -skizziert ist. -Die maximale Steigung des Graphen der Funktion $u\mapsto u^2$ ist $2$, -daher darf man $u$ maximal um die Hälfte der Differenz $a-u^2$ (grün) -vergrössern, also $d=\frac12(a-u^2)$. -Die Rekursionsformel -\[ -u_{n+1} = u_n + d = u_n + \frac12(a-u_n^2) -\] -mit dem Startwert $u_0=0$ liefert daher eine -Folge, die gegen $\sqrt{a}$ konvergiert. -\end{proof} - -\begin{proof}[Beweis des Satzes von Stone-Weierstrass] -Da $A$ eine Algebra ist, ist mit jeder Funktion $f\in A$ für jedes Polynome -$p\in\mathbb{R}[X]$ auch $p(f)$ eine Funktion in $A$. -\begin{enumerate} -\item Schritt: Für jede Funktion $f\in A$ lässt sich auch $|f|$ durch -Funktionen in $A$ beliebig genau durch eine monoton wachsende Folge -von Funktionen approximieren. - -Da $A$ eine Algebra ist, ist $f^2\in A$. -Sei ausserdem $m^2=\sup \{f(x)^2\;|\;x\in K\}$, so dass $f^2/m^2$ eine Funktion -mit Werten im Intervall $[0,1]$ ist. -Die Funktionen $f_n(x)=mu_n(f(x)^2/m^2)$ sind ebenfalls in $A$ und -approximieren gleichmässig $\sqrt{f(x)^2}=|f(x)|$. -\item Schritt: Für zwei Funktionen $f,g\in A$ gibt es eine monoton wachsende -Folge, die $\max(f,g)$ gleichmässig beliebig genau approximiert -und eine monoton fallende Folge, die $\min(f,g)$ gleichmässig beliebig -genau approximiert. - - -Diese Folgen können aus der Approximationsfolge für den Betrag einer -Funktion und den Identitäten -\begin{equation} -\begin{aligned} -\max(f,g) &= \frac12(f+g+|f-g|) \\ -\min(f,g) &= \frac12(f+g-|f-g|) -\end{aligned} -\label{buch:eigenwerte:eqn:minmax} -\end{equation} -gefunden werden, die in Abbildung~\ref{buch:eigenwerte:fig:minmax} -graphisch erklärt werden. -\item Schritt: Zu zwei beliebigen Punkten $x,y\in K$ und Werten -$\alpha,\beta\in\mathbb{R}$ gibt es immer eine Funktion in $A$, -die in den Punkten $x,y$ die vorgegebenen Werte $\alpha$ bzw.~$\beta$ -annimmt. -Da $A$ die Punkte trennt, gibt es eine Funktion $f_0$ mit $f_0(x)\ne f_0(y)$. -Dann ist die Funktion -\[ -f(t) -= -\beta + \frac{f_0(t)-f_0(y)}{f_0(x)-f_0(y)}(\alpha-\beta) -\] -wohldefiniert und nimmt die verlangten Werte an. -\item Schritt: Zu jeder stetigen Funktion $f\colon K\to\mathbb{R}$, jedem -Punkt $x\in K$ und jedem $\varepsilon>0$ gibt es eine Funktion $g\in A$ derart, -dass $g(x)=f(x)$ und $g(y) \le f(y)+\varepsilon$ für alle $y\in K$. - -Zu jedem $z\in K$ gibt es eine Funktion in $A$ mit -$h_z(x)=f(x)$ und $h_z(z) \le f(z)+\frac12\varepsilon$. -Wegen der Stetigkeit von $h_z$ gibt es eine Umgebung $V_z$ von $z$, in der -immer noch gilt $h_z(y)\le f(y)+\varepsilon$ für $y\in V_z$. -Wegen der Kompaktheit von $K$ kann man endlich viele Punkte $z_i$ wählen -derart, dass die $V_{z_i}$ immer noch $K$ überdecken. -Dann erfüllt die Funktion -\( -g(z) = \inf h_{z_i} -\) -die Bedingungen $g(x) = f(x)$ und für $z\in V_{z_i}$ -\[ -g(z) = \inf_{j} h_{z_j}(z) \le h_{z_i}(z) \le f(z)+\varepsilon. -\] -Ausserdem ist $g(z)$ nach dem zweiten Schritt beliebig genau durch -Funktionen in $A$ approximierbar. -\item Schritt: Jede stetige Funktion $f\colon K\to\mathbb{R}$ kann -beliebig genau durch Funktionen in $A$ approximiert werden. -Sei $\varepsilon > 0$. - -Nach dem vierten Schritt gibt es für jedes $y\in K$ eine Funktion $g_y$ -derart, dass $g_y(y)=f(y)$ und $g_y(x) \le f(x) + \varepsilon$ für -$x\in K$. -Da $g_y$ stetig ist, gilt ausserdem $g_y(x) \ge f(x) -\varepsilon$ in -einer Umgebung $U_y$ von $y$. -Da $K$ kompakt ist, kann man endlich viele $y_i$ derart, dass die $U_{y_i}$ -immer noch ganz $K$ überdecken. -Die Funktion $g=\sup g_{y_i}$ erfüllt dann überall $g(x) \le f(x)+\varepsilon$, -weil jede der Funktionen $g_y$ diese Ungleichung erfüllt. -Ausserdem gilt für $x\in V_{x_j}$ -\[ -g(x) = \sup_i g_{x_i}(x) \ge g_{x_j}(x) \ge f(x)-\varepsilon. -\] -Somit ist -\[ -|f(x)-g(x)| \le \varepsilon. -\] -Damit ist $f(x)$ beliebig nahe an der Funktion $g(x)$, die sich -beliebig genau durch Funktionen aus $A$ approximieren lässt. -\qedhere -\end{enumerate} -\end{proof} - -Im ersten Schritt des Beweises ist ganz entscheidend, dass man die -Betragsfunktion konstruieren kann. -Daraus leiten sich dann alle folgenden Konstruktionen ab. - -\subsubsection{Anwendung auf symmetrische und hermitesche Matrizen} -Für symmetrische und hermitesche Matrizen $A$ ist bekannt, dass die -Eigenwerte reell sind, also das Spektrum $\operatorname{A}\subset\mathbb{R}$ -ist. -Für eine Funktion $\mathbb{R}\to \mathbb{R}$ lässt sich nach dem -Satz~\ref{buch:satz:stone-weierstrass} immer eine Folge $p_n$ von -approximierenden Polynomen in $x$ finden, die auf $\operatorname{Sp}(A)$ -gleichmässig konvergiert. -Die Matrix $f(A)$ kann dann definiert werden also der Grenzwert -\[ -f(A) = \lim_{n\to\infty} p_n(A). -\] -Da diese Matrizen auch diagonalisierbar sind, kann man eine Basis -aus Eigenvektoren verwenden. -Die Wirkung von $p_n(A)$ auf einem Eigenvektor $v$ zum Eigenwert $\lambda$ -ist -\[ -p_n(A)v -= -(a_kA^k + a_{k-1}A^{k-1}+\dots +a_2A^2+a_1A+a_0I)v -= -(a_k\lambda^k + a_{k-1}\lambda^{k-1}+\dots + a_2\lambda^2 + a_1\lambda + a_0)v -= -p_n(\lambda)v. -\] -Im Grenzwert wirkt $f(A)$ daher durch Multiplikation eines Eigenvektors -mit $f(\lambda)$, die Matrix $f(A)$ hat in der genannten Basis die -Diagonalform -\[ -A=\begin{pmatrix} -\lambda_1& & & \\ - &\lambda_2& & \\ - & &\ddots& \\ - & & &\lambda_n -\end{pmatrix} -\qquad\Rightarrow\qquad -f(A)=\begin{pmatrix} -f(\lambda_1)& & & \\ - &f(\lambda_2)& & \\ - & &\ddots& \\ - & & &f(\lambda_n) -\end{pmatrix}. -\] - -\begin{satz} -\label{buch:eigenwerte:satz:spektralsatz} -Ist $A$ symmetrische oder selbstadjungiert Matrix und $f$ eine Funktion -auf dem Spektrum $\operatorname{Sp}(A)$ von $A$. -Dann gibt es genau eine Matrix $f(A)$, die Grenzwert jeder beliebigen -Folge $p_n(A)$ für Polynomfolgen, die $\operatorname{Sp}(A)$ gleichmässig -gegen $f$ konvergieren. -\end{satz} - -\subsubsection{Unmöglichkeit der Approximation von $z\mapsto \overline{z}$ -in $\mathbb{C}[z]$} -Der Satz~\ref{buch:satz:stone-weierstrass} von Stone-Weierstrass für -reelle Funktionen gilt nicht für komplexe Funktionen. -In diesem Abschnitt zeigen wir, dass sich die Funktion $z\mapsto\overline{z}$ -auf der Einheitskreisscheibe $K=\{z\in\mathbb{C}\;|\; |z|\le 1\}$ nicht -gleichmässig durch Polynome $p(z)$ mit komplexen Koeffizienten approximieren -lässt. - -Wäre eine solche Approximation möglich, dann könnte man $\overline{z}$ -auch durch eine Potenzreihe -\[ -\overline{z} -= -\sum_{k=0}^\infty a_kz^k -\] -darstellen. -Das Wegintegral beider Seiten über den Pfad $\gamma(t) = e^{it}$ -in der komplexen Ebene ist -\begin{align*} -\oint_\gamma z^k\,dz -&= -\int_0^{2\pi} e^{ikt} ie^{it}\,dt -= -i\int_0^{2\pi} e^{it(k+1)}\,dt -= -i\biggl[ \frac{1}{i(k+1)} e^{it(k+1)}\biggr]_0^{2\pi} -= -0 -\\ -\oint_\gamma -\sum_{k=0}^\infty a_kz^k -\,dz -&= -\sum_{k=0}^\infty a_k \oint_\gamma z^k\,dz -= -\sum_{k=0}^\infty a_k\cdot 0 -= -0 -\\ -\oint_\gamma \overline{z}\,dz -&= -\int_0^{2\pi} e^{it} ie^{it}\,dt -= -i\int_0^{2\pi} \,dt = 2\pi i, -\end{align*} -dabei wurde $\overline{\gamma}(t)=e^{-it}$ verwendet. -Insbesondere widersprechen sich die beiden Integrale. -Die ursprüngliche Annahmen, $\overline{z}$ lasse sich durch Polynome -gleichmässig approximieren, muss daher verworfen werden. - -\subsubsection{Der Satz von Stone-Weierstrass für komplexe Funktionen} -Der Satz von Stone-Weierstrass kann nach dem vorangegangene Abschnitt -also nicht gelten. -Um den Beweis des Satzes~\ref{buch:satz:stone-weierstrass} -auf komplexe Zahlen zu übertragen, muss im ersten Schritt ein Weg -gefunden werden, den Betrag einer Funktion zu approximieren. - -Im reellen Fall geschah dies, indem zunächst eine Polynom-Approximation -für die Quadratwurzel konstruiert wurde, die dann auf das Quadrat einer -Funktion angewendet wurde. -Der Betrag einer komplexen Zahl $z$ ist aber nicht allein aus $z$ -berechenbar, man braucht in irgend einer Form Zugang zu Real- -und Imaginärteil. -Zum Beispiel kann man Real- und Imaginärteil als -$\Re z= \frac12(z+\overline{z})$ und $\Im z = \frac12(z-\overline{z})$ -bestimmen. -Kenntnis von Real- und Imaginärteil ist als gleichbedeutend mit -der Kenntnis der komplex Konjugierten $\overline{z}$. -Der Betrag lässt sich daraus als $|z|^2 = z\overline{z}$ finden. -Beide Beispiele zeigen, dass man den im Beweis benötigten Betrag -nur dann bestimmen kann, wenn mit jeder Funktion aus $A$ auch die -komplex konjugierte Funktion zur Verfügung steht. - -\begin{satz}[Stone-Weierstrass] -Enthält eine $\mathbb{C}$-Algebra $A$ von stetigen, komplexwertigen -Funktionen auf einer kompakten Menge $K$ die konstanten Funktionen, -trennt sie Punkte und ist ausserdem mit jeder Funktion $f\in A$ auch -die komplex konjugiert Funktion $\overline{f}\in A$, -dann lässt sich jede stetige, komplexwertige Funktion -auf $K$ gleichmässig durch Funktionen aus $A$ approximieren. -\end{satz} - -Mit Hilfe der konjugiert komplexen Funktion lässt sich immer eine -Approximation für die Betragsfunktion finden, so dass sich der -Beweis des reellen Satzes von Stone-Weierstrass übertragen lässt. - -% -% Normale Matrizen -% -\subsection{Normale Matrizen -\label{buch:subsection:normale-matrizen}} -Aus dem Satz von Stone-Weierstrass für komplexe Matrizen kann man -jetzt einen Spektralsätze für eine etwas grössere Klasse von Matrizen -ableiten, als im Satz~\ref{buch:eigenwerte:satz:spektralsatz} -möglich war. -Der Satz besagt, dass für eine beliebige Funktion $f$ auf dem Spektrum -$\operatorname{Sp}(A)$ eine Folge von auf $\operatorname{Sp}(A)$ -gleichmässig konvergenten, approximierenden Polynomen -$p_n(z,\overline{z})$ gefunden werden kann. -Doch wie soll jetzt aus dieser Polynomfolge ein Kandidat von $f(A)$ -gefunden werden? - -Zunächst stellt sich die Frage, was für die Variable $\overline{z}$ -eingesetzt werden soll. -$1\times 1$-Matrizen sind notwendigerweise diagonal, also muss -man in diesem Fall die Matrix $\overline{A}$ für die Variable -$\overline{z}$ eingesetzt werden. -Dies erklärt aber noch nicht, wie für $n\times n$-Matrizen -vorzugehen ist, wenn $n>1$ ist. - -Die Notwendigkeit, die Variable $\overline{z}$ hinzuzunehmen -ergab sich aus der Anforderung, dass der Betrag aus $|z|^2=z\overline{z}$ -konstruiert werden können muss. -Insbesondere muss beim Einsetzen eine Matrix entstehen, die nur -positive Eigenwerte hat. -Für eine beliebige komplexe $n\times n$-Matrix $A$ ist aber -$A\overline{A}$ nicht notwendigerweise positiv, wie das Beispiel -\[ -A -= -\begin{pmatrix}0&i\\i&0\end{pmatrix} -\qquad -\Rightarrow -\qquad -A\overline{A} -= -\begin{pmatrix}0&i\\-i&0\end{pmatrix} -\begin{pmatrix}0&-i\\i&0\end{pmatrix} -= -\begin{pmatrix} --1&0\\ - 0&-1 -\end{pmatrix} -= --I -\] -zeigt. -Eine positive Matrix entsteht dagegen immer, wenn man statt -$A$ die Adjungierte $A^*=\overline{A}^t$ verwendet. - -Die Substitution von $A$ für $z$ und $A^*$ für $\overline{z}$ -in einem Polynom $p(z,\overline{z})$ ist nicht unbedingt eindeutig. -Schon das Polynom $p(z,\overline{z})=z\overline{z}$ kann man auch -als $\overline{z}z$ schreiben. -Damit die Substition eindeutig wird, muss man also fordern, dass -$AA^* = A^*A$ ist. - -\begin{definition} -Eine Matrix $A\in M_n(\mathbb{C})$ heisst {\em normal}, wenn $AA^*=A^*A$ gilt. -\end{definition} - -\subsubsection{Beispiele normaler Matrizen} - -\begin{enumerate} -\item -Hermitesche und Antihermitesche Matrizen sind normal, denn solche -Matrizen erfüllen $A^*=\pm A$ und damit -\( -AA^* = \pm A^2 = A^*A. -\) -\item -Symmetrische und antisymmetrische Matrizen sind normal, -denn aus $A=A^t$ folgt $A^*=\overline{A}^t$ und damit -\begin{align*} -AA^* &= A\overline{A}^t = -\\ -A^*A &= -\end{align*} -\item -Unitäre Matrizen $U$ sind normal, das $UU^*=I=U^*U$ gilt. -\item -Orthogonale Matrizen sind normal wegen $O(n) = U(n) \cap M_n(\mathbb{R})$. -\end{enumerate} - -Jede Matrix lässt sich durch Wahl einer geeigneten Basis in Jordansche -Normalform bringen. -Allerdings sind Jordan-Blöcke keine normalen Matrizen, wie der folgende -Satz zeigt. - -\begin{satz} -Eine Dreiecksmatrix ist genau dann normal, wenn sie diagonal ist. -\end{satz} - -\begin{proof}[Beweis] -Sei $A$ eine obere Dreiecksmatrix, das Argument für eine untere Dreiecksmatrix -funktioniert gleich. -Wir berechnen ein Diagonalelement für beide Produkte $AA^*$ und $A^*A$. -Dazu brauchen wir die Matrixelemente von $A$ und $A^*$. -Bezeichnen wir die Matrixelemente von $A$ mit $a_{ij}$, dann hat $A^*$ -die Matrixelemente $(A^*)_{ij}=\overline{a}_{ji}$. -Damit kann man die Diagonalelemente der Produkte als -\begin{align*} -(AA^*)_{ii} -&= -\sum_{j=1}^n a_{ij}\overline{a}_{ij} -= -\sum_{j=i}^n |a_{ij}|^2 -\\ -(A^*A)_{ii} -&= -\sum_{j=1}^n \overline{a}_{ji}a_{ji} -= -\sum_{j=1}^i |a_{ji}|^2 -\end{align*} -ausrechnen. -Der obere Ausdruck ist die quadrierte Länge der Zeile $i$ der Matrix $A$, -der untere ist die quadrierte Länge der Spalte $i$. -Da die Matrix eine obere Dreiecksmatrix ist, hat die erste Spalte höchstens -ein einziges von $0$ verschiedenes Element. -Daher kann auch die erste Zeile höchstens dieses eine Elemente haben. -Die Matrix hat daher Blockstruktur mit einem $1\times 1$-Block in der -linken obere Ecke und einem $n-1$-dimensionalen Block für den Rest. -Durch Wiederholen des Arguments für den $(n-1)\times (n-1)$-Block -kann man so schrittweise schliessen, dass die Matrix $A$ diagonal sein muss. -\end{proof} - - -\begin{satz} -Sind $A$ und $B$ normale Matrizen und $AB^*=B^*A$, dann sind auch $A+B$ -und $AB$ normal. -\end{satz} - -\begin{proof}[Beweis] -Zunächst folgt aus $AB^*=B^*A$ auch -$A^*B = (B^*A)^* = (AB^*)^* = BA^*$. -Der Beweis erfolgt durch Nachrechnen: -\begin{align*} -(A+B)(A+B)^* -&= -AA^* + AB^* + BA^*+BB^* -\\ -(A+B)^*(A+B) -&= -A^*A + A^*B + B^*A + B^*B -\end{align*} -Die ersten und letzten Terme auf der rechten Seite stimmen überein, weil -$A$ und $B$ normal sind. -Die gemischten Terme stimmen überein wegen der Vertauschbarkeit von -$A$ und $B^*$. - -Für das Produkt rechnet man -\begin{align*} -(AB)(AB)^* -&= ABB^*A^* = AB^*BA^* -= B^*AA^*B -= -B^*A^*AB -= -(AB)^*(AB), -\end{align*} -was zeigt, dass auch $AB$ normal ist. -\end{proof} - -\subsubsection{Äquivalente Bedingungen} -Es gibt eine grosse Zahl äquivalenter Eigenschaften für normale Matrizen. -Die folgenden Eigenschaften sind äquivalent: -\begin{enumerate} -\item -Die Matrix $A$ ist mit einer unitären Matrix diagonalisierbar -\item -Es gibt eine orthonormale Basis von Eigenvektoren von $A$ für $\mathbb{C}^n$ -\item -Für jeden Vektor $x\in\mathbb{C}^n$ gilt $\|Ax\|=\|A^*x\|$ -\item -Die Forbenius-Norm der Matrix $A$ kann mit den Eigenwerten $\lambda_i$ -von $A$ berechnet werden: -$\operatorname{Spur}(A^*A) = \sum_{i=1}^n |\lambda_i|^2$ -\item -Der hermitesche Teil $\frac12(A+A^*)$ und der antihermitesche Teil -$\frac12(A-A^*)$ von $A$ vertauschen. -\item -$A^*$ ist ein Polynom vom Grad $n-1$ in $A$. -\item -Es gibt eine unitäre Matrix $U$ derart, dass $A^*=AU$ -\item -Es gibt eine Polarzerlegugn $A=UP$ mit einer unitären Matrix $U$ und -einer postiv semidefiniten Matrix $P$, die untereinander vertauschen. -\item -Es gibt eine Matrix $N$ mit verschiedenen Eigenwerten, mit denen $A$ -vertauscht. -\item -Wenn $A$ die (absteigend geordneten) singulärwerte $\sigma_i$ und -die absteigend geordneten Eigenwerte $\lambda_i$ hat, -dann it $\sigma_i=|\lambda_i|$. -\end{enumerate} - - - - +% +% spektraltheorie.tex +% +% (c) 2020 Prof Dr Andreas Müller, Hochschule Rapperswil +% +\section{Spektraltheorie +\label{buch:section:spektraltheorie}} +Aufgabe der Spektraltheorie ist, Bedingungen an eine Matrix $A$ und eine +Funktion $f(z)$ zu finden, unter denen es möglich ist, $f(A)$ auf +konsistente Art und Weise zu definieren. +Weiter müssen Methoden entwickelt werden, mit denen $f(A)$ berechnet +werden kann. +Für ein Polynom $p(z)$ ist $p(A)$ durch einsetzen definiert. +Für Funktionen, die sich nicht durch ein Polynom darstellen lassen, +muss eine Approximation der Funktion durch Polynome verwendet werden. +Sei also $p_n(z)$ eine Folge von Polynomen, die als Approximation der +Funktion $f(z)$ verwendet werden soll. +Das Ziel ist, $f(A)$ als den Grenzwert der Matrixfolge $p_n(A)$ +zu definieren. + +Zunächst ist nicht klar, wie eine solche Folge gewählt werden muss. +Es muss eine Teilmenge von $K\subset\mathbb{C}$ spezifiziert werden, +auf der die Funktionenfolge $p_n(z)$ konvergieren muss, +damit auch die Konvergenz der Matrizenfolge $p_n(A)$ garantiert ist. +Auch die Art der Konvergenz von $p_n(z)$ auf der Menge $K$ ist noch +unklar. +Da der Abstand zweier Matrizen $A$ und $B$ in der Operatornorm +mit der grössten Abweichung $\|(A-B)v\|$ für Einheitsvektoren $v$ +gemessen wird, ist es einigermassen plausibel, dass +die grösse Abweichung zwischen zwei Polynomen $|p(z) - q(z)|$ auf +der Menge $K$ kleine sein muss, wenn $\|p(A)-q(A)\|$ klein +sein soll. +Da die Differenz $p(z)-q(z)$ für beliebige Polynome, die sich nicht +nur um eine Konstante unterscheiden, mit $z$ über alle Grenzen wächst, +muss $K$ beschränkt sein. +Gesucht ist also eine kompakte Menge $K\subset\mathbb{C}$ und eine +Folge $p_n(z)$ von Polynomen, die auf $K$ gleichmässig gegen $f(z)$ +konvergieren. +Die Wahl von $K$ muss sicherstellen, dass für jede gleichmässig +konvergente Folge von Polynomen $p_n(z)$ auch die Matrizenfolge +$p_n(A)$ konvergiert. + +Es wird sich zeigen, dass die Menge $K$ das Spektrum von $A$ ist, +also eine endliche Teilmenge von $\mathbb{C}$. +Jede Funktion kann auf so einer Menge durch Polynome exakt wiedergegeben +werden. +Es gibt insbesondere Folgen von Polynomen, die eingeschränkt +auf das Spektrum gleich sind, also $p_n(z)=p_m(z)$ für alle $z\in K$, +die aber ausserhalb des Spektrums alle verschieden sind. +Als Beispiel kann die Matrix +\[ +N=\begin{pmatrix}0&1\\0&0\end{pmatrix} +\] +herangezogen werden. +Ihr Spektrum ist $\operatorname{Sp}(N)=\{0\}\subset\mathbb{C}$. +Zwei Polynome stimmen genau dann auf $\operatorname{Sp}(N)$ überein, +wenn der konstante Koeffizient gleich ist. +Die Polynome $p(z)=z$ und $q(z)=z^2$ stimmen daher auf dem Spektrum +überein. +Für die Matrizen gilt aber $p(N)=N$ und $q(N)=N^2=0$, die Matrizen +stimmen also nicht überein. +Es braucht also zusätzliche Bedingungen an die Matrix $A$, die +sicherstellen, dass $p(A)=0$ ist, wann immer $p(z)=0$ für +$z\in\operatorname{Sp}(A)$ gilt. + +In diesem Abschnitt sollen diese Fragen untersucht werden. +In Abschnitt~\ref{buch:subsection:approximation-durch-polynome} +wird gezeigt, wie sich Funktionen durch Polynome approximieren +lassen, woraus sich dann Approximationen von $f(A)$ für diagonalisierbare +Matrizen mit reellen Eigenwerten ergeben. + +Der Satz von Stone-Weierstrass, der in +Abschnitt~\ref{buch:subsetion:stone-weierstrass} dargestellt wird, +ist ein sehr allgemeines Approximationsresultat, welches nicht nur +zeigt, dass die Approximation unter sehr natürlichen Voraussetzungen +beliebig genau möglich ist, sondern uns im komplexen Fall auch +weitere Einsicht dafür geben kann, welche Voraussetzungen an eine +komplexe Matrix gestellt werden müssen, damit man damit rechnen kann, +dass die Approximation zu einer konsistenten Definition von $f(A)$ führt. + +% +% Approximation +% +\subsection{Approximation durch Polynome +\label{buch:subsection:approximation-durch-polynome}} +Die der Berechnung von $f(A)$ für eine beleibige stetige Funktion, +die sich nicht als Potenzreihe schreiben lässt, verwendet Approximationen +von Polynomen. +Die numerische Mathematik hat eine grosse Menge von solchen +Approximationsverfahren entwickelt, wovon zwei kurz (ohne Beweise) +vorgestellt werden sollen. + +\subsubsection{Das Legendre-Interpolationspolynom} +Zu vorgegebenen, verschiedenen Zahlen $z_i\in\mathbb{C}$, $0\le i\le n$, +die auch die {\em Stützstellen} genannt werden, +gibt es immer ein Polynom vom Grade $n$, welches in den $z_i$ vorgegebene +Werte $f(z_i)$ annimmt. +Ein solches Polynom lässt sich im Prinzip mit Hilfe eines linearen +Gleichungssystems finden, man kann aber auch direkt eine Lösung +konstruieren. +Dazu bildet man erst die Polynome +\begin{align*} +l(z) &= (z-z_0)(z-z_1)\dots (z-z_n) \qquad\text{und} +\\ +l_i(z) &= (z-z_0)\dots \widehat{(z-z_i)}\dots (z-z_n). +\end{align*} +Darin bedeutet der Hut, dass dieser Term weggelassen werden soll. +Für $z\ne z_i$ ist $l_i(z)=l(z)/(z-z_i)$. +Die Polynome +\[ +k_i(z) += +\frac{l_i(z)}{l_i(z_i)} += +\frac{(z-z_0)\dots \widehat{(z-z_i)}\dots (z-z_n)}{(z_i-z_0)\dots \widehat{(z_i-z_i)}\dots (z_i-z_n)} +\] +haben die Eigenschaft +$k_i(z_j)=\delta_{ij}$. +Damit lässt sich jetzt ein Polynom +\[ +p(z) = \sum_{j=0}^n f(z_j) \frac{l_j(z)}{l_j(z_j)} +\] +vom Grad $n$ konstruieren, welches die Werte +\[ +p(z_i) += +\sum_{j=0}^n f(z_j) \frac{l_j(z_i)}{l_j(z_j)} += +\sum_{j=0}^n f(z_j) \delta_{ij} += +f_(z_i) +\] +annimmt. +Das Polynom $p(z)$ heisst das {\em Legendre-Interpolationspolynom}. + +Zwar lässt sich also für eine endliche Menge von komplexen Zahlen immer +ein Polynom finden, welches vorgeschriebene Wert in allen diesen Zahlen +annimmt, doch ist die Stabilität für grosse $n$ eher beschränkt. + + +\subsubsection{Gleichmassige Approximation mit Bernstein-Polynomen} +Das Legendre-Interpolationspolynom nimmt in den Stützstellen die +verlangten Werte an, aber ausserhalb der Stützstellen ist nicht +garantiert, dass man eine gute Approximation einer Funktion $f(z)$ +erhält. + +Für die Approximation auf einem reellen Interval $[a,b]$ hat +Sergei Natanowitsch Bernstein ein +Dazu werden zuerst die reellen Bernsteinpolynome vom Grad $n$ +durch +\begin{align*} +B_{i,n}(t) = \binom{n}{i} t^i(1-t)^{n-i}. +\end{align*} +definiert. +Als Approximationspolynom für die auf dem Interval +$[0,1]$ definierte, stetige Funktion $f(t)$ kann man dann +\[ +B_n(f)(t) += +\sum_{i=0}^n B_{i,n}(t) f\biggl(\frac{i}{n}\biggr) +\] +verwenden. +Die Polynome $B_n(f)(t)$ konvergieren gleichmässig auf $[0,1]$ +gegen die Funktion $f(t)$. +Über die Konvergenz ausserhalb des reellen Intervalls wird nichts +ausgesagt. +Die Approximation mit Bernstein-Polynomen ist daher nur sinnvoll, +wenn man weiss, dass die Eigenwerte der Matrix reell sind, was im +wesentlichen auf diagonalisierbare Matrizen führt. + +Für ein anderes Interval $[a,b]$ kann man ein Approximationspolynom +erhalten, indem man die affine Transformation +$s\mapsto (s-a)/(b-a)$ +von $[a,b]$ auf $[0,1]$ +verwendet. + +% +% Der Satz von Stone-Weierstrass +% +\subsection{Der Satz von Stone-Weierstrasss +\label{buch:subsetion:stone-weierstrass}} +Der Satz von Stone-Weierstrass behandelt im Gegensatz zu den in +Abschnitt~\ref{buch:subsection:approximation-durch-polynome} +besprochenen Approximationsmethoden nicht nur Funktionen von +reellen Variablen durch Polynome. +Vielmehr kann das Definitionsgebiet irgend eine abgeschlossene +und beschränkte Teilmenge eines reellen oder komplexen Vektorraumes +sein und die Funktionen können Polynome aber auch viel allgemeinere +Funktionen verwendet werden, wie zum Beispiel die Funktionen +$x\mapsto \cos nx$ und $x\mapsto \sin nx$ definiert auf dem +Intervall $[0,2\pi]$. +In diesem Fall liefert der Satz von Stone-Weierstrass die Aussage, +dass sich jede stetige periodische Funktion gleichmässig durch +trigonometrische Polynome approximieren lässt. + +Die Aussage des Satz von Stone-Weierstrass über reelle Funktionen +lässt sich nicht auf komplexe Funktionen erweitern. +Von besonderem Interesse ist jedoch, dass der Beweis des Satz +zeigt, warum solche Aussagen für komplexe Funktionen nicht mehr +zutreffen. +Im Falle der Approximation von komplexen Funktionen $f(z)$ durch Polynome +zwecks Definition von $f(A)$ werden sich daraus Bedingungen an die +Matrix ableiten lassen, die eine konsistente Definition überhaupt +erst ermöglichen werden. + +\subsubsection{Punkte trennen} +Aus den konstanten Funktionen lassen sich durch algebraische +Operationen nur weitere konstante Funktionen erzeugen. +Die konstanten Funktionen sind also nur dann eine genügend +reichhaltige Menge, wenn die Menge $K$ nur einen einzigen Punkt +enthält. +Damit sich Funktionen approximieren lassen, die in zwei Punkten +verschiedene Werte haben, muss es auch unter den zur Approximation +zur Verfügung stehenden Funktionen solche haben, deren Werte sich +in diesen Punkten unterscheiden. +Diese Bedingung wird in der folgenden Definition formalisiert. + +\begin{definition} +Sei $K$ eine beliebige Menge und $A$ eine Menge von Funktionen +$K\to \mathbb{C}$. +Man sagt, $A$ {\em trennt die Punkte von $K$}, wenn es für jedes Paar +\index{Punkte trennen}% +von Punkten $x,y\in K$ eine Funktion $f\in A$ gibt derart, dass +$f(x)\ne f(y)$. +\end{definition} + +Man kann sich die Funktionen $f$, die gemäss dieser Definition die Punkte +von $K$ trennen, als eine Art Koordinaten der Punkte in $K$ vorstellen. +Die Punkte der Teilmenge $K\subset \mathbb{R}^n$ werden zum Beispiel +von den Koordinatenfunktionen $x\mapsto x_i$ getrennt. +Wir schreiben für die $i$-Koordinate daher auch als Funktion $x_i(x)=x_i$. +Zwei verschiedene Punkte $x,y\in K$ unterscheiden sich in mindestens +einer Koordinate. +Für diese Koordinate sind dann die Werte der zugehörigen +Koordinatenfunktion $x_i=x_i(x)\ne x_i(y)=y_i$ verschieden, die +Funktionen $x_1(x)$ bis $x_n(x)$ trennen also die Punkte. + +\begin{beispiel} +Wir betrachten einen Kreis in der Ebene, also die Menge +\[ +S^1 += +\{(x_1,x_2)\;|\; x_1^2 + x_2^2=1\} +\] +$S^1$ ist eine abgeschlossene und beschränkte Menge in $\mathbb{R}^2$. +Die Funktion $x\mapsto x_1$ trennt die Punkte nicht, denn zu jedem +Punkt $(x_1,x_2)\in S^2$ gibt es den an der ersten Achse +gespiegelten Punkt $\sigma(x)=(x_1,-x_2)$, dessen erste Koordinate +den gleichen Wert hat. +Ebenso trennt die Koordinatenfunktion $x\mapsto x_2$ die Punkte nicht. +Die Menge $A=\{ x_1(x), x_2(x)\}$ bestehend aus den beiden +Koordinatenfunktionen trennt dagegen die Punkte von $S^1$, da die Punkte +sich immer in mindestens einem Punkt unterscheiden. + +Man könnte auch versuchen, den Kreis in Polarkoordinaten zu beschreiben. +Die Funktion $\varphi(x)$, die jedem Punkt $x\in S^1$ den Polarwinkel +zuordnet, trennt sicher die Punkte des Kreises. +Zwei verschiedene Punkte auf dem Kreis haben verschieden Polarwinkel. +Die Menge $\{\varphi\}$ trennt also die Punkte von $S^1$. +Allerdings ist die Funktion nicht stetig, was zwar der Definition +nicht widerspricht aber ein Hindernis für spätere Anwendungen ist. +\end{beispiel} + + +\subsubsection{Der Satz von Stone-Weierstrass für reelle Funktionen} +Die Beispiele von Abschnitt~\ref{buch:subsection:approximation-durch-polynome} +haben bezeigt, dass sich reellwertige Funktionen einer reellen +Variable durch Polynome beliebig genau approximieren lassen. +Es wurde sogar eine Methode vorgestellt, die eine auf einem Intervall +gleichmässig konvergente Polynomefolge produziert. +Die Variable $x\in[a,b]$ trennt natürlich die Punkte, die Algebra der +Polynome in der Variablen $x$ enthält also sicher Funktionen, die in +verschiedenen Punkten des Intervalls auch verschiedene Werte annehmen. +Nicht ganz so selbstverständlich ist aber, dass sich daraus bereits +ergibt, dass jede beliebige Funktion sich als Polynome in $x$ +approximieren lässt. +Dies ist der Inhalt des folgenden Satzes von Stone-Weierstrass. + +\begin{figure} +\centering +\includegraphics{chapters/40-eigenwerte/images/wurzel.pdf} +\caption{Konstruktion einer monoton wachsenden Approximationsfolge für +$\sqrt{a}$ +\label{buch:eigenwerte:fig:wurzelverfahren}} +\end{figure} + +\begin{figure} +\centering +\includegraphics[width=\textwidth]{chapters/40-eigenwerte/images/wurzelapprox.pdf} +\caption{Monoton wachsende Approximation der Funktion $t\mapsto\sqrt{t}$ mit +Polynomen $u_n(t)$ nach +\eqref{buch:eigenwerte:eqn:wurzelapproximation} +(links) und der Fehler der Approximation +(rechts). +\label{buch:eigenwerte:fig:wurzelapproximation}} +\end{figure} + +\begin{satz}[Stone-Weierstrass] +\label{buch:satz:stone-weierstrass} +Enthält eine $\mathbb{R}$-Algebra $A$ von stetigen, rellen Funktionen +auf einer kompakten Menge $K$ die konstanten Funktionen und trennt sie +Punkte, d.~h.~für zwei verschiedene Punkte $x,y\in K$ gibt es +immer eine Funktion $f\in A$ mit $f(x)\ne f(y)$, dann ist jede stetige, +reelle Funktion auf $K$ gleichmässig approximierbar durch Funktionen +in $A$. +\end{satz} + +Für den Beweis des Satzes wird ein Hilfsresultat benötigt, welches wir +zunächst ableiten. +Es besagt, dass sich die Wurzelfunktion $t\mapsto\sqrt{t}$ +auf dem Interval $[0,1]$ gleichmässig +von unten durch Polynome approximieren lässt, die in +Abbildung~\ref{buch:eigenwerte:fig:wurzelapproximation} dargestellt +sind. + +\begin{satz} +Die rekursiv definierte Folge von Polynomen +\begin{equation} +u_{n+1}(t) += +u_n(t) + \frac12(t-u_n(t)^2), +\qquad +u_0(t)=0 +\label{buch:eigenwerte:eqn:wurzelapproximation} +\end{equation} +ist monoton wachsend und approximiert die Wurzelfunktion $t\mapsto\sqrt{t}$ +gleichmässig auf dem Intervall $[0,1]$. +\end{satz} + +\begin{figure} +\centering +\includegraphics{chapters/40-eigenwerte/images/minmax.pdf} +\caption{Graphische Erklärung der +Identitäten~\eqref{buch:eigenwerte:eqn:minmax} für +$\max(f(x),g(x))$ und $\min(f(x),g(x))$. +Die purpurrote Kurve stellt den Mittelwert von $f(x)$ und $g(x)$ dar, +die vertikalen grünen Linien haben die Länge der Differenz $|f(x)-g(x)|$. +Das Maximum erhält man, indem man den halben Betrag der Differenz zum +Mittelwert hinzuaddiert, das Minimum erhält man durch Subtraktion +der selben Grösse. +\label{buch:eigenwerte:fig:minmax}} +\end{figure} + +\begin{proof}[Beweis] +Wer konstruieren zunächst das in +Abbildung~\ref{buch:eigenwerte:fig:wurzelverfahren} +visualierte Verfahren, mit dem für jede Zahl $a\in[0,1]$ +die Wurzel $\sqrt{a}$ berechnet werden kann. +Sei $u < \sqrt{a}$ eine Approximation der Wurzel. +Die Approximation ist der exakte Wert der Lösung, wenn $a-u^2=0$. +In jedem anderen Fall muss $u$ um einen Betrag $d$ vergrössert werden. +Natürlich muss immer noch $u+d<\sqrt{a}$ sein. +Man kann die maximal zulässige Korrektur $d$ geometrisch abschätzen, +wie dies in Abbildung~\ref{buch:eigenwerte:fig:wurzelverfahren} +skizziert ist. +Die maximale Steigung des Graphen der Funktion $u\mapsto u^2$ ist $2$, +daher darf man $u$ maximal um die Hälfte der Differenz $a-u^2$ (grün) +vergrössern, also $d=\frac12(a-u^2)$. +Die Rekursionsformel +\[ +u_{n+1} = u_n + d = u_n + \frac12(a-u_n^2) +\] +mit dem Startwert $u_0=0$ liefert daher eine +Folge, die gegen $\sqrt{a}$ konvergiert. +\end{proof} + +\begin{proof}[Beweis des Satzes von Stone-Weierstrass] +Da $A$ eine Algebra ist, ist mit jeder Funktion $f\in A$ für jedes Polynome +$p\in\mathbb{R}[X]$ auch $p(f)$ eine Funktion in $A$. +\begin{enumerate} +\item Schritt: Für jede Funktion $f\in A$ lässt sich auch $|f|$ durch +Funktionen in $A$ beliebig genau durch eine monoton wachsende Folge +von Funktionen approximieren. + +Da $A$ eine Algebra ist, ist $f^2\in A$. +Sei ausserdem $m^2=\sup \{f(x)^2\;|\;x\in K\}$, so dass $f^2/m^2$ eine Funktion +mit Werten im Intervall $[0,1]$ ist. +Die Funktionen $f_n(x)=mu_n(f(x)^2/m^2)$ sind ebenfalls in $A$ und +approximieren gleichmässig $\sqrt{f(x)^2}=|f(x)|$. +\item Schritt: Für zwei Funktionen $f,g\in A$ gibt es eine monoton wachsende +Folge, die $\max(f,g)$ gleichmässig beliebig genau approximiert +und eine monoton fallende Folge, die $\min(f,g)$ gleichmässig beliebig +genau approximiert. + + +Diese Folgen können aus der Approximationsfolge für den Betrag einer +Funktion und den Identitäten +\begin{equation} +\begin{aligned} +\max(f,g) &= \frac12(f+g+|f-g|) \\ +\min(f,g) &= \frac12(f+g-|f-g|) +\end{aligned} +\label{buch:eigenwerte:eqn:minmax} +\end{equation} +gefunden werden, die in Abbildung~\ref{buch:eigenwerte:fig:minmax} +graphisch erklärt werden. +\item Schritt: Zu zwei beliebigen Punkten $x,y\in K$ und Werten +$\alpha,\beta\in\mathbb{R}$ gibt es immer eine Funktion in $A$, +die in den Punkten $x,y$ die vorgegebenen Werte $\alpha$ bzw.~$\beta$ +annimmt. +Da $A$ die Punkte trennt, gibt es eine Funktion $f_0$ mit $f_0(x)\ne f_0(y)$. +Dann ist die Funktion +\[ +f(t) += +\beta + \frac{f_0(t)-f_0(y)}{f_0(x)-f_0(y)}(\alpha-\beta) +\] +wohldefiniert und nimmt die verlangten Werte an. +\item Schritt: Zu jeder stetigen Funktion $f\colon K\to\mathbb{R}$, jedem +Punkt $x\in K$ und jedem $\varepsilon>0$ gibt es eine Funktion $g\in A$ derart, +dass $g(x)=f(x)$ und $g(y) \le f(y)+\varepsilon$ für alle $y\in K$. + +Zu jedem $z\in K$ gibt es eine Funktion in $A$ mit +$h_z(x)=f(x)$ und $h_z(z) \le f(z)+\frac12\varepsilon$. +Wegen der Stetigkeit von $h_z$ gibt es eine Umgebung $V_z$ von $z$, in der +immer noch gilt $h_z(y)\le f(y)+\varepsilon$ für $y\in V_z$. +Wegen der Kompaktheit von $K$ kann man endlich viele Punkte $z_i$ wählen +derart, dass die $V_{z_i}$ immer noch $K$ überdecken. +Dann erfüllt die Funktion +\( +g(z) = \inf h_{z_i} +\) +die Bedingungen $g(x) = f(x)$ und für $z\in V_{z_i}$ +\[ +g(z) = \inf_{j} h_{z_j}(z) \le h_{z_i}(z) \le f(z)+\varepsilon. +\] +Ausserdem ist $g(z)$ nach dem zweiten Schritt beliebig genau durch +Funktionen in $A$ approximierbar. +\item Schritt: Jede stetige Funktion $f\colon K\to\mathbb{R}$ kann +beliebig genau durch Funktionen in $A$ approximiert werden. +Sei $\varepsilon > 0$. + +Nach dem vierten Schritt gibt es für jedes $y\in K$ eine Funktion $g_y$ +derart, dass $g_y(y)=f(y)$ und $g_y(x) \le f(x) + \varepsilon$ für +$x\in K$. +Da $g_y$ stetig ist, gilt ausserdem $g_y(x) \ge f(x) -\varepsilon$ in +einer Umgebung $U_y$ von $y$. +Da $K$ kompakt ist, kann man endlich viele $y_i$ derart, dass die $U_{y_i}$ +immer noch ganz $K$ überdecken. +Die Funktion $g=\sup g_{y_i}$ erfüllt dann überall $g(x) \le f(x)+\varepsilon$, +weil jede der Funktionen $g_y$ diese Ungleichung erfüllt. +Ausserdem gilt für $x\in V_{x_j}$ +\[ +g(x) = \sup_i g_{x_i}(x) \ge g_{x_j}(x) \ge f(x)-\varepsilon. +\] +Somit ist +\[ +|f(x)-g(x)| \le \varepsilon. +\] +Damit ist $f(x)$ beliebig nahe an der Funktion $g(x)$, die sich +beliebig genau durch Funktionen aus $A$ approximieren lässt. +\qedhere +\end{enumerate} +\end{proof} + +Im ersten Schritt des Beweises ist ganz entscheidend, dass man die +Betragsfunktion konstruieren kann. +Daraus leiten sich dann alle folgenden Konstruktionen ab. + +\subsubsection{Anwendung auf symmetrische und hermitesche Matrizen} +Für symmetrische und hermitesche Matrizen $A$ ist bekannt, dass die +Eigenwerte reell sind, also das Spektrum $\operatorname{A}\subset\mathbb{R}$ +ist. +Für eine Funktion $\mathbb{R}\to \mathbb{R}$ lässt sich nach dem +Satz~\ref{buch:satz:stone-weierstrass} immer eine Folge $p_n$ von +approximierenden Polynomen in $x$ finden, die auf $\operatorname{Sp}(A)$ +gleichmässig konvergiert. +Die Matrix $f(A)$ kann dann definiert werden also der Grenzwert +\[ +f(A) = \lim_{n\to\infty} p_n(A). +\] +Da diese Matrizen auch diagonalisierbar sind, kann man eine Basis +aus Eigenvektoren verwenden. +Die Wirkung von $p_n(A)$ auf einem Eigenvektor $v$ zum Eigenwert $\lambda$ +ist +\[ +p_n(A)v += +(a_kA^k + a_{k-1}A^{k-1}+\dots +a_2A^2+a_1A+a_0I)v += +(a_k\lambda^k + a_{k-1}\lambda^{k-1}+\dots + a_2\lambda^2 + a_1\lambda + a_0)v += +p_n(\lambda)v. +\] +Im Grenzwert wirkt $f(A)$ daher durch Multiplikation eines Eigenvektors +mit $f(\lambda)$, die Matrix $f(A)$ hat in der genannten Basis die +Diagonalform +\[ +A=\begin{pmatrix} +\lambda_1& & & \\ + &\lambda_2& & \\ + & &\ddots& \\ + & & &\lambda_n +\end{pmatrix} +\qquad\Rightarrow\qquad +f(A)=\begin{pmatrix} +f(\lambda_1)& & & \\ + &f(\lambda_2)& & \\ + & &\ddots& \\ + & & &f(\lambda_n) +\end{pmatrix}. +\] + +\begin{satz} +\label{buch:eigenwerte:satz:spektralsatz} +Ist $A$ symmetrische oder selbstadjungiert Matrix und $f$ eine Funktion +auf dem Spektrum $\operatorname{Sp}(A)$ von $A$. +Dann gibt es genau eine Matrix $f(A)$, die Grenzwert jeder beliebigen +Folge $p_n(A)$ für Polynomfolgen, die $\operatorname{Sp}(A)$ gleichmässig +gegen $f$ konvergieren. +\end{satz} + +\subsubsection{Unmöglichkeit der Approximation von $z\mapsto \overline{z}$ +in $\mathbb{C}[z]$} +Der Satz~\ref{buch:satz:stone-weierstrass} von Stone-Weierstrass für +reelle Funktionen gilt nicht für komplexe Funktionen. +In diesem Abschnitt zeigen wir, dass sich die Funktion $z\mapsto\overline{z}$ +auf der Einheitskreisscheibe $K=\{z\in\mathbb{C}\;|\; |z|\le 1\}$ nicht +gleichmässig durch Polynome $p(z)$ mit komplexen Koeffizienten approximieren +lässt. + +Wäre eine solche Approximation möglich, dann könnte man $\overline{z}$ +auch durch eine Potenzreihe +\[ +\overline{z} += +\sum_{k=0}^\infty a_kz^k +\] +darstellen. +Das Wegintegral beider Seiten über den Pfad $\gamma(t) = e^{it}$ +in der komplexen Ebene ist +\begin{align*} +\oint_\gamma z^k\,dz +&= +\int_0^{2\pi} e^{ikt} ie^{it}\,dt += +i\int_0^{2\pi} e^{it(k+1)}\,dt += +i\biggl[ \frac{1}{i(k+1)} e^{it(k+1)}\biggr]_0^{2\pi} += +0 +\\ +\oint_\gamma +\sum_{k=0}^\infty a_kz^k +\,dz +&= +\sum_{k=0}^\infty a_k \oint_\gamma z^k\,dz += +\sum_{k=0}^\infty a_k\cdot 0 += +0 +\\ +\oint_\gamma \overline{z}\,dz +&= +\int_0^{2\pi} e^{it} ie^{it}\,dt += +i\int_0^{2\pi} \,dt = 2\pi i, +\end{align*} +dabei wurde $\overline{\gamma}(t)=e^{-it}$ verwendet. +Insbesondere widersprechen sich die beiden Integrale. +Die ursprüngliche Annahmen, $\overline{z}$ lasse sich durch Polynome +gleichmässig approximieren, muss daher verworfen werden. + +\subsubsection{Der Satz von Stone-Weierstrass für komplexe Funktionen} +Der Satz von Stone-Weierstrass kann nach dem vorangegangene Abschnitt +also nicht gelten. +Um den Beweis des Satzes~\ref{buch:satz:stone-weierstrass} +auf komplexe Zahlen zu übertragen, muss im ersten Schritt ein Weg +gefunden werden, den Betrag einer Funktion zu approximieren. + +Im reellen Fall geschah dies, indem zunächst eine Polynom-Approximation +für die Quadratwurzel konstruiert wurde, die dann auf das Quadrat einer +Funktion angewendet wurde. +Der Betrag einer komplexen Zahl $z$ ist aber nicht allein aus $z$ +berechenbar, man braucht in irgend einer Form Zugang zu Real- +und Imaginärteil. +Zum Beispiel kann man Real- und Imaginärteil als +$\Re z= \frac12(z+\overline{z})$ und $\Im z = \frac12(z-\overline{z})$ +bestimmen. +Kenntnis von Real- und Imaginärteil ist als gleichbedeutend mit +der Kenntnis der komplex Konjugierten $\overline{z}$. +Der Betrag lässt sich daraus als $|z|^2 = z\overline{z}$ finden. +Beide Beispiele zeigen, dass man den im Beweis benötigten Betrag +nur dann bestimmen kann, wenn mit jeder Funktion aus $A$ auch die +komplex konjugierte Funktion zur Verfügung steht. + +\begin{satz}[Stone-Weierstrass] +Enthält eine $\mathbb{C}$-Algebra $A$ von stetigen, komplexwertigen +Funktionen auf einer kompakten Menge $K$ die konstanten Funktionen, +trennt sie Punkte und ist ausserdem mit jeder Funktion $f\in A$ auch +die komplex konjugiert Funktion $\overline{f}\in A$, +dann lässt sich jede stetige, komplexwertige Funktion +auf $K$ gleichmässig durch Funktionen aus $A$ approximieren. +\end{satz} + +Mit Hilfe der konjugiert komplexen Funktion lässt sich immer eine +Approximation für die Betragsfunktion finden, so dass sich der +Beweis des reellen Satzes von Stone-Weierstrass übertragen lässt. + +% +% Normale Matrizen +% +\subsection{Normale Matrizen +\label{buch:subsection:normale-matrizen}} +Aus dem Satz von Stone-Weierstrass für komplexe Matrizen kann man +jetzt einen Spektralsätze für eine etwas grössere Klasse von Matrizen +ableiten, als im Satz~\ref{buch:eigenwerte:satz:spektralsatz} +möglich war. +Der Satz besagt, dass für eine beliebige Funktion $f$ auf dem Spektrum +$\operatorname{Sp}(A)$ eine Folge von auf $\operatorname{Sp}(A)$ +gleichmässig konvergenten, approximierenden Polynomen +$p_n(z,\overline{z})$ gefunden werden kann. +Doch wie soll jetzt aus dieser Polynomfolge ein Kandidat von $f(A)$ +gefunden werden? + +Zunächst stellt sich die Frage, was für die Variable $\overline{z}$ +eingesetzt werden soll. +$1\times 1$-Matrizen sind notwendigerweise diagonal, also muss +man in diesem Fall die Matrix $\overline{A}$ für die Variable +$\overline{z}$ eingesetzt werden. +Dies erklärt aber noch nicht, wie für $n\times n$-Matrizen +vorzugehen ist, wenn $n>1$ ist. + +Die Notwendigkeit, die Variable $\overline{z}$ hinzuzunehmen +ergab sich aus der Anforderung, dass der Betrag aus $|z|^2=z\overline{z}$ +konstruiert werden können muss. +Insbesondere muss beim Einsetzen eine Matrix entstehen, die nur +positive Eigenwerte hat. +Für eine beliebige komplexe $n\times n$-Matrix $A$ ist aber +$A\overline{A}$ nicht notwendigerweise positiv, wie das Beispiel +\[ +A += +\begin{pmatrix}0&i\\i&0\end{pmatrix} +\qquad +\Rightarrow +\qquad +A\overline{A} += +\begin{pmatrix}0&i\\-i&0\end{pmatrix} +\begin{pmatrix}0&-i\\i&0\end{pmatrix} += +\begin{pmatrix} +-1&0\\ + 0&-1 +\end{pmatrix} += +-I +\] +zeigt. +Eine positive Matrix entsteht dagegen immer, wenn man statt +$A$ die Adjungierte $A^*=\overline{A}^t$ verwendet. + +Die Substitution von $A$ für $z$ und $A^*$ für $\overline{z}$ +in einem Polynom $p(z,\overline{z})$ ist nicht unbedingt eindeutig. +Schon das Polynom $p(z,\overline{z})=z\overline{z}$ kann man auch +als $\overline{z}z$ schreiben. +Damit die Substition eindeutig wird, muss man also fordern, dass +$AA^* = A^*A$ ist. + +\begin{definition} +Eine Matrix $A\in M_n(\mathbb{C})$ heisst {\em normal}, wenn $AA^*=A^*A$ gilt. +\end{definition} + +\subsubsection{Beispiele normaler Matrizen} + +\begin{enumerate} +\item +Hermitesche und Antihermitesche Matrizen sind normal, denn solche +Matrizen erfüllen $A^*=\pm A$ und damit +\( +AA^* = \pm A^2 = A^*A. +\) +\item +Symmetrische und antisymmetrische Matrizen sind normal, +denn aus $A=A^t$ folgt $A^*=\overline{A}^t$ und damit +\begin{align*} +AA^* &= A\overline{A}^t = +\\ +A^*A &= +\end{align*} +\item +Unitäre Matrizen $U$ sind normal, das $UU^*=I=U^*U$ gilt. +\item +Orthogonale Matrizen sind normal wegen $O(n) = U(n) \cap M_n(\mathbb{R})$. +\end{enumerate} + +Jede Matrix lässt sich durch Wahl einer geeigneten Basis in Jordansche +Normalform bringen. +Allerdings sind Jordan-Blöcke keine normalen Matrizen, wie der folgende +Satz zeigt. + +\begin{satz} +Eine Dreiecksmatrix ist genau dann normal, wenn sie diagonal ist. +\end{satz} + +\begin{proof}[Beweis] +Sei $A$ eine obere Dreiecksmatrix, das Argument für eine untere Dreiecksmatrix +funktioniert gleich. +Wir berechnen ein Diagonalelement für beide Produkte $AA^*$ und $A^*A$. +Dazu brauchen wir die Matrixelemente von $A$ und $A^*$. +Bezeichnen wir die Matrixelemente von $A$ mit $a_{ij}$, dann hat $A^*$ +die Matrixelemente $(A^*)_{ij}=\overline{a}_{ji}$. +Damit kann man die Diagonalelemente der Produkte als +\begin{align*} +(AA^*)_{ii} +&= +\sum_{j=1}^n a_{ij}\overline{a}_{ij} += +\sum_{j=i}^n |a_{ij}|^2 +\\ +(A^*A)_{ii} +&= +\sum_{j=1}^n \overline{a}_{ji}a_{ji} += +\sum_{j=1}^i |a_{ji}|^2 +\end{align*} +ausrechnen. +Der obere Ausdruck ist die quadrierte Länge der Zeile $i$ der Matrix $A$, +der untere ist die quadrierte Länge der Spalte $i$. +Da die Matrix eine obere Dreiecksmatrix ist, hat die erste Spalte höchstens +ein einziges von $0$ verschiedenes Element. +Daher kann auch die erste Zeile höchstens dieses eine Elemente haben. +Die Matrix hat daher Blockstruktur mit einem $1\times 1$-Block in der +linken obere Ecke und einem $n-1$-dimensionalen Block für den Rest. +Durch Wiederholen des Arguments für den $(n-1)\times (n-1)$-Block +kann man so schrittweise schliessen, dass die Matrix $A$ diagonal sein muss. +\end{proof} + + +\begin{satz} +Sind $A$ und $B$ normale Matrizen und $AB^*=B^*A$, dann sind auch $A+B$ +und $AB$ normal. +\end{satz} + +\begin{proof}[Beweis] +Zunächst folgt aus $AB^*=B^*A$ auch +$A^*B = (B^*A)^* = (AB^*)^* = BA^*$. +Der Beweis erfolgt durch Nachrechnen: +\begin{align*} +(A+B)(A+B)^* +&= +AA^* + AB^* + BA^*+BB^* +\\ +(A+B)^*(A+B) +&= +A^*A + A^*B + B^*A + B^*B +\end{align*} +Die ersten und letzten Terme auf der rechten Seite stimmen überein, weil +$A$ und $B$ normal sind. +Die gemischten Terme stimmen überein wegen der Vertauschbarkeit von +$A$ und $B^*$. + +Für das Produkt rechnet man +\begin{align*} +(AB)(AB)^* +&= ABB^*A^* = AB^*BA^* += B^*AA^*B += +B^*A^*AB += +(AB)^*(AB), +\end{align*} +was zeigt, dass auch $AB$ normal ist. +\end{proof} + +\subsubsection{Äquivalente Bedingungen} +Es gibt eine grosse Zahl äquivalenter Eigenschaften für normale Matrizen. +Die folgenden Eigenschaften sind äquivalent: +\begin{enumerate} +\item +Die Matrix $A$ ist mit einer unitären Matrix diagonalisierbar +\item +Es gibt eine orthonormale Basis von Eigenvektoren von $A$ für $\mathbb{C}^n$ +\item +Für jeden Vektor $x\in\mathbb{C}^n$ gilt $\|Ax\|=\|A^*x\|$ +\item +Die Forbenius-Norm der Matrix $A$ kann mit den Eigenwerten $\lambda_i$ +von $A$ berechnet werden: +$\operatorname{Spur}(A^*A) = \sum_{i=1}^n |\lambda_i|^2$ +\item +Der hermitesche Teil $\frac12(A+A^*)$ und der antihermitesche Teil +$\frac12(A-A^*)$ von $A$ vertauschen. +\item +$A^*$ ist ein Polynom vom Grad $n-1$ in $A$. +\item +Es gibt eine unitäre Matrix $U$ derart, dass $A^*=AU$ +\item +Es gibt eine Polarzerlegugn $A=UP$ mit einer unitären Matrix $U$ und +einer postiv semidefiniten Matrix $P$, die untereinander vertauschen. +\item +Es gibt eine Matrix $N$ mit verschiedenen Eigenwerten, mit denen $A$ +vertauscht. +\item +Wenn $A$ die (absteigend geordneten) singulärwerte $\sigma_i$ und +die absteigend geordneten Eigenwerte $\lambda_i$ hat, +dann it $\sigma_i=|\lambda_i|$. +\end{enumerate} + + + + -- cgit v1.2.1