buch/chapters/40-eigenwerte/spektraltheorie.tex


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864

%
% spektraltheorie.tex
%
% (c) 2020 Prof Dr Andreas Müller, Hochschule Rapperswil
% 
\section{Spektraltheorie
\label{buch:section:spektraltheorie}}
Aufgabe der Spektraltheorie ist, Bedingungen an eine Matrix $A$ und eine
\index{Spektraltheorie}
Funktion $f(z)$ zu finden, unter denen es möglich ist, $f(A)$ auf 
konsistente Art und Weise zu definieren.
Weiter müssen Methoden entwickelt werden, mit denen $f(A)$ berechnet
werden kann.
Für ein Polynom $p(z)$ ist $p(A)$ durch Einsetzen definiert.
Für Funktionen, die sich nicht durch ein Polynom darstellen lassen,
muss eine Approximation der Funktion durch Polynome verwendet werden.
Sei also $p_n(z)$ eine Folge von Polynomen, die als Approximation der
Funktion $f(z)$ verwendet werden soll.
Das Ziel ist, $f(A)$ als den Grenzwert der Matrixfolge $p_n(A)$
zu definieren.

Zunächst ist nicht klar, wie eine solche Folge gewählt werden muss.
Es muss eine Teilmenge von $K\subset\mathbb{C}$ spezifiziert werden,
auf der die Funktionenfolge $p_n(z)$ konvergieren muss,
damit auch die Konvergenz der Matrizenfolge $p_n(A)$ garantiert ist.
Auch die Art der Konvergenz von $p_n(z)$ auf der Menge $K$ ist noch
unklar.
Da der Abstand zweier Matrizen $A$ und $B$ in der Operatornorm
mit der grössten Abweichung $\|(A-B)v\|$ für Einheitsvektoren $v$
gemessen wird, ist es einigermassen plausibel, dass
die grösse Abweichung zwischen zwei Polynomen $|p(z) - q(z)|$ auf
der Menge $K$ kleine sein muss, wenn $\|p(A)-q(A)\|$ klein 
sein soll.
Da die Differenz $p(z)-q(z)$ für beliebige Polynome, die sich nicht
nur um eine Konstante unterscheiden, mit $z$ über alle Grenzen wächst,
muss $K$ beschränkt sein.
Gesucht ist also eine kompakte Menge $K\subset\mathbb{C}$ und eine
Folge $p_n(z)$ von Polynomen, die auf $K$ gleichmässig gegen $f(z)$
konvergieren.
Die Wahl von $K$ muss sicherstellen, dass für jede gleichmässig
konvergente Folge von Polynomen $p_n(z)$ auch die Matrizenfolge
$p_n(A)$ konvergiert.

Es wird sich zeigen, dass die Menge $K$ das Spektrum von $A$ ist,
$K=\operatorname{Sp}(A)$,
(Definition~\ref{buch:eigenwerte:def:spektrum}),
also eine endliche Teilmenge von $\mathbb{C}$.
\index{Spektrum}
Jede Funktion kann auf so einer Menge durch Polynome exakt wiedergegeben
werden.
Es gibt insbesondere Folgen von Polynomen, die eingeschränkt
auf das Spektrum gleich sind, also $p_n(z)=p_m(z)$ für alle $z\in K$,
die aber ausserhalb des Spektrums alle verschieden sind.
Als Beispiel kann die Matrix 
\[
N=\begin{pmatrix}0&1\\0&0\end{pmatrix}
\]
herangezogen werden.
Ihr Spektrum ist $\operatorname{Sp}(N)=\{0\}\subset\mathbb{C}$.
Zwei Polynome stimmen genau dann auf $\operatorname{Sp}(N)$ überein,
wenn der konstante Koeffizient gleich ist.
Die Polynome $p(z)=z$ und $q(z)=z^2$ stimmen daher auf dem Spektrum
überein.
Für die Matrizen gilt aber $p(N)=N$ und $q(N)=N^2=0$, die Matrizen
stimmen also nicht überein.
Es braucht also zusätzliche Bedingungen an die Matrix $A$, die
sicherstellen, dass $p(A)=0$ ist, wann immer $p(z)=0$ für
$z\in\operatorname{Sp}(A)$ gilt.

In diesem Abschnitt sollen diese Fragen untersucht werden.
In Abschnitt~\ref{buch:subsection:approximation-durch-polynome}
wird gezeigt, wie sich Funktionen durch Polynome approximieren
lassen, woraus sich dann Approximationen von $f(A)$ für diagonalisierbare
Matrizen mit reellen Eigenwerten ergeben.

Der Satz von Stone-Weierstrass, der in
\index{Stone-Weierstrass, Satz von}%
\index{Satz von Stone-Weierstrass}%
Abschnitt~\ref{buch:subsetion:stone-weierstrass} dargestellt wird,
ist ein sehr allgemeines Approximationsresultat, welches nicht nur
zeigt, dass die Approximation unter einigermassen natürlichen Voraussetzungen
beliebig genau möglich ist, sondern uns im komplexen Fall auch
weitere Einsicht dafür geben kann, welche Voraussetzungen an eine
komplexe Matrix gestellt werden müssen, damit man damit rechnen kann,
dass die Approximation zu einer konsistenten Definition von $f(A)$ führt.

%
% Approximation
%
\subsection{Approximation durch Polynome
\label{buch:subsection:approximation-durch-polynome}}
Die der Berechnung von $f(A)$ für eine beleibige stetige Funktion,
die sich nicht als Potenzreihe schreiben lässt, verwendet Approximationen
von Polynomen.
Die numerische Mathematik hat eine grosse Menge von solchen
Approximationsverfahren entwickelt, wovon zwei kurz (ohne Beweise)
vorgestellt werden sollen.

\subsubsection{Das Legendre-Interpolationspolynom}
\index{Legendre-Interpolationspolynom}%
Zu vorgegebenen, verschiedenen Zahlen $z_i\in\mathbb{C}$, $0\le i\le n$,
die auch die {\em Stützstellen} genannt werden,
\index{Stützstelle}%
gibt es immer ein Polynom vom Grade $n$, welches in den $z_i$ vorgegebene
Werte $f(z_i)$ annimmt.
Ein solches Polynom lässt sich im Prinzip mit Hilfe eines linearen
Gleichungssystems finden, man kann aber auch direkt eine Lösung
konstruieren.
Dazu bildet man erst die Polynome
\begin{align*}
l(z) &= (z-z_0)(z-z_1)\cdots (z-z_n) \qquad\text{und}
\\
l_i(z) &= (z-z_0)\cdots \widehat{(z-z_i)}\cdots (z-z_n).
\end{align*}
Darin bedeutet der Hut, dass dieser Term weggelassen werden soll.
Für $z\ne z_i$ ist $l_i(z)=l(z)/(z-z_i)$.
Die Polynome
\[
k_i(z)
=
\frac{l_i(z)}{l_i(z_i)}
=
\frac{(z-z_0)\cdots \widehat{(z-z_i)}\cdots (z-z_n)}{(z_i-z_0)\cdots \widehat{(z_i-z_i)}\cdots (z_i-z_n)}
\]
haben die Eigenschaft
$k_i(z_j)=\delta_{i\!j}$.
Damit lässt sich jetzt ein Polynom
\[
p(z) = \sum_{j=0}^n f(z_j) \frac{l_j(z)}{l_j(z_j)}
\]
vom Grad $n$ konstruieren, welches die Werte
\[
p(z_i)
=
\sum_{j=0}^n f(z_j) \frac{l_j(z_i)}{l_j(z_j)}
=
\sum_{j=0}^n f(z_j) \delta_{i\!j}
=
f_(z_i)
\]
annimmt.
Das Polynom $p(z)$ heisst das {\em Legendre-Interpolationspolynom}.

Zwar lässt sich also für eine endliche Menge von komplexen Zahlen immer
ein Polynom finden, welches vorgeschriebene Wert in allen diesen Zahlen
annimmt, doch ist die Stabilität für grosse $n$ eher beschränkt.


\subsubsection{Gleichmassige Approximation mit Bernstein-Polynomen}
\index{Bernstein-Polynom}%
Das Legendre-Interpolationspolynom nimmt in den  Stützstellen die
verlangten Werte an, aber ausserhalb der Stützstellen ist nicht
garantiert, dass man eine gute Approximation einer Funktion $f(z)$
erhält.
Für die Approximation auf einem reellen Interval $[a,b]$ hat
Sergei Natanowitsch Bernstein eine Methode zur expliziten
Konstruktion eines Approximationspolynoms formuliert.

Dazu werden zuerst die reellen Bernsteinpolynome vom Grad $n$
durch
\begin{align*}
B_{i,n}(t) = \binom{n}{i} t^i(1-t)^{n-i}
\end{align*}
definiert.
Als Approximationspolynom für die auf dem Interval 
$[0,1]$ definierte, stetige Funktion $f(t)$ kann man dann
\[
B_n(f)(t)
=
\sum_{i=0}^n B_{i,n}(t) f\biggl(\frac{i}{n}\biggr)
\]
verwenden.
Die Polynome $B_n(f)(t)$ konvergieren gleichmässig auf $[0,1]$
gegen die Funktion $f(t)$.
Über die Konvergenz ausserhalb des reellen Intervalls wird nichts
ausgesagt.
Die Approximation mit Bernstein-Polynomen ist daher nur sinnvoll,
wenn man weiss, dass die Eigenwerte der Matrix reell sind, was im
wesentlichen auf diagonalisierbare Matrizen führt.

Für ein anderes Interval $[a,b]$ kann man ein Approximationspolynom
erhalten, indem man die affine Transformation
$s\mapsto (s-a)/(b-a)$
von $[a,b]$ auf $[0,1]$
verwendet. 

%
% Der Satz von Stone-Weierstrass
%
\subsection{Der Satz von Stone-Weierstrasss
\label{buch:subsetion:stone-weierstrass}}
\index{Stone-Weierstrass, Satz von}%
\index{Satz von Stone-Weierstrass}%
Der Satz von Stone-Weierstrass behandelt im Gegensatz zu den in
Abschnitt~\ref{buch:subsection:approximation-durch-polynome}
besprochenen Approximationsmethoden nicht nur Funktionen von
reellen Variablen durch Polynome.
Vielmehr kann das Definitionsgebiet irgend eine abgeschlossene
und beschränkte Teilmenge eines reellen oder komplexen Vektorraumes
sein und die Funktionen können Polynome aber auch viel allgemeinere
Funktionen verwendet werden, wie zum Beispiel die Funktionen
$x\mapsto \cos nx$ und $x\mapsto \sin nx$ definiert auf dem
Intervall $[0,2\pi]$.
In diesem Fall liefert der Satz von Stone-Weierstrass die Aussage,
dass sich jede stetige periodische Funktion gleichmässig durch
trigonometrische Polynome approximieren lässt.

Die Aussage des Satz von Stone-Weierstrass über reelle Funktionen
lässt sich nicht auf komplexe Funktionen erweitern.
Von besonderem Interesse ist jedoch, dass der Beweis des Satz 
zeigt, warum solche Aussagen für komplexe Funktionen nicht mehr
zutreffen.
Im Falle der Approximation von komplexen Funktionen $f(z)$ durch Polynome
zwecks Definition von $f(A)$ werden sich daraus Bedingungen an die
Matrix ableiten lassen, die eine konsistente Definition überhaupt
erst ermöglichen werden.

\subsubsection{Punkte trennen}
Aus den konstanten Funktionen lassen sich durch algebraische
Operationen nur weitere konstante Funktionen erzeugen.
Die konstanten Funktionen sind also nur dann eine genügend
reichhaltige Menge für die Approximation von Funktionen auf $K$,
wenn die Menge $K$ nur einen einzigen Punkt enthält.
Damit sich Funktionen approximieren lassen, die in zwei Punkten
verschiedene Werte haben, muss es auch unter den zur Approximation
zur Verfügung stehenden Funktionen solche haben, deren Werte sich
in diesen Punkten unterscheiden.
Diese Bedingung wird in der folgenden Definition formalisiert.

\begin{definition}
Sei $K$ eine beliebige Menge und $A$ eine Menge von Funktionen
$K\to \mathbb{C}$.
Man sagt, $A$ {\em trennt die Punkte von $K$}, wenn es für jedes Paar
\index{Punkte trennen}%
von Punkten $x,y\in K$ eine Funktion $f\in A$ gibt derart, dass
$f(x)\ne f(y)$.
\end{definition}

Man kann sich die Funktionen $f$, die gemäss dieser Definition die Punkte
von $K$ trennen, als eine Art Koordinaten der Punkte in $K$ vorstellen.
Die Punkte der Teilmenge $K\subset \mathbb{R}^n$ werden zum Beispiel
von den Koordinatenfunktionen $x\mapsto x_i$ getrennt.
Wir schreiben für die $i$-Koordinate daher auch als Funktion $x_i(x)=x_i$.
Zwei verschiedene Punkte $x,y\in K$ unterscheiden sich in mindestens
einer Koordinate.
Für diese Koordinate sind dann die Werte der zugehörigen
Koordinatenfunktion $x_i=x_i(x)\ne x_i(y)=y_i$ verschieden, die
Funktionen $x_1(x)$ bis $x_n(x)$ trennen also die Punkte.

\begin{beispiel}
Wir betrachten einen Kreis in der Ebene, also die Menge
\[
S^1
=
\{(x_1,x_2)\;|\; x_1^2 + x_2^2=1\}
\]
$S^1$ ist eine abgeschlossene und beschränkte Menge in $\mathbb{R}^2$.
Die Funktion $x\mapsto x_1$ trennt die Punkte nicht, denn zu jedem
Punkt $(x_1,x_2)\in S^2$ gibt es den an der ersten Achse
gespiegelten Punkt $\sigma(x)=(x_1,-x_2)$, dessen erste Koordinate
den gleichen Wert hat.
Ebenso trennt die Koordinatenfunktion $x\mapsto x_2$ die Punkte nicht.
Die Menge $A=\{ x_1(x), x_2(x)\}$ bestehend aus den beiden
Koordinatenfunktionen trennt dagegen die Punkte von $S^1$, da die Punkte
sich immer in mindestens einem Punkt unterscheiden.

Man könnte auch versuchen, den Kreis in Polarkoordinaten zu beschreiben.
Die Funktion $\varphi(x)$, die jedem Punkt $x\in S^1$ den Polarwinkel
zuordnet, trennt sicher die Punkte des Kreises.
Zwei verschiedene Punkte auf dem Kreis haben verschieden Polarwinkel.
Die Menge $\{\varphi\}$ trennt also die Punkte von $S^1$.
Allerdings ist die Funktion nicht stetig, was zwar der Definition
nicht widerspricht aber ein Hindernis für spätere Anwendungen ist.
\end{beispiel}


\subsubsection{Der Satz von Stone-Weierstrass für reelle Funktionen}
\index{Satz von Stone-Weierstrass}%
\index{Stone-Weierstrass, Satz von}%
Die Beispiele von Abschnitt~\ref{buch:subsection:approximation-durch-polynome}
haben bezeigt, dass sich reellwertige Funktionen einer reellen
Variable durch Polynome beliebig genau approximieren lassen.
Es wurde sogar eine Methode vorgestellt, die eine auf einem Intervall
gleichmässig konvergente Polynomefolge produziert.
Die Variable $x\in[a,b]$ trennt natürlich die Punkte, die Algebra der
Polynome in der Variablen $x$ enthält also sicher Funktionen, die in
verschiedenen Punkten des Intervalls auch verschiedene Werte annehmen.
Nicht ganz so selbstverständlich ist aber, dass sich daraus bereits
ergibt, dass jede beliebige Funktion sich als Polynome in $x$
approximieren lässt.
Dies ist der Inhalt des folgenden Satzes von Stone-Weierstrass.

\begin{figure}
\centering
\includegraphics{chapters/40-eigenwerte/images/wurzel.pdf}
\caption{Konstruktion einer monoton wachsenden Approximationsfolge für
$\sqrt{a}$
\label{buch:eigenwerte:fig:wurzelverfahren}}
\end{figure}

\begin{figure}
\centering
\includegraphics[width=\textwidth]{chapters/40-eigenwerte/images/wurzelapprox.pdf}
\caption{Monoton wachsende Approximation der Funktion $t\mapsto\sqrt{t}$ mit 
Polynomen $u_n(t)$ nach 
\eqref{buch:eigenwerte:eqn:wurzelapproximation}
(links) und der Fehler der Approximation
(rechts).
\label{buch:eigenwerte:fig:wurzelapproximation}}
\end{figure}

\begin{satz}[Stone-Weierstrass]
\label{buch:satz:stone-weierstrass}
Enthält eine $\mathbb{R}$-Algebra $A$ von stetigen, rellen Funktionen
auf einer kompakten Menge $K$ die konstanten Funktionen und trennt sie
Punkte, d.~h.~für zwei verschiedene Punkte $x,y\in K$ gibt es
immer eine Funktion $f\in A$ mit $f(x)\ne f(y)$, dann ist jede stetige,
reelle Funktion auf $K$ gleichmässig approximierbar durch Funktionen 
in $A$.
\end{satz}

Für den Beweis des Satzes wird ein Hilfsresultat benötigt, welches wir
zunächst ableiten.
Es besagt, dass sich die Wurzelfunktion $t\mapsto\sqrt{t}$
\index{Wurzelfunktion}%
auf dem Interval $[0,1]$ gleichmässig
von unten durch Polynome approximieren lässt, die in
Abbildung~\ref{buch:eigenwerte:fig:wurzelapproximation} dargestellt
sind.

\begin{satz}
Die rekursiv definierte Folge von Polynomen
\begin{equation}
u_{n+1}(t)
=
u_n(t) + \frac12(t-u_n(t)^2),
\qquad
u_0(t)=0
\label{buch:eigenwerte:eqn:wurzelapproximation}
\end{equation}
ist monoton wachsend und approximiert die Wurzelfunktion $t\mapsto\sqrt{t}$
gleichmässig auf dem Intervall $[0,1]$.
\end{satz}

\begin{figure}
\centering
\includegraphics{chapters/40-eigenwerte/images/minmax.pdf}
\caption{Graphische Erklärung der
Identitäten~\eqref{buch:eigenwerte:eqn:minmax} für
$\max(f(x),g(x))$ und $\min(f(x),g(x))$.
Die purpurrote Kurve stellt den Mittelwert von $f(x)$ und $g(x)$ dar,
die vertikalen grünen Linien haben die Länge der Differenz $|f(x)-g(x)|$.
Das Maximum erhält man, indem man den halben Betrag der Differenz zum
Mittelwert hinzuaddiert, das Minimum erhält man durch Subtraktion
der selben Grösse.
\label{buch:eigenwerte:fig:minmax}}
\end{figure}

\begin{proof}[Beweis]
Wer konstruieren zunächst das in
Abbildung~\ref{buch:eigenwerte:fig:wurzelverfahren}
visualierte Verfahren, mit dem für jede Zahl $a\in[0,1]$
die Wurzel $\sqrt{a}$ berechnet werden kann.
Sei $u < \sqrt{a}$ eine Approximation der Wurzel.
Die Approximation ist der exakte Wert der Lösung, wenn $a-u^2=0$.
In jedem anderen Fall muss $u$ um einen Betrag $d$ vergrössert werden.
Natürlich muss immer noch $u+d<\sqrt{a}$ sein.
Man kann die maximal zulässige Korrektur $d$ geometrisch abschätzen,
wie dies in Abbildung~\ref{buch:eigenwerte:fig:wurzelverfahren}
skizziert ist.
Die maximale Steigung des Graphen der Funktion $u\mapsto u^2$ ist $2$,
daher darf man $u$ maximal um die Hälfte der Differenz $a-u^2$ (grün)
vergrössern, also $d=\frac12(a-u^2)$.
Die Rekursionsformel
\[
u_{n+1} = u_n + d = u_n + \frac12(a-u_n^2)
\]
mit dem Startwert $u_0=0$ liefert daher eine 
Folge, die gegen $\sqrt{a}$ konvergiert.
\end{proof}

\begin{proof}[Beweis des Satzes von Stone-Weierstrass]
\index{Stone-Weierstrass, Beweis}%
\index{Satz von Stone-Weierstrasse, Beweis}%
Da $A$ eine Algebra ist, ist mit jeder Funktion $f\in A$ für jedes Polynome
$p\in\mathbb{R}[X]$ auch $p(f)$ eine Funktion in $A$.
\begin{enumerate}
\item Schritt: Für jede Funktion $f\in A$ lässt sich auch $|f|$ durch
Funktionen in $A$ beliebig genau durch eine monoton wachsende Folge
von Funktionen approximieren.

Da $A$ eine Algebra ist, ist $f^2\in A$.
Sei ausserdem $m^2=\sup \{f(x)^2\;|\;x\in K\}$, so dass $f^2/m^2$ eine Funktion
mit Werten im Intervall $[0,1]$ ist.
Die Funktionen $f_n(x)=mu_n(f(x)^2/m^2)$ sind ebenfalls in $A$ und
approximieren gleichmässig $\sqrt{f(x)^2}=|f(x)|$.

\item Schritt: Für zwei Funktionen $f,g\in A$ gibt es eine monoton wachsende
Folge, die $\max(f,g)$ gleichmässig beliebig genau approximiert
und eine monoton fallende Folge, die $\min(f,g)$ gleichmässig beliebig 
genau approximiert.

Diese Folgen können aus der Approximationsfolge für den Betrag einer
Funktion und den Identitäten
\begin{equation}
\begin{aligned}
\max(f,g) &= \frac12(f+g+|f-g|) \\
\min(f,g) &= \frac12(f+g-|f-g|) 
\end{aligned}
\label{buch:eigenwerte:eqn:minmax}
\end{equation}
gefunden werden, die in Abbildung~\ref{buch:eigenwerte:fig:minmax}
graphisch erklärt werden.

\item Schritt: Zu zwei beliebigen Punkten $x,y\in K$ und Werten
$\alpha,\beta\in\mathbb{R}$ gibt es immer eine Funktion in $A$,
die in den Punkten $x,y$ die vorgegebenen Werte $\alpha$ bzw.~$\beta$
annimmt.
Da $A$ die Punkte trennt, gibt es eine Funktion $f_0$ mit $f_0(x)\ne f_0(y)$.
Dann ist die Funktion
\[
f(t)
=
\beta + \frac{f_0(t)-f_0(y)}{f_0(x)-f_0(y)}(\alpha-\beta)
\]
wohldefiniert, liegt in $A$ und nimmt die verlangten Werte an.

\item Schritt: Zu jeder stetigen Funktion $f\colon K\to\mathbb{R}$, jedem
Punkt $x\in K$ und jedem $\varepsilon>0$ gibt es eine Funktion $g\in A$ derart,
dass $g(x)=f(x)$ und $g(y) \le f(y)+\varepsilon$ für alle $y\in K$.

Zu jedem $z\in K$ gibt es eine Funktion $h_z\in A$ mit
$h_z(x)=f(x)$ und $h_z(z) \le f(z)+\frac12\varepsilon$.
Wegen der Stetigkeit von $h_z$ gibt es eine Umgebung $V_z$ von $z$, in der
immer noch gilt $h_z(y)\le f(y)+\varepsilon$ für $y\in V_z$.
Wegen der Kompaktheit von $K$ kann man endlich viele Punkte $z_i$ wählen
derart, dass die $V_{z_i}$ immer noch $K$ überdecken.
Dann erfüllt die Funktion
\(
g(z) = \inf h_{z_i}
\)
die Bedingungen $g(x) = f(x)$ und für $z\in V_{z_i}$
\[
g(z) = \inf_{j} h_{z_j}(z) \le h_{z_i}(z) \le f(z)+\varepsilon.
\]
Ausserdem ist $g(z)$ nach dem zweiten Schritt beliebig genau durch
Funktionen in $A$ approximierbar.
\item Schritt: Jede stetige Funktion $f\colon K\to\mathbb{R}$ kann
beliebig genau durch Funktionen in $A$ approximiert werden.

Sei $\varepsilon > 0$.
Nach dem vierten Schritt gibt es für jedes $y\in K$ eine Funktion $g_y$
derart, dass $g_y(y)=f(y)$  und $g_y(x) \le f(x) + \varepsilon$ für
$x\in K$.
Da $g_y$ stetig ist, gilt ausserdem $g_y(x) \ge f(x) -\varepsilon$ in
einer Umgebung $U_y$ von $y$.
Da $K$ kompakt ist, kann man endlich viele $y_i$ derart, dass die $U_{y_i}$
immer noch ganz $K$ überdecken.
Die Funktion $g=\sup g_{y_i}$ erfüllt dann überall $g(x) \le f(x)+\varepsilon$,
weil jede der Funktionen $g_y$ diese Ungleichung erfüllt.
Ausserdem gilt für $x\in V_{x_j}$
\[
g(x) = \sup_i g_{x_i}(x) \ge g_{x_j}(x) \ge f(x)-\varepsilon.
\]
Somit ist
\[
|f(x)-g(x)| \le \varepsilon.
\]
Damit ist $f(x)$ beliebig nahe an der Funktion $g(x)$, die sich 
beliebig genau durch Funktionen aus $A$ approximieren lässt.
\qedhere
\end{enumerate}
\end{proof}

Im ersten Schritt des Beweises ist ganz entscheidend, dass man die
Betragsfunktion konstruieren kann.
Daraus leiten sich dann alle folgenden Konstruktionen ab.

\subsubsection{Anwendung auf symmetrische und hermitesche Matrizen}
Für symmetrische und hermitesche Matrizen $A$ ist bekannt, dass die
Eigenwerte reell sind, also das Spektrum $\operatorname{A}\subset\mathbb{R}$
ist.
Für eine Funktion $\mathbb{R}\to \mathbb{R}$ lässt sich nach dem
Satz~\ref{buch:satz:stone-weierstrass} immer eine Folge $p_n$ von
approximierenden Polynomen in $x$ finden, die auf $\operatorname{Sp}(A)$
gleichmässig konvergiert.
Die Matrix $f(A)$ kann dann definiert werden also der Grenzwert
\[
f(A) = \lim_{n\to\infty} p_n(A).
\]
Da diese Matrizen auch diagonalisierbar sind, kann man eine Basis
aus Eigenvektoren verwenden.
Die Wirkung von $p_n(A)$ auf einem Eigenvektor $v$ zum Eigenwert $\lambda$
ist
\[
p_n(A)v
=
(a_kA^k + a_{k-1}A^{k-1}+\dots +a_2A^2+a_1A+a_0I)v
=
(a_k\lambda^k + a_{k-1}\lambda^{k-1}+\dots + a_2\lambda^2 + a_1\lambda + a_0)v
=
p_n(\lambda)v.
\]
Im Grenzwert wirkt $f(A)$ daher durch Multiplikation eines Eigenvektors
mit $f(\lambda)$, die Matrix $f(A)$ hat in der genannten Basis die
Diagonalform
\[
A=\begin{pmatrix}
\lambda_1&         &      &         \\
         &\lambda_2&      &         \\
         &         &\ddots&         \\
         &         &      &\lambda_n
\end{pmatrix}
\qquad\Rightarrow\qquad
f(A)=\begin{pmatrix}
f(\lambda_1)&            &      &            \\
            &f(\lambda_2)&      &            \\
            &            &\ddots&            \\
            &            &      &f(\lambda_n)
\end{pmatrix}.
\]

Insgesamt haben wir damit den folgenden {\em Spektralsatz } für symmetrische
und hermitesche Matrizen erhalten.
\index{Spektralsatz}%

\begin{satz}[Spektralsatz]
\label{buch:eigenwerte:satz:spektralsatz}
\index{symmetrische Matrix}%
\index{Matrix, symmetrisch}%
\index{hermitesche Matrix}%
\index{Matrix, hermitesche}%
Ist $A$ symmetrische oder hermitesche Matrix und $f$ eine Funktion
auf dem Spektrum $\operatorname{Sp}(A)$ von $A$.
Dann gibt es genau eine Matrix $f(A)$, die Grenzwert jeder beliebigen
Folge $p_n(A)$ für Polynomfolgen, die auf $\operatorname{Sp}(A)$
gleichmässig gegen $f$ konvergieren.
\end{satz}

\subsubsection{Unmöglichkeit der Approximation von $z\mapsto \overline{z}$
in $\mathbb{C}[z]$}
Der Satz~\ref{buch:satz:stone-weierstrass} von Stone-Weierstrass für
reelle Funktionen gilt nicht für komplexe Funktionen.
In diesem Abschnitt zeigen wir, dass sich die Funktion $z\mapsto\overline{z}$
auf der Einheitskreisscheibe $K=\{z\in\mathbb{C}\;|\; |z|\le 1\}$ nicht
gleichmässig durch Polynome $p(z)$ mit komplexen Koeffizienten approximieren
lässt.
Sei also $p_n(z)$ eine Folge von Polynomen, die auf der Einheitskreisscheibe
gleichmässig gegen $\overline{z}$ konvergieren, also
$\overline{z}=\lim_{n\to\infty}p_n(z)$.

Das Wegintegral beider Seiten über den Pfad $\gamma(t) = e^{it}$
in der komplexen Ebene ist
\begin{align*}
\oint_\gamma z^k\,dz
&=
\int_0^{2\pi} e^{ikt} ie^{it}\,dt
=
i\int_0^{2\pi} e^{it(k+1)}\,dt
=
i\biggl[ \frac{1}{i(k+1)} e^{it(k+1)}\biggr]_0^{2\pi}
=
0
\\
\oint_\gamma
p(z)
\,dz
&=
\sum_{k=0}^\infty a_{n,k} \oint_\gamma z^k\,dz
=
\sum_{k=0}^\infty a_{n,k}\cdot 0
=
0
\\
\oint_\gamma \overline{z}\,dz
&=
\int_0^{2\pi} e^{it} ie^{it}\,dt
=
i\int_0^{2\pi} \,dt = 2\pi i,
\end{align*}
dabei wurde $\overline{\gamma}(t)=e^{-it}$ verwendet.
Insbesondere widersprechen sich die beiden Integrale.
Die ursprüngliche Annahme, $\overline{z}$ lasse sich durch Polynome
gleichmässig approximieren, muss daher verworfen werden.

\subsubsection{Der Satz von Stone-Weierstrass für komplexe Funktionen}
Der Satz von Stone-Weierstrass kann nach dem vorangegangene Abschnitt
also für komplexe Funktionen nicht gelten, wir haben eine Funktion
gefunden, die sich nicht approximieren lässt.
Um den Beweis des Satzes~\ref{buch:satz:stone-weierstrass}
auf komplexe Zahlen zu übertragen, muss im ersten Schritt ein Weg
gefunden werden, den Betrag einer Funktion zu approximieren.

Im reellen Fall geschah dies, indem zunächst eine Polynom-Approximation
für die Quadratwurzel konstruiert wurde, die dann auf das Quadrat einer
Funktion angewendet wurde.
Der Betrag einer komplexen Zahl $z$ ist aber nicht allein aus $z$
berechenbar, man braucht in irgend einer Form Zugang zu Real-
und Imaginärteil.
Zum Beispiel kann man Real- und Imaginärteil als
$\Re z= \frac12(z+\overline{z})$ und $\Im z = \frac12(z-\overline{z})$
bestimmen.
Kenntnis von Real- und Imaginärteil ist als gleichbedeutend mit
der Kenntnis der komplex Konjugierten $\overline{z}$.
Der Betrag lässt sich daraus als $|z|^2 = z\overline{z}$ finden.
Beide Beispiele zeigen, dass man den im Beweis benötigten Betrag
nur dann bestimmen kann, wenn mit jeder Funktion aus $A$ auch die
komplex konjugierte Funktion zur Verfügung steht.

\begin{satz}[Stone-Weierstrass]
\index{Satz von Stone-Weierstrass für komplexe Funktionen}
\index{Stone-Weierstrass, Satz für komplexe Funktionen}
Enthält eine $\mathbb{C}$-Algebra $A$ von stetigen, komplexwertigen
Funktionen auf einer kompakten Menge $K$ die konstanten Funktionen,
trennt sie Punkte und ist ausserdem mit jeder Funktion $f\in A$ auch
die komplex konjugiert Funktion $\overline{f}\in A$,
dann lässt sich jede stetige, komplexwertige Funktion 
auf $K$ gleichmässig durch Funktionen aus $A$ approximieren.
\end{satz}

Mit Hilfe der konjugiert komplexen Funktion lässt sich immer eine
Approximation für die Betragsfunktion finden, so dass sich der
Beweis des reellen Satzes von Stone-Weierstrass übertragen lässt.

%
% Normale Matrizen
%
\subsection{Normale Matrizen
\label{buch:subsection:normale-matrizen}}
Aus dem Satz von Stone-Weierstrass für komplexe Matrizen kann man
jetzt einen Spektralsatz für eine etwas grössere Klasse von Matrizen
\index{Spektralsatz}%
ableiten, als im Satz~\ref{buch:eigenwerte:satz:spektralsatz}
möglich war.
Der Satz besagt, dass für eine beliebige Funktion $f$ auf dem Spektrum
$\operatorname{Sp}(A)$ eine Folge von auf $\operatorname{Sp}(A)$
gleichmässig konvergenten, approximierenden Polynomen
$p_n(z,\overline{z})$ gefunden werden kann.
Doch wie soll jetzt aus dieser Polynomfolge ein Kandidat von $f(A)$
gefunden werden?

Zunächst stellt sich die Frage, was für die Variable $\overline{z}$ 
eingesetzt werden soll.
$1\times 1$-Matrizen sind notwendigerweise diagonal, also muss 
man in diesem Fall die Matrix $\overline{A}$ für die Variable
$\overline{z}$ eingesetzt werden.
Dies erklärt aber noch nicht, wie für $n\times n$-Matrizen
vorzugehen ist, wenn $n>1$ ist.

Die Notwendigkeit, die Variable $\overline{z}$ hinzuzunehmen,
ergab sich aus der Anforderung, dass der Betrag aus $|z|^2=z\overline{z}$
konstruiert werden können muss.
Insbesondere muss beim Einsetzen eine Matrix entstehen, die nur 
positive Eigenwerte hat.
Für eine beliebige komplexe $n\times n$-Matrix $A$ ist aber
$A\overline{A}$ nicht notwendigerweise positiv, wie das Beispiel
\[
A
=
\begin{pmatrix}0&i\\i&0\end{pmatrix}
\qquad
\Rightarrow
\qquad
A\overline{A}
=
\begin{pmatrix}0&i\\-i&0\end{pmatrix}
\begin{pmatrix}0&-i\\i&0\end{pmatrix}
=
\begin{pmatrix}
-1&0\\
 0&-1
\end{pmatrix}
=
-I
\]
zeigt.
Eine positive Matrix entsteht dagegen immer, wenn man statt
$A$ die Adjungierte $A^*=\overline{A}^t$ verwendet.

Die Substitution von $A$ für $z$ und $A^*$ für $\overline{z}$
in einem Polynom $p(z,\overline{z})$ ist nicht unbedingt eindeutig.
Schon das Polynom $p(z,\overline{z})=z\overline{z}$ kann man auch
als $\overline{z}z$ schreiben.
Damit die Substition eindeutig wird, muss man also fordern, dass
$AA^* = A^*A$ ist.

\begin{definition}
Eine Matrix $A\in M_n(\mathbb{C})$ heisst {\em normal}, wenn $AA^*=A^*A$ gilt.
\index{normal}%
\end{definition}

\subsubsection{Beispiele normaler Matrizen}

\begin{enumerate}
\item
Hermitesche und Antihermitesche Matrizen sind normal, denn solche
\index{hermitesch}%
\index{anithermitesch}%
Matrizen erfüllen $A^*=\pm A$ und damit
\(
AA^* = \pm A^2 = A^*A.
\)
\item
Symmetrische und antisymmetrische Matrizen sind normal,
\index{symmetrisch}%
\index{antisymmetrisch}%
denn aus $A=A^t$ folgt $A^*=\overline{A}^t$ und damit
\begin{align*}
AA^* &=  A\overline{A}^t = 
\\
A^*A &=
\end{align*}
\item
Unitäre Matrizen $U$ sind normal, das $UU^*=I=U^*U$ gilt.
\index{unitär}%
\item
Orthogonale Matrizen sind normal wegen $O(n) = U(n) \cap M_n(\mathbb{R})$.
\index{orthogonal}%
\end{enumerate}

Jede Matrix lässt sich durch Wahl einer geeigneten Basis in Jordansche 
Normalform bringen.
Allerdings sind Jordan-Blöcke keine normalen Matrizen, wie der folgende
Satz zeigt.

\begin{satz}
Eine Dreiecksmatrix ist genau dann normal, wenn sie diagonal ist.
\index{Dreiecksmatrix}%
\end{satz}

\begin{proof}[Beweis]
Sei $A$ eine obere Dreiecksmatrix, das Argument für eine untere Dreiecksmatrix
funktioniert gleich.
Wir berechnen ein Diagonalelement für beide Produkte $AA^*$ und $A^*A$.
Dazu brauchen wir die Matrixelemente von $A$ und $A^*$.
Bezeichnen wir die Matrixelemente von $A$ mit $a_{i\!j}$, dann hat $A^*$
die Matrixelemente $(A^*)_{i\!j}=\overline{a}_{ji}$.
Damit kann man die Diagonalelemente der Produkte als
\begin{align*}
(AA^*)_{ii}
&=
\sum_{j=1}^n a_{i\!j}\overline{a}_{i\!j}
=
\sum_{j=i}^n |a_{i\!j}|^2
\\
(A^*A)_{ii}
&=
\sum_{j=1}^n \overline{a}_{ji}a_{ji}
=
\sum_{j=1}^i |a_{ji}|^2
\end{align*}
ausrechnen.
Der obere Ausdruck ist die quadrierte Länge des Zeilenvektors $i$ der Matrix $A$,
der untere ist die quadrierte Länge des Spaltenvektors $i$.
Da die Matrix eine obere Dreiecksmatrix ist, hat die erste Spalte höchstens
ein einziges von $0$ verschiedenes Element.
Da die erste Spalte die gleiche Länge hat,
kann auch die erste Zeile höchstens dieses eine Element haben.
Die Matrix hat daher Blockstruktur mit einem $1\times 1$-Block in der
linken obere Ecke und einem  $n-1$-dimensionalen Block für den Rest.
Durch Wiederholen des Arguments für den $(n-1)\times (n-1)$-Block 
kann man so schrittweise schliessen, dass die Matrix $A$ diagonal sein muss.
\end{proof}


\begin{satz}
Sind $A$ und $B$ normale Matrizen und $AB^*=B^*A$, dann sind auch $A+B$
und $AB$ normal.
\end{satz}

\begin{proof}[Beweis]
Zunächst folgt aus $AB^*=B^*A$ auch
$A^*B = (B^*A)^* = (AB^*)^* = BA^*$.
Der Beweis erfolgt durch Nachrechnen:
\begin{align*}
(A+B)(A+B)^*
&=
AA^* + AB^* + BA^*+BB^*
\\
(A+B)^*(A+B)
&=
A^*A + A^*B + B^*A + B^*B
\end{align*}
Die ersten und letzten Terme auf der rechten Seite stimmen überein, weil
$A$ und $B$ normal sind.
Die gemischten Terme stimmen überein wegen der Vertauschbarkeit von
$A$ und $B^*$.

Für das Produkt rechnet man
\begin{align*}
(AB)(AB)^*
&= ABB^*A^* = AB^*BA^*
= B^*AA^*B
=
B^*A^*AB
=
(AB)^*(AB),
\end{align*}
was zeigt, dass auch $AB$ normal ist.
\end{proof}

\subsubsection{Spektralsatz für normale Matrizen}
Mit dem Begriff der normalen Matrix lässt sich der Spektralsatz nun
abschliessen formulieren.
Die vorangegangene Diskussion hat gezeigt, dass man einen solchen
Satz für nicht normale Matrizen nicht erwarten kann.

\begin{satz}
\label{buch:eigenwerte:satz:spektralnormal}
Ist $A$ eine normale Matrix und $f$ eine Funktion auf dem Spektrum
$\operatorname{Sp}(A)$ von $A$.
Dann gibt es genau eine Matrix $f(A)$, die der Grenzwert
\[
f(A)
=
\lim_{n\to\infty} p_n(A,A^*)
\]
jeder beliebigen
Folge $p_n(z,\overline{z})$ von Polynomen in $z$ und $\overline{z}$ ist,
die auf $\operatorname{Sp}(A)$ gleichmässig gegen $f$ konvergieren.
\end{satz}

\subsubsection{Äquivalente Bedingungen}
Es gibt eine grosse Zahl äquivalenter Eigenschaften für normale Matrizen.
Die folgenden Eigenschaften sind äquivalent:
\begin{enumerate}
\item
Die Matrix $A$ ist mit einer unitären Matrix diagonalisierbar
\item
Es gibt eine orthonormale Basis von Eigenvektoren von $A$ für $\mathbb{C}^n$
\item
Für jeden Vektor $x\in\mathbb{C}^n$ gilt $\|Ax\|=\|A^*x\|$
\item
Die Frobenius-Norm der Matrix $A$ kann mit den Eigenwerten $\lambda_i$
\index{Frobenius-Norm}%
von $A$ berechnet werden:
$\operatorname{Spur}(A^*A) = \sum_{i=1}^n |\lambda_i|^2$
\item
Der hermitesche Teil $\frac12(A+A^*)$ und der antihermitesche Teil
$\frac12(A-A^*)$ von $A$ vertauschen.
\index{hermitesch}%
\index{antihermitesch}%
\item
$A^*$ ist ein Polynom vom Grad $n-1$ in $A$.
\item
Es gibt eine unitäre Matrix $U$ derart, dass $A^*=AU$
\index{unitär}%
\item
Es gibt eine Polarzerlegung $A=UP$ mit einer unitären Matrix $U$ und
\index{Polarzerlegung}
einer postiv semidefiniten Matrix $P$, die untereinander vertauschen.
\item
Es gibt eine Matrix $N$ mit verschiedenen Eigenwerten, mit denen $A$
vertauscht.
\item
Wenn $A$ die (absteigend geordneten) Singulärwerte $\sigma_i$ und
\index{Singulärwert}%
die absteigend geordneten Eigenwerte $\lambda_i$ hat,
dann it $\sigma_i=|\lambda_i|$.
\end{enumerate}