% % normalformen.tex -- Normalformen einer Matrix % % (c) 2021 Prof Dr Andreas Müller, OST Ostschweizer Fachhochschule % \section{Normalformen \label{buch:section:normalformen}} \rhead{Normalformen} In den Beispielen im vorangegangenen Abschnitt wurde wiederholt der Trick verwendet, den Koeffizientenkörper so zu erweitern, dass das charakteristische Polynom in Linearfaktoren zerfällt und für jeden Eigenwert Eigenvektoren gefunden werden können. Diese Idee ermöglicht, eine Matrix in einer geeigneten Körpererweiterung in eine besonders einfache Form zu bringen und das Problem dort zu lösen. Anschliessend kann man sich darum kümmern, in welchem Mass die gewonnenen Resultate wieder in den ursprünglichen Körper transportiert werden können. Die dabei verwendete ``einfache Form'' war jeweils etwas ad hoc. In diesem Abschnitt sollen jetzt etwas systematischer geeignete Normalformen zusammengestellt werden. \subsection{Diagonalform} \index{Diagonalform}% Sei $A$ eine beliebige Matrix mit Koeffizienten in $\Bbbk$ und sei $\Bbbk'$ eine Körpererweiterung von $\Bbbk$ derart, dass das charakteristische Polynom in Linearfaktoren \[ \chi_A(x) = (x-\lambda_1)^{k_1}\cdot (x-\lambda_2)^{k_2}\dots(x-\lambda_m)^{k_m} \] mit Vielfachheiten $k_1$ bis $k_m$ zerfällt, $\lambda_i\in\Bbbk'$. Zu jedem Eigenwert $\lambda_i$ gibt es sicher einen Eigenvektor, wir wollen aber in diesem Abschnitt zusätzlich annehmen, dass es eine Basis aus Eigenvektoren gibt. In dieser Basis bekommt die Matrix Diagonalform, wobei auf der Diagonalen nur Eigenwerte vorkommen können. Man kann die Vektoren so anordnen, dass die Diagonalmatrix in Blöcke der Form $\lambda_iI$ zerfällt \[ \def\temp#1{\multicolumn{1}{|c}{\raisebox{0pt}[12pt][7pt]{\phantom{x}$#1$}\phantom{x}}} A' =\left( \begin{array}{cccc} \cline{1-1} \temp{\lambda_1I} &\multicolumn{1}{|c}{}& & \\ \cline{1-2} &\temp{\lambda_2I}&\multicolumn{1}{|c}{}& \\ \cline{2-3} & &\temp{\ddots}&\multicolumn{1}{|c}{}\\ \cline{3-4} & & &\multicolumn{1}{|c|}{\raisebox{0pt}[12pt][7pt]{\phantom{x}$\lambda_mI$}\phantom{x}}\\ \cline{4-4} \end{array} \right) \] Über die Grösse eines solchen $\lambda_iI$-Blockes können wir zum jetzigen Zeitpunkt noch keine Aussagen machen. Die Matrizen $A-\lambda_kI$ enthalten jeweils einen Block aus lauter Nullen. Das Produkt all dieser Matrizen ist daher \[ (A-\lambda_1I) (A-\lambda_2I) \cdots (A-\lambda_mI) = 0. \] Über dem Körper $\Bbbk'$ gibt es also das Polynom $m(x)=(x-\lambda_1)(x-\lambda_2)\cdots(x-\lambda_m)$ mit der Eigenschaft $m(A)=0$. Dies ist auch das Polynom von kleinstmöglichem Grad, denn für jeden Eigenwert muss ein entsprechender Linearfaktor in so einem Polynom vorkommen. \begin{definition} \label{buch:normalformen:def:minimalpolynom} Das {\em Minimalpolynom} $m_A(X)\in\Bbbk[X]$ einer Matrix \index{Minimalpolynom} $A\in M_{n}(\Bbbk)$ ist das Polynom kleinstmöglichen Grades, für das $m_A(X)=0$ gilt. \end{definition} Das Polynom $m(x)$ ist daher das Minimalpolynom der Matrix $A$. Da jeder Faktor in $m(x)$ auch ein Faktor von $\chi_A(x)$ ist, folgt wieder $\chi_A(A)=0$. Ausserdem ist über dem Körper $\Bbbk'$ das Polynom $m(x)$ ein Teiler des charakteristischen Polynoms $\chi_A(x)$. \subsection{Jordan-Normalform \label{buch:subsection:jordan-normalform}} \index{Jordan-Normalform}% Die Eigenwerte einer Matrix $A$ können als Nullstellen des charakteristischen Polynoms gefunden werden. Da der Körper $\Bbbk$ nicht unbedingt algebraische abgeschlossen ist, zerfällt das charakteristische Polynom nicht unbedingt in Linearfaktoren, die Nullstellen sind nicht unbedingt in $\Bbbk$. Wir können aber immer zu einem grösseren Körper $\Bbbk'$ übergehen, in dem das charakteristische Polynom in Linearfaktoren zerfällt. Wir nehmen im Folgenden an, dass \[ \chi_A(x) = (x-\lambda_1)^{k_1} \cdot (x-\lambda_2)^{k_2} \cdots (x-\lambda_l)^{k_l} \] ist mit $\lambda_i\in\Bbbk'$. Nach Satz~\ref{buch:eigenwerte:satz:zerlegung-in-eigenraeume} liefern die verallgemeinerten Eigenräume $V_i=\mathcal{E}_{\lambda_i}(A)$ eine \index{Elambda@$\mathcal{E}_{\lambda}(A)$}% Zerlegung von $V$ in invariante Eigenräume \[ V=V_1\oplus V_2\oplus \dots\oplus V_l \] derart, dass $A-\lambda_iI$ auf $V_i$ nilpotent ist. Wählt man in jedem der Unterräume $V_i$ eine Basis, dann zerfällt die Matrix $A$ in Blockmatrizen \begin{equation} \def\temp#1{\multicolumn{1}{|c}{\raisebox{0pt}[17pt][12pt]{\phantom{x}$#1\mathstrut$}\phantom{x}}} A' =\left( \begin{array}{cccc} \cline{1-1} \temp{A_{1}} &\multicolumn{1}{|c}{}& & \\ \cline{1-2} &\temp{A_{2}}&\multicolumn{1}{|c}{}& \\ \cline{2-3} & &\temp{\ddots}&\multicolumn{1}{|c}{}\\ \cline{3-4} & & &\multicolumn{1}{|c|}{\raisebox{0pt}[17pt][12pt]{\phantom{x}$A_{l}$}\phantom{x}}\\ \cline{4-4} \end{array} \right) \label{buch:eigenwerte:eqn:allgjordan} \end{equation} wobei, $A_i$ Matrizen mit dem einzigen Eigenwert $\lambda_i$ sind. Nach Satz~\ref{buch:eigenwerte:satz:allgnilpotent} kann man in den Unterräume die Basis zusätzlich so wählen, dass die entstehenden Blöcke $A_i-\lambda_i I$ spezielle nilpotente Matrizen sind, die lauter Nullen als Einträge haben mit Ausnahme höchstens der Einträge unmittelbar über der Diagonalen, die $1$ sein können. Dies bedeutet, dass sich immer eine Basis so wählen lässt, dass die Matrix $A_i$ in sogenannte Jordan-Blöcke zerfällt. \begin{definition} Ein $m$-dimensionaler {\em Jordan-Block} ist eine $m\times m$-Matrix \index{Jordan-Block}% der Form \[ J_m(\lambda) = \begin{pmatrix} \lambda & 1 & & & & \\ & \lambda & 1 & & & \\ & & \lambda & & & \\ & & & \ddots & & \\ & & & & \lambda & 1 \\ & & & & & \lambda \end{pmatrix}. \] Eine {\em Jordan-Matrix} ist eine Blockmatrix der Form \[ J = \def\temp#1{\multicolumn{1}{|c}{\raisebox{0pt}[17pt][12pt]{\phantom{x}$#1\mathstrut$}\phantom{x}}} \left( \begin{array}{cccc} \cline{1-1} \temp{J_{m_1}(\lambda)} &\multicolumn{1}{|c}{}& & \\ \cline{1-2} &\temp{J_{m_2}(\lambda)}&\multicolumn{1}{|c}{}& \\ \cline{2-3} & &\temp{\ddots}&\multicolumn{1}{|c}{}\\ \cline{3-4} & & &\multicolumn{1}{|c|}{\raisebox{0pt}[17pt][12pt]{\phantom{x}$J_{m_p}(\lambda)$}\phantom{x}}\\ \cline{4-4} \end{array} \right) \] mit $m_1+m_2+\dots+m_p=m$. \index{Jordan-Matrix}% \end{definition} Da Jordan-Blöcke obere Dreiecksmatrizen sind, ist das charakteristische Polynom eines Jordan-Blocks oder einer Jordan-Matrix besonders einfach zu berechnen. Es gilt \[ \chi_{J_m(\lambda)}(x) = \det (J_m(\lambda) - xI) = (\lambda-x)^m \] für einen Jordan-Block $J_m(\lambda)$. Für eine $m\times m$-Jordan-Matrix $J$ mit Blöcken $J_{m_1}(\lambda)$ bis $J_{m_p}(\lambda)$ ist \[ \chi_{J(\lambda)}(x) = \chi_{J_{m_1}(\lambda)}(x) \chi_{J_{m_2}(\lambda)}(x) \cdots \chi_{J_{m_p}(\lambda)}(x) = (\lambda-x)^{m_1} (\lambda-x)^{m_2} \cdots (\lambda-x)^{m_p} = (\lambda-x)^m. \] \begin{satz} \label{buch:eigenwerte:satz:jordannormalform} Über einem Körper $\Bbbk'\supset\Bbbk$, über dem das charakteristische Polynom $\chi_A(x)$ in Linearfaktoren zerfällt, lässt sich immer eine Basis finden derart, dass die Matrix $A$ zu einer Blockmatrix wird, die aus lauter Jordan-Matrizen besteht. Die Dimension der Jordan-Matrix zum Eigenwert $\lambda_i$ ist die Vielfachheit des Eigenwerts im charakteristischen Polynom. \end{satz} \begin{proof}[Beweis] Es ist nur noch die Aussage über die Dimension der Jordan-Blöcke zu beweisen. Die Jordan-Matrizen zum Eigenwert $\lambda_i$ werden mit $J_i$ bezeichnet und sollen $m_i\times m_i$-Matrizen sein. Das charakteristische Polynom jedes Jordan-Blocks ist dann $\chi_{J_i}(x)=(\lambda_i-x)^{m_i}$. Das charakteristische Polynom der Blockmatrix mit diesen Jordan-Matrizen als Blöcken ist das Produkt \[ \chi_A(x) = (\lambda_1-x)^{m_1} (\lambda_2-x)^{m_2} \cdots (\lambda_p-x)^{m_p} \] mit $m_1+m_2+\dots+m_p$. Die Blockgrösse $m_i$ ist also auch die Vielfachheit von $\lambda_i$ im charakteristischen Polynom $\chi_A(x)$. \end{proof} \begin{satz}[Cayley-Hamilton] \label{buch:normalformen:satz:cayley-hamilton} Ist $A$ eine $n\times n$-Matrix über dem Körper $\Bbbk$, dann gilt $\chi_A(A)=0$. \end{satz} \begin{proof}[Beweis] Zunächst gehen wir über zu einem Körper $\Bbbk'\supset\Bbbk$, indem das charakteristische Polynom $\chi_A(x)$ in Linearfaktoren $\chi_A(x) = (\lambda_1-x)^{m_1} (\lambda_2-x)^{m_2} \dots (\lambda_p-x)^{m_p}$ zerfällt. Im Vektorraum $\Bbbk'$ kann man eine Basis finden, in der die Matrix $A$ in Jordan-Matrizen $J_1,\dots,J_p$ zerfällt, wobei $J_i$ eine $m_i\times m_i$-Matrix ist. Für den Block mit der Nummer $i$ erhalten wir $(J_i - \lambda_i E)^{m_i} = 0$. Setzt man also den Block $J_i$ in das charakteristische Polynom $\chi_A(x)$ ein, erhält man \[ \chi_A(J_i) = (\lambda_1I - J_1)^{m_1} \cdots \underbrace{ (\lambda_iI - J_i)^{m_i} }_{\displaystyle=0} \cdots (\lambda_iI - J_p)^{m_p} = 0. \] Jeder einzelne Block $J_i$ wird also zu $0$, wenn man ihn in das charakteristische Polynome $\chi_A(x)$ einsetzt. Folglich gilt auch $\chi_A(A)=0$. Die Rechnung hat zwar im Körper $\Bbbk'$ stattgefunden, aber die Berechnung $\chi_A(A)$ kann in $\Bbbk$ ausgeführt werden, also ist $\chi_A(A)=0$. \end{proof} Aus dem Beweis kann man auch noch eine strengere Bedingung ableiten. Auf jedem verallgemeinerten Eigenraum $\mathcal{E}_{\lambda_i}(A)$ ist $A_i-\lambda_i$ nilpotent, es gibt also einen minimalen Exponenten $q_i$ derart, dass $(A_i-\lambda_iI)^{q_i}=0$ ist. Wählt man eine Basis in jedem verallgemeinerten Eigenraum derart, dass $A_i$ eine Jordan-Matrix ist, kann man wieder zeigen, dass für das Polynom \[ m_A(x) = (x-\lambda_1x)^{q_1} (x-\lambda_2x)^{q_2} \cdots (x-\lambda_px)^{q_p} \] gilt $m_A(A)=0$. $m_A(x)$ ist das {\em Minimalpolynom} der Matrix $A$. \index{Minimalpolynom einer Matrix}% \begin{satz}[Minimalpolynom] Über dem Körper $\Bbbk'\subset\Bbbk$, über dem das charakteristische Polynom $\chi_A(x)$ in Linearfaktoren zerfällt, ist das Minimalpolynom von $A$ das Polynom \[ m_A(x) = m(x) = (x-\lambda_1)^{q_1} (x-\lambda_2)^{q_2} \cdots (x-\lambda_p)^{q_p} \] wobei $q_i$ der kleinste Index ist, für den die $q_i$-te Potenz der Einschränkung von $A-\lambda_i I$ auf den verallgemeinerten Eigenraum $\mathcal{E}_{\lambda_i}(A)$ verschwindet. Es ist das Polynom geringsten Grades über $\Bbbk'$, welches $m(A)=0$ erfüllt. \end{satz} \subsection{Reelle Normalform \label{buch:subsection:reelle-normalform}} Wenn eine reelle Matrix $A$ komplexe Eigenwerte hat, ist die Jordansche Normalform zwar möglich, aber die zugehörigen Basisvektoren werden ebenfalls komplexe Komponenten haben. Für eine rein reelle Rechnung ist dies nachteilig, da der Speicheraufwand dadurch verdoppelt und der Rechenaufwand für Multiplikationen vervierfacht wird. Die nicht reellen Eigenwerte von $A$ treten in konjugiert komplexen Paaren $\lambda_i$ und $\overline{\lambda}_i$ auf. Wir betrachten im Folgenden nur ein einziges Paar $\lambda=\alpha+i\beta$ und $\overline{\lambda}=\alpha-i\beta$ von konjugiert komplexen Eigenwerten mit nur je einem einzigen $n\times n$-Jordan-Block $J$ und $\overline{J}$. Ist $\mathcal{B}=\{b_1,\dots,b_n\}$ die Basis für den Jordan-Block $J$, dann kann man die Vektoren $\overline{\mathcal{B}}=\{\overline{b}_1,\dots,\overline{b}_n\}$ als Basis für $\overline{J}$ verwenden. Die vereinigte Basis $\mathcal{C} = \mathcal{B}\cup\overline{\mathcal{B}} = \{b_1,\dots,b_n,\overline{b}_1,\dots,\overline{b}_n\}$ erzeugen einen $2n$-dimensionalen Vektorraum, der direkte Summe der beiden von $\mathcal{B}$ und $\overline{\mathcal{B}}$ erzeugen Vektorräume $V=\langle\mathcal{B}\rangle$ und $\overline{V}=\langle\overline{\mathcal{B}}\rangle$ ist. Es ist also \[ U=\langle \mathcal{C}\rangle = V\oplus \overline{V}. \] Wir bezeichnen die lineare Abbildung mit den Jordan-Blöcken $J$ und $\overline{J}$ wieder mit $A$. Auf dem Vektorraum $U$ hat die lineare Abbildung in der Basis $\mathcal{C}$ die Matrix \[ A= \begin{pmatrix} J&0\\ 0&\overline{J} \end{pmatrix} = \begin{pmatrix} \lambda& 1 & & & &&&&&\\ &\lambda& 1 & & &&&&&\\ & &\lambda&\ddots& &&&&&\\ & & &\ddots& 1 &&&&&\\ & & & &\lambda&&&&&\\ &&&& &\overline{\lambda}&1&& & \\ &&&& &&\overline{\lambda}&1& & \\ &&&& &&&\overline{\lambda} &\ddots& \\ &&&& &&& &\ddots&1\\ &&&& &&& &&\overline{\lambda}\\ \end{pmatrix}. \] Die Jordan-Normalform bedeutet, dass \[ \begin{aligned} Ab_1&=\lambda b_1 &&\Rightarrow& A\overline{b}_1 &= \overline{\lambda} \overline{b}_1, \\ Ab_2&=\lambda b_2 + b_1 &&\Rightarrow& A\overline{b}_2 &= \overline{\lambda} \overline{b}_2 +\overline{b_1},\\ Ab_3&=\lambda b_3 + b_2 &&\Rightarrow& A\overline{b}_3 &= \overline{\lambda} \overline{b}_3 +\overline{b_2},\\ &\;\vdots && & &\;\vdots \\ Ab_n&=\lambda b_n + b_{n-1} &&\Rightarrow& A\overline{b}_n &= \overline{\lambda} \overline{b}_n +\overline{b_{n-1}}. \end{aligned} \] Für die Linearkombinationen \begin{equation} \begin{aligned} c_k &= \frac{b_k+\overline{b}_k}{\sqrt{2}}, & d_k &= \frac{b_k-\overline{b}_k}{i\sqrt{2}} \end{aligned} \label{buch:eigenwerte:eqn:reellenormalformumrechnung} \end{equation} folgt dann für $k>1$ \begin{align*} Ac_k &= \frac{Ab_k+A\overline{b}_k}{2} & Ad_k &= \frac{Ab_k-A\overline{b}_k}{2i} \\ &= \frac1{\sqrt{2}}(\lambda b_k + b_{k-1} + \overline{\lambda}\overline{b}_k + \overline{b}_{k-1}) & &= \frac1{i\sqrt{2}}(\lambda b_k + b_{k-1} - \overline{\lambda}\overline{b}_k - \overline{b}_{k-1}) \\ &= \frac1{\sqrt{2}}(\alpha b_k + i\beta b_k + \alpha \overline{b}_k -i\beta \overline{b}_k) + c_{k-1} & &= \frac1{i\sqrt{2}}( \alpha b_k + i\beta b_k - \alpha \overline{b}_k +i\beta \overline{b}_k) + d_{k-1} \\ &= \alpha \frac{b_k+\overline{b}_k}{\sqrt{2}} + i \beta \frac{b_k-\overline{b}_k}{\sqrt{2}} + c_{k-1} & &= \alpha \frac{b_k-\overline{b}_k}{i\sqrt{2}} + i \beta \frac{b_k+\overline{b}_k}{i\sqrt{2}} + d_{k-1} \\ &= \alpha c_k -\beta d_k + c_{k-1} & &= \alpha d_k + \beta c_k + d_{k-1}. \end{align*} Für $k=1$ fallen die Terme $c_{k-1}$ und $d_{k-1}$ weg. In der Basis $\mathcal{D}=\{c_1,d_1,\dots,c_n,d_n\}$ hat die Matrix also die {\em reelle Normalform} \index{relle Normalform}% \index{Normalform, reelle}% \begin{equation} \def\temp#1{\multicolumn{1}{|c}{#1\mathstrut}} \def\semp#1{\multicolumn{1}{c|}{#1\mathstrut}} A_{\text{reell}} = \left( \begin{array}{cccccccccccc} \cline{1-4} \temp{\alpha}& \beta&\temp{ 1}& 0&\temp{} & & & & & &&\\ \temp{-\beta}&\alpha&\temp{ 0}& 1&\temp{} & & & & & &&\\ \cline{1-6} & &\temp{\alpha}& \beta&\temp{ 1}& 0&\temp{} & & & &&\\ & &\temp{-\beta}&\alpha&\temp{ 0}& 1&\temp{} & & & &&\\ \cline{3-8} & & & &\temp{\alpha}& \beta&\temp{} & &\temp{}& &&\\ & & & &\temp{-\beta}&\alpha&\temp{} & &\temp{}& &&\\ \cline{5-10} & & & & & &\temp{\phantom{0}}&\phantom{0}&\temp{ }& &\temp{}&\\ & & & & & &\temp{\phantom{0}}&\phantom{0}&\temp{ }& &\temp{}&\\ \cline{7-12} & & & & & & & &\temp{\alpha}& \beta&\temp{ 1}&\semp{ 0}\\ & & & & & & & &\temp{-\beta}&\alpha&\temp{ 0}&\semp{ 1}\\ \cline{9-12} & & & & & & & & & &\temp{\alpha}&\semp{ \beta}\\ & & & & & & & & & &\temp{-\beta}&\semp{\alpha}\\ \cline{11-12} \end{array}\right). \label{buch:eigenwerte:eqn:reellenormalform} \end{equation} Wir bestimmen noch die Transformationsmatrix, die $A$ in die reelle Normalform bringt. Dazu beachten wir, dass die Vektoren $c_k$ und $d_k$ in der Basis $\mathcal{B}$ nur in den Komponenten $k$ und $n+k$ von $0$ verschiedene Koordinaten haben, nämlich \[ c_k = \frac1{\sqrt{2}} \left( \begin{array}{c} \vdots\\ 1 \\ \vdots\\\hline \vdots\\ 1\\\vdots \end{array}\right) \qquad\text{und}\qquad d_k = \frac1{i\sqrt{2}} \left(\begin{array}{c} \vdots\\ 1 \\ \vdots\\\hline\vdots\\-1\\\vdots \end{array}\right) = \frac1{\sqrt{2}} \left(\begin{array}{c} \vdots\\-i \\ \vdots\\\hline \vdots\\ i\\\vdots \end{array}\right) \] gemäss \eqref{buch:eigenwerte:eqn:reellenormalformumrechnung}. Die Umrechnung der Koordinaten von der Basis $\mathcal{B}$ in die Basis $\mathcal{D}$ wird daher durch die Matrix \[ S = \frac{1}{\sqrt{2}} \left(\begin{array}{cccccccccc} 1&-i& & & & & & & & \\ & &1&-i& & & & & & \\ & & & &1&-i& & & & \\ & & & & & &\dots&\dots& & \\ & & & & & & & &1&-i\\ \hline 1& i& & & & & & & & \\ & &1& i& & & & & & \\ & & & &1& i& & & & \\ & & & & & &\dots&\dots& & \\ & & & & & & & &1& i\\ \end{array}\right) \] vermittelt. Der Nenner $\sqrt{2}$ wurde so gewählt, dass die Zeilenvektoren der Matrix $S$ als komplexe Vektoren orthonormiert sind, die Matrix $S$ ist daher unitär und hat die Inverse \[ S^{-1} = S^* = \frac{1}{\sqrt{2}} \left(\begin{array}{ccccc|ccccc} 1& & & & & 1& & & & \\ i& & & & &-i& & & & \\ & 1& & & & & 1& & & \\ & i& & & & &-i& & & \\ & & 1& & & & & 1& & \\ & & i& & & & &-i& & \\ & & &\dots& & & & &\dots& \\ & & &\dots& & & & &\dots& \\ & & & & 1& & & & & 1\\ & & & & i& & & & &-i\\ \end{array}\right). \] Insbesondere folgt jetzt \[ A = S^{-1}A_{\text{reell}}S = S^*A_{\text{reell}}S \qquad\text{und}\qquad A_{\text{reell}} = SAS^{-1} = SAS^*. \] %\subsection{Obere Hessenberg-Form %\label{buch:subsection:obere-hessenberg-form}}