科数网
题库
在线学习
高中数学
高等数学
线性代数
概率统计
数学分析
复变函数
离散数学
实变函数
数论
群论
高中物理
词条搜索
科数
试题
高中数学
高数
线代
more
你好
游客,
登录
注册
在线学习
线性代数
附录2: 矩阵的等价、相似与合同意义
最后
更新:
2025-01-09 16:26
查看:
1418
次
高考专区
考研专区
公式专区
刷题专区
词条搜索
附录2: 矩阵的等价、相似与合同意义
整个《线性代数》研究的是什么?说起来相当简单,就是**解方程**。而且只解决两类方程:一次方程和二次方程。一次方程引入了行列式、矩阵的秩、线性相关与线性无关、向量空间等概念,二次方程里引入了特征值、特征向量、正交矩阵、合同、相似等概念。 >本篇介绍的是《线性代数》里的二次方程,对于解决一次方程请参考 [附录1:方程组的解、矩阵、行列式、与向量空间](https://kb.kmath.cn/kbase/detail.aspx?id=1234) ## 为什么要引入特征向量与特征值 我们在研究线性变换时. 特别关心这样一个问题:对给定线性空间 $R^n$ 上的线性变换,能否找到 $R^n$ 的一组基,使得该线性变换在这组基下的表示矩阵**具有特别简单的形状**. 比如, 若我们能找到 $R^n$ 的一组基 $\left\{e_1, e_2, \cdots, e_n\right\}$, 使线性变换 $\varphi$ 在这组基下的表示矩阵为对角阵: $$ \left(\begin{array}{llll} a_1 & & & \\ & a_2 & & \\ & & \ddots & \\ & & & a_n \end{array}\right) . $$ 这时, 若 $\boldsymbol{\alpha}=k_1 \boldsymbol{e}_1+k_2 \boldsymbol{e}_2+\cdots+k_n \boldsymbol{e}_n$, 则 $$ \boldsymbol{\varphi}(\boldsymbol{\alpha})=a_1 k_1 \boldsymbol{e}_1+a_2 k_2 \boldsymbol{e}_2+\cdots+a_n k_n \boldsymbol{e}_n $$ 线性变换 $\varphi$ 的表达式非常简单. 线性变换 $\varphi$ 的许多性质也变得一目了然. 我们已经知道, 一个线性变换在不同基下的表示矩阵是相似的. 因此用矩阵的语言重述上面提到的问题就是: 能否找到一类特别简单的矩阵, 使任一矩阵与这类矩阵中的某一个相似?比如,我们可以问:是否所有的矩阵都相似于对角阵? 若不然, 哪一类矩阵可以相似于对角阵? 在分块矩阵里,我们曾经学过,每一个矩阵都可以按列进行分块,我们自然想到:我们提取矩阵的某一列作为行向量$\alpha$,上述的问题可以表述为:我们希望找到一个矩阵$A$和一个向量$\lambda$,使得$A \alpha= \lambda \alpha$ ,这样就相当于通过一个矩阵转换,把一个行向量转换为了一个数,这是最原始的想法。 ## 从线性空间角度理解坐标 以经典的 $A x=b$ 为例,假设 $A$ 是一个 $\mathrm{n} \times n$ 的矩阵, $x$ 和 $b$ 都是 $\mathrm{n} \times 1$ 的向量 $$ A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right], x=\left[\begin{array}{c} x_1 \\ x_2 \\ \vdots \\ x_n \end{array}\right], b=\left[\begin{array}{c} b_1 \\ b_2 \\ \vdots \\ b_n \end{array}\right] $$ 不难看出,矩阵就是由一列列向量组成的,所以在说矩阵之前我们再来简单说一下向量。 向量有长度有方向,但这个长度方向要有意义,或者说可度量,这就必须要有参考系,也就是坐标系。坐标系不是唯一的,但我们有一个标准坐标,叫笛卡尔坐标,简称 $I$ 坐标。那由一系列向量组成的矩阵到底代表什么意思呢? 可以从 2 个角度理解矩阵: (1)**矩阵是一个变换**,仔细盯着$A x=b$多看几次,这个等式表明,经过变换$A$,向量 $x$ 变成了向量 $b$ (在这里,$b$坐标终是隐含着使用$I$坐标)。你可以把$A$想象成一个传送门,任何向量经过这个传送门,嗖的一下就被瞬间传送到了另一个点成为另一个向量,而你到底能被传送到哪跟你本身的位置有关,也跟这个传送门的性能有关,换句话说同一个传送门,不同的向量被传送到不同的位置,同一个向量,换一个传送门,也会被传送到不同的位置。 (2)**矩阵本身就是一个坐标系**。这个不难理解,我们常见的 $I$ 坐标系,比如二维坐标,他的两个坐标轴就是 $(1,0) ,(0,1)$ 两个向量,把这两个向量按列排列就是一个矩阵,所以矩阵就代表了坐标系,每一个列向量就是他的一个坐标轴。 那一个矩阵乘以一个向量,比如 $A x$ 代表什么意思呢?我们说一个向量单看是没有意义的,你要放在一个坐标系下才能度量,而左乘一个矩阵$A$就代表它的坐标系是$A$,这个向量在$A$坐标系下的坐标为 $x$ ,也就是这个向量投影到 $A$ 的各个坐标轴的长度为 $x$ 。 $$ \begin{aligned} & A x=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & \varepsilon_{1 n} \\ a_{21} & a_{22} & \cdots & \varepsilon_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right]\left[\begin{array}{c} x_1 \\ x_2 \\ \vdots \\ x_n \end{array}\right]=x_1\left[\begin{array}{c} a_{11} \\ a_{21} \\ \vdots \\ s_{n 1} \end{array}\right]+x_2\left[\begin{array}{c} a_{12} \\ a_{2 c} \\ \vdots \\ s_{n 2} \end{array}\right]+\cdots & +x_n\left[\begin{array}{c} a_{1 n} \\ a_{2 n} \\ \vdots \\ a_{n n} \end{array}\right] \end{aligned} $$ 我们再来看 $A x=b$ ,发现什么了吗?上面说一个向量单看是没有意义的,你要放在一个坐标系下才能度量, $b$ 前面没有任何矩阵,但它也需要坐标系,没有指定坐标系的时候坐标系是 $I$ ,所以 $b$ 前面其实被略去了一个 $I$ ,也就是 $A x=I b$ 。 $A x$ 描述的是一个向量,它在$A$坐标系下的坐标是 $x , I b$ 描述的也是一个向量,它在 $I$ 坐标系下的坐标是 $b$ ,二者相等,说明 $x$ 和 $b$ 其实是一个向量,他们只不过是在不同坐标系下的不同表示而已。 你可以理解为这个点从来没动过,它只是换了一个坐标系来看这个点而已。就好像拍照,你从正面拍侧面拍,仰拍俯拍,你拍的都是一个对象,但拍照角度不一样,你会得到不同的照片。 来看个数学上的例子 $$ A=\left[\begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array}\right], x=\left[\begin{array}{l} 2 \\ 1 \end{array}\right], I=\left[\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right], b=\left[\begin{array}{l} 1 \\ 3 \end{array}\right] $$ 如果你计算,你会发现上面这个矩阵乘法 $Ax=Ib=b$, 换句话说,$(2,1)$ 和 $(1,3)$ 就是同一个向量,只不过前者是在$A$下的表示,后者是在 $I$ 下的表示。  如果你还不明白,我们举一个小学乘法,请看下面的方程 $(5)*1=5*1$ 前面这个$(5)$表示一个矩阵,后面这个$5$表示一个坐标值。这个等式告诉我们:有一个1,我用5个长度作为一个基准单位,等于以“1”为基准单位得5倍。同样 $(5)*2=10*1$ 等号右边表示,以1为基准单位,坐标为10的向量,等于“以5个单位为一个基准单位”,但是只需要2个这样的单位即可。 上式还可以简单类比,一件东西需要10元钱,我以1元人民币为单位,给他10次就可以了。但是我也可以以5元人民币为单位,只要给他2次就可以了。 ### 通过物理对上面进行解释 在高中学过运动,比如:甲在路边,乙在飞船上,一辆汽车以$v_汽$行驶,汽车里$A$质点在运动,问甲乙看到的$v_A$的速度是多少?当看到这个问题时,我们第一反应就是:你要以什么为参照物,同样一个汽车运动,选择的参照系不同,会有不同的运动速度。比如甲在地面上,以地面为参照物,$v_A=v_\text{汽} +v_{A-\text{汽}}$ ,也就是汽车的速度加上A点相对汽车的速度就是甲看到的速度。但是乙因为在飞船里,飞船也在运行,因此他看到的速度$v_A=v_{\text{飞船}} + v_\text{汽-船} +v_{A-\text{汽}}$ 这样他们看到的速度是不同的。 更一般的,就算甲以地面为参照物,但是我们知道运动是绝对的静止是相对的,地球是绕着太阳转,太阳又绕着银河系转,所以,地面并不是绝对静止的,而是“人为”规定的,但是这种以地面为参照物的好处是:计算简单。 {width=380px} 再仔细的盯着上面这张图(如下)  现在把上图想象为物体的运动:蓝色单位坐标系$\left(\begin{array}{cc}1,0 \\0,1\end{array} \right)$ 相当于禁止的地面,甲在蓝色坐标系里,橙色坐标系相当于宇宙飞船,他的单位坐标系是$\left(\begin{array}{cc}1,-1 \\1,1\end{array} \right)$ ,乙在宇宙飞船里,这样甲看到的汽车运动速度$(1,3)$ 和乙在宇宙飞船里的看到的$(2,1)$是一样的。 现在的问题是:我们能否把乙坐标系里的运动,都用类甲坐标系表示,为何?因为简单,比如上图里,假设甲看到的汽车速度为(5,7),我们就可以立刻知道,汽车速度相当于沿着$x$轴为5,而沿着$y$轴为7. 这对后续的计算非常简单。 ### 再看特征向量 在上面坐标变换里(参考上图蓝色坐标系和橙色坐标系),这里的坐标系除了进行了**缩放**,还进行了**旋转**,我们自然想简化设计,能否只进行缩放而不进行旋转?请看下面的定义: 数学上定义当 $A x=\lambda x$ 时 $x$ 是 $A$ 的特征向量, $\lambda$ 是 $A$ 的特征值。事实上,这里的$x$可以成为“测量的基准单位”。就像数组我们用1表示基准单位一样。 我们用坐标系的角度来理解,那么 $A x=\lambda x$ 代表的意思是有一个向量,在$A$坐标下是 $x$ ,我换 $I$ 坐标去看它,发现它看着还是 $x$ 这个方向,只不过伸缩了 $\lambda$ 倍。 为了使得例子更有意义,先来看一个矩阵: $$ A=\left[\begin{array}{cc} 2 & 0 \\ 0 & 10 \end{array}\right] $$ 它互相独立的标准化特征向量有 2 个, $$ x_1=\left[\begin{array}{l} 1 \\ 0 \end{array}\right], x_2=\left[\begin{array}{l} 0 \\ 1 \end{array}\right] $$ 他们的特征值分别是 $2$ 和 $10$ 。 如下图,在上面说过,一个矩阵就相当于一个坐标系单位(注意不是坐标系里向量的值),既然 笛卡尔坐标系 $\left(\begin{array}{cc}1,0 \\0,1\end{array} \right)$ 是最方便的,我们能否把这个矩阵“压缩”为笛卡尔坐标系?这张图和上面相比,最主要是去除了“旋转”,直接把橙色坐标系转换为笛卡尔坐标系。要转换为笛卡尔坐标系 要么把橙色矩阵压缩为单位矩阵,要么是把单位矩阵扩大为橙色矩阵。但是,我们知道单位矩阵相当于数学里的“1”,因此以单位矩阵为基础“伸缩”为橙色矩阵更方便。  那一个向量它在 $A$ 坐标系下的坐标是 $(1,1)$ ,在 $I$ 坐标系下的坐标是 $(2,10)$ ,怎么从 $(1, 1)$变成 $(2,10)$ 的呢? 我们把$(1,1)$想象为速度,把他分解为水平方向的$(1,0)$和垂直方向上的$(0,1)$ 同时,把$(2,10)$ 坐标也分解为水平方向的$(2,0)$和垂直方向上的$(0,10)$ 这样,只要把水平方向扩大2倍,垂直方向扩大10倍,就可以把 $(1,1)$ 向量转换为$(2,10)$向量。 因此,这里2和10分别叫做矩阵A的特征值,而对应的$(1,0)$ 和$(0,1)$ 就叫做对应特征值的特征向量。 上面介绍的是二维矩阵,现在我们明白,2维矩阵通常有2个特征值,他们分别对向量的$(1,0)$,$(0,1)$ 进行变换,同样的,如果有一个3维矩阵,理论上,他应该有3个特征值,他会把一个向量A的三个分量,分别映射为$(1,0,0)$,$(0,1,0)$和$(0,0,1)$ 到这里我们似乎还可以得出一个不是很准确的结论:一个n维矩阵,他应该有n个特征值,这n个特征值分别把一个n维向量的各个坐标分解为单位矩阵。 而且还可以得到一个结论:所有特征值的和正好是主对角线元素的和,我们把这个和称作矩阵的“**迹**”,比如上面X轴放大2被,Y轴放大10被,而矩阵主对角线正好也是[2,10] 所以,矩阵所有特征值的和为2+10=12 但是,也不是每个矩阵都可以伸缩为单位矩阵I,这是矩阵特征值和特征向量要进一步解决的问题。 > 我们都背过一个结论:一个n维矩阵有n个特征值,如果这些特征值不同一定线性无关,但是如果特征值有重根就需要注意:有可能线性相关也可能线性无关,为什么呢?因为特征值不同可以认为有n个不同的特征向量,因此可以张成向量空间。但是如果有重根则不一定能长成向量空间,举一个简单反例, 考虑矩阵 $A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}$ 计算 $|A - \lambda I| = \begin{vmatrix} 2 - \lambda & 1 \\ 0 & 2 - \lambda \end{vmatrix} = (2 - \lambda)^2 = 0$ 解得特征值为 $\lambda = 2$(重根)。 现在,我们有两个“看似不同”的特征向量,例如$v_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}$和$v_2 = \begin{pmatrix} 2 \\ 0 \end{pmatrix}$ 但实际上,它们是线性相关的,因为 $v_2 = 2v_1$,他们无法张成向量空间,详见[特征值子空间](https://kb.kmath.cn/kbase/detail.aspx?id=1870)  ### 再看矩阵相似 上面得到的一个向量,在A里他的向量$(2,10)$和在I里的$(1,1)$ 本质上是一个向量,这是我们从向量的角度看,现在我们就转换一个视角:从矩阵的角度看向量,同一个向量, 从飞船看时的矩阵是$A=\left[\begin{array}{cc}2 & 0 \\0 & 10\end{array}\right]$,从地面看时矩阵是$I=\left[\begin{array}{cc}1 & 0 \\0 & 1\end{array}\right]$,因此,我们说矩阵A相似矩阵I, 更抽象的说,矩阵相似其实就是对“同一个向量不同角度拍照”,而向量本身没有改变。这带来了什么好处?这使得当使用A看起来复杂的方程“移植到”I里,就变的简单,但是向量本身没有改变。 把上面的思想推广的$n$维,就是广义的矩阵的等价、相似和合同。因为$n$已经非常抽象,只能靠大家自己领悟了。 比如上面的$I$,如果扩大2倍 得到$B=2I=\left[\begin{array}{cc}2 & 0 \\0 & 2\end{array}\right]$, 自然B和A也相似,但是此时$B$已经不是单位阵了,而是对角阵 在上面的操作里,我们似乎找到了**求相似矩阵的简单做法**:以二维为例,根据两个特征值,可以找到特征向量,把这2个特征向量排起来,就是相似矩阵。更具体的说,就是把特征值放在对角线上,然后对应的特征向量排列好,就是二次型化为标准型常用的方法 ## 矩阵的等价 矩阵的等价来源于“同解方程组”,请看下面两个方程 $$ \begin{cases} x+y=4 \\ 2x-y=-1 \end{cases} ...(1) $$ 和 $$ \begin{cases} x+2y=7 \\ x-y=-2 \end{cases} ...(2) $$ 虽然这是两个完全不同的方程,但是他们的**解是一样都是**,即他们的解都是 $$ \begin{cases} x=1 \\ y=3 \end{cases} ...(3) $$ 如果把上面(1)(2)(3)用矩阵乘法写出来[参见](https://kb.kmath.cn/kbase/detail.aspx?id=1234),令 $$ \boldsymbol{ A}=\left(\begin{array}{cc} 1 & 1 \\ 2&-1 \end{array}\right) , \boldsymbol{ X}=\left(\begin{array}{cc} 1 \\ 3 \end{array}\right) , \boldsymbol{B}=\left(\begin{array}{cc} 4 \\ -1 \end{array}\right) $$ 则第一个方程矩阵乘法就是 $$ \boxed{AX=B ...(4)} $$ ,令 $$ \boldsymbol{ Q}=\left(\begin{array}{cc} 1 & 2 \\ 1&-1 \end{array}\right) , \boldsymbol{ X}=\left(\begin{array}{cc} 1 \\ 3 \end{array}\right) , \boldsymbol{P}=\left(\begin{array}{cc} 7 \\ -2 \end{array}\right) $$ 则第二个方程矩阵乘法就是 $$ \boxed{QX=P ...(5)} $$ > 还记得初中学过的代数式吗?假如 $ax=b$ 和 $qx=p$,解第一个式子中的$x=\frac{b}{a}=a^{-1}b$,然后带入第二个式子$qa^{-1}b=p$即$p=qa^{-1}b$, 如果$a \ne 0$,再令$a^{-1}=t$,就得到 $p=qtb$,即我们可以说 $p \sim t$ 同样的根据(4)(5),因为这2个方程的解相同,我们有理由相信,(4)中的$X$可以带入(5),带入后应该是 $QA^{-1}B=P$ 如果$A$可逆,可以把$A^{-1}$命名为$T$,带入上式就是 $QTB=P$ 我们知道,这里的$T$就是一个矩阵的名字,上式等号左右调换一下即 $$ P=QTB $$ 我们给他一个名字:称矩阵$P$和矩阵$T$是等价的。 这里我们可以从向量的角度捋一捋矩阵的等价。 从(3)可以看出, 在$A$基坐标系里看向量$X$,他的坐标值是 $$ \boldsymbol{B}=\left(\begin{array}{cc} 4 \\ -1 \end{array}\right) $$ 而到了$Q$坐标系里看向量$X$,他的坐标值是 $$ \boldsymbol{P}=\left(\begin{array}{cc} 7 \\ -2 \end{array}\right) $$ **向量还是是同一个向量$X$,如果坐标系变了(由A坐标系变为Q坐标系),其坐标值也会变(由B坐标值变为P坐标值)。** 因此,两个矩阵等价,最基本的意思就是:更改观看的视角(也就是更改极坐标系)。 比如,要给一头猪拍照,可以正面拍,侧面怕,上面拍、下面拍,选择的视角不同,拍出的照片也会不同,但是不论怎么拍,最根本的物体没有变,猪还是那头猪,不能从正面拍是一头猪,侧面拍就变成一头牛了。如果更抽象一些,若$A$和$B$矩阵等价,但是$A$比较复杂而$B$比较简单,那么我们通过研究$B$的性质,就可以推导出$A$的性质,这是矩阵等价的作用,比如他们有相同的特征值与特征向量,有相同的矩阵的秩等。 若有$A$和$B$两个矩阵,存在可逆矩阵 $\boldsymbol{P}$ 和 $\boldsymbol{Q}$, 使得 $B=P A Q$ 则称$A$和$B$等价,这就是矩阵等价的定义。 > 矩阵等价我们可以采用常规的理解:矩阵A通过一些列变换能变成矩阵B ## 矩阵相似 但是矩阵等价有一个小问题:就比如拍照,你给我两张猪的照片,我怎么知道这两头猪是同一个猪呢? 很简单,给猪增加特征值嘛,也就是给猪增加核心的关键区分点,从这里似乎更容易理解为什么矩阵的特征值被称为“特征值”了, 在矩阵等价里,$B=P A Q$,如果把定义修改为$B=P A P^{-1}$ 则称呼矩阵$B$ 和 矩阵$A$ 相似。 可以看到,矩阵相似是矩阵等价的特殊情况,或者说,矩阵相似比矩阵等价更为苛刻。 但是矩阵相似最大的好处是没有改变**矩阵的值**。从定义看 $B=P A P^{-1}$ 因为矩阵满足交换律,因此$P P^{-1}=E$,这是什么意思呢? 就是同一个向量$X$,当使用$A$坐标系或者$B$坐标系表示时,不能更改向量本身的属性,比如向量的长度。如果你更改了向量本身的属性,线性这种变换是没有意义的。 > 矩阵相似也可以从代数式来理解,比如 $x= 3 * x * \frac{1}{3}$ ,后者放大了3被,但是又缩小了3倍,因此值没有改变。 ### 二次型 在介绍矩阵的合同前,先看一下二次型。形如 $$ f=4 x^2+9 y^2 $$ 就是二次型,其实第一感觉,二次型不就是高中解析几何里的圆、椭圆、双曲线、抛物线吗?这有啥好研究的,我们知道数学是为物理服务的,物理中有大量二次公式,比如牛顿第二定律 $F=m a$ ,电压电流关系 $U=I R$ ,万有引力等,虽然他们长的不一样,但是在数学家眼里,你们都是二次的,那本质上应该一样,那就通过数学来解决这类问题吧。这里引申一个问题: 线性代数重在**线性**二字,这里的 $x^2$ 明显不是线性的啊,这一说,确实不是二次的,但是,那些数学家发现了规律: 比如如果你学过矩阵乘法你就会发现 $f(x, y)=a x^2+2 b x y+c y^2$ 可以写成 $$ \begin{aligned} f(x)=\left(\begin{array}{ll} x & y \end{array}\right)\left[\begin{array}{ll} a & b \\ b & c \end{array}\right]\binom{x}{y} \end{aligned} =X^T A X $$ 如果不看变量,你能感觉到 $f(x)$ 主要是受 $\left[\begin{array}{ll}a & b \\ b & c\end{array}\right]$ 控制,而 $\left[\begin{array}{ll}a & b \\ b & c\end{array}\right]$ 就是矩阵 本来八竿子打不到一起的东东,现在终于二次和矩阵扯上关系了,扯上这一点关系后,那就和我线性代数有关了,就可以用矩阵来研究二次型,并因此开始提出特征向量特征值,矩阵的合同,正交等等概念。 在二次型里,最主要的是规范形,比如 $f(x)=x^2+2 x y+y^2$ 就比 $f(x)=x^2+x y+y^2$ 好。为什么? 因为前者可以写成 $f(x)=(x+y)^2$ 看到这个代数式,就立刻知道,他有最值,而且有最小值为 0 ,甚至隐约感觉如果画在坐标系里,开口向上。这太方便了。所以,那些数学家就想,我们来研究研究怎么把 $f(x)=x^2+x y+y^2$ 里的 交叉项 $x y$ 消掉,只保留2次项吧。 ### 二次函数的图像 在二次型里,我们介绍过,一个二次型,增加他的一次项不更改图形的大的趋势,详见[此处](http://kb.kmath.cn/kbase/detail.aspx?id=500) ,比如下图 {width=300px} 对于二次函数或者二次方程,**二次部分是主要部分**,往往研究二次这部分就够了 对于形如 $a x^2+2 b x y+c y^2$的二次型,可以写成 $$ \begin{aligned} \left[\begin{array}{ll} x & y \end{array}\right]\left[\begin{array}{ll} a & b \\ b & c \end{array}\right]\left[\begin{array}{l} x \\ y \end{array}\right]=1 \end{aligned} $$ 例如 $x^2+y^2-xy=1$写成矩阵并画出图像如下 {width=300px} 更一般的圆锥曲线,$x^2+y^2=1$表示的是一个圆,写成矩阵是 {width=300px} 如果更改一下矩阵参数(这里请把矩阵当初一个线性变换),他就是是椭圆 {width=300px} 如果让**图形不变**而改变坐标系,就可以把抛物线当成圆来研究,比如圆的面积是$S=\pi r^2$ ,而椭圆的面积是$S=\pi a b$ ,可以看到椭圆的面积公式和圆的面积公式非常类似,当然这不完全对,请看矩阵的合同。 ## 矩阵合同 从上面图像演示看到,更改矩阵可以改变二次型函数的图像,但是在更改这些图形时有一个最核心的问题需要注意:**你不能更改函数固有的属性,比如函数的值,向量的长度**等,否则这种变换是没有意义的。如何不更改二次多项式的值呢? 对于一个二次型: $$ f(x)=X^{\mathrm{T}} A X ... (7.4) $$ 有一个向量替换关系 $\boldsymbol{x}=\boldsymbol{C} \boldsymbol{y}$, 把它带入式 (7.4), 则函数值不变, 得到 $$ f(\boldsymbol{x})=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}=(\boldsymbol{C} \boldsymbol{y})^{\mathrm{T}} \boldsymbol{A C} \boldsymbol{y}=\boldsymbol{y}^{\mathrm{T}} \boldsymbol{C}^{\mathrm{T}} \boldsymbol{A C y}=\boldsymbol{y}^{\mathrm{T}}\left(\boldsymbol{C}^{\mathrm{T}} \boldsymbol{A C}\right) \boldsymbol{y} ...(7.5) $$ 式 (7.5) 最后的表达式中的度量矩阵是 $\boldsymbol{C}^{\mathrm{T}} \boldsymbol{A C}$, 这正是一个**合同变换**。 确实是矩阵的 “合同” 变换, 对矩阵 $\boldsymbol{A}$ 的左、右同时变换 (左乘 $\boldsymbol{C}^{\mathrm{T}}$ 和右乘 $\boldsymbol{C}$ ), 行和列的变换 “合同” 进行。 事实上合同的定义就是:若有$A$和$B$两个矩阵,存在可逆矩阵$C$ , 使得 $B=C^TAC $ 则称矩阵$A$合同矩阵$B$,这就是合同的定义。 但是,这里的合同定义是广义的,还不能满足我们的需求,我们看一下相似和合同 $B=C^{-1}AC $ 是相似的定义 $B=C^TAC $ 是合同的定义 仔细比较上面的定义,如果 $C^{-1}=C^{T}$ 那么这种变换既能满足矩阵的简化又不改变矩阵的值,只有正交矩阵有这种性质,为此我们研究一下[施密特正交化](https://kb.kmath.cn/kbase/detail.aspx?id=493) 接着引入正交矩阵,定义如果A满足 $A^T A=E$ 称呼矩阵A为 [**正交矩阵**](https://kb.kmath.cn/kbase/detail.aspx?id=494) > 不是每个矩阵都可以对角化的,但是实对称都可以对角化,如果$C^TAC=C^{-1}AC= \lambda $ 那这种变换是最理想的,这就是正交相似。 > 矩阵相似可以类比初中的“相似三角形”,矩阵合同可以类比初中的“全等三角形” ### 等价、相似与合同 据说, 整个线性代数里矩阵之间有三种最典型的关系: 矩阵相似 (similar)、矩阵等价 (equivalent) 和矩阵合同(congruent)。具体的定义如下: (1) $\boldsymbol{A}$ 和 $B$ 等价 $\Leftrightarrow$ 存在可逆矩阵 $\boldsymbol{P}$ 和 $\boldsymbol{Q}$, 使得 $B=P A Q$; (2) $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 相似 $\Leftrightarrow$ 存在可逆矩阵 $\boldsymbol{P}$, 使得 $\boldsymbol{B}=\boldsymbol{P}^{-1} \boldsymbol{A P}$; (3) $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 合同 $\Leftrightarrow$ 存在可逆矩阵 $\boldsymbol{C}$, 使得 $\boldsymbol{B}=\boldsymbol{C}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{C}$ 。 注意这三种关系的联系和差别。据定义可以知道, 这三种矩阵关系都是等价关系。其中等价关系是最弱的一个关系: 两个矩阵相似, 或两个矩阵合同, 那这两个矩阵一定是等价的, 但是反过来不成立。相似与合同矩阵之间不能够互相推导。但是如果两个实对称矩阵是相似的,那肯定是合同的; 反之也成立。如果从整体上来看矩阵之间的三种关系, 我们会想到用集合来表示三者之间的关系(见图 5-68)。集合的表示更加清晰地展现了矩阵等价、相似、合同三者之间的关系。  图中显示, 相似的矩阵不一定合同, 合同的矩阵不一定相似。但相似和合同有交集, 就是有既相似又合同的矩阵。若转换矩阵 $\boldsymbol{P}^{-1}=\boldsymbol{P}^{\mathrm{T}}$, 这两定义变成相同, 则 $\boldsymbol{A} 、 \boldsymbol{B}$ 两个矩阵既是相似的又是合同的, 但具备这种性质的矩阵 $\boldsymbol{P}$, 只有正交矩阵一类, 因为这正是**正交矩阵的定义**。 ### 合同对角化 简单的变向量替换实际上就是基坐标系的变换: 基变了, 原来向量的坐标系当然变了, 即 $\boldsymbol{x} \rightarrow \boldsymbol{y}$, 这时如果仍然保持二次型值不变的话只能把原度量矩阵变成一个新的度量矩阵 $\boldsymbol{A} \rightarrow \boldsymbol{C}^{\mathrm{T}} \boldsymbol{A C}$ 。 和广义内积的度量矩阵是一样的, 选不同的基, 二次型度量矩阵就不同, 二次型的表达式 也就不同, 但二次型的值在不同基下是不变的。因此, 选何种基的问题就变成了对度量矩阵进行何种变换的问题, 二次型的化简就成了度量矩阵的对角化问题。如果新的度量矩阵是一个对角矩阵 $\boldsymbol{C}^{\top} \boldsymbol{A C}=\boldsymbol{\Lambda}$, 我们就说把二次型合同对角化了。 要选择什么样的合同变换对矩阵 $\boldsymbol{A}$ 进行对角化呢? 这与你应用目的有关系。 椭球面的方程为 $$ \frac{x^2}{1}+\frac{y^2}{4}+\frac{z^2}{9}=1 $$ 将其通过可逆线性替换 $\left(\begin{array}{l}x \\ y \\ z\end{array}\right)=\left(\begin{array}{lll}1 & & \\ & 2 & \\ & & & 3\end{array}\right)\left(\begin{array}{l}x^{\prime} \\ y^{\prime} \\ z^{\prime}\end{array}\right)$ 化为 $x^{\prime 2}+y^{\prime 2}+z^{\prime 2}=1$, 即椭球面变成了球面, **不保持图形的 “形状”**。 椭球面方程也通过不可逆线性变换 $\left(\begin{array}{l}x \\ y \\ z\end{array}\right)=\left(\begin{array}{lll}1 & &\\ & & 2 \\ & & 0\end{array}\right)\left(\begin{array}{l}x^{\prime} \\ y^{\prime} \\ z^{\prime}\end{array}\right)$ 化为 $x^{\prime 2}+y^{\prime 2}=1$, 即椭球面变成了圆柱面, **也不保持图形的 “形状”**。 而**正交变换保持向量长度和角度不变**, 因此几何图形不变。所以在讨论二次方程决定的图形时, 必须用正交变换; 如果只考虑它所属的类型, 则可以用可逆的合同变换(当然也包括正交变换),例如下图 下图显示,圆和椭圆可以通过更改矩阵进行切换。 {width=300px} 把这个矩阵进行特征值分解: {width=300px} 对于二次型矩阵,都是**对称矩阵**,所以特征值分解总可以得到正交矩阵与对角矩阵。 特征值分解实际上就是把运动分解了 {width=300px} 那么我们只需要保留拉伸部分,就相当于把矩阵扶正(图中把各自图形的二次型矩阵标注出来了): {width=300px} 所以,用二次型矩阵进行规范化是非常轻松的事情。 ## 惯性定理 理论上,一个二次型函数图像是不唯一的,但是,[Sylvester的惯性定理](https://kb.kmath.cn/kbase/detail.aspx?id=503)告诉我们 有限的实二次型的规范形是唯一的。 也就是说,不论选取怎样的坐标变换使它化为仅含平方项的标准形,其正、负惯性指数与所选取的坐标变换无关。 注:二次型的标准形不是唯一的,它与所选的坐标变换有关,惯性定理告诉我们二次型的正负惯性指数是唯一不变的,它反映了二次型的本质特征。 例如,我们取了平面上一个中心在原点的一个椭圆 $6 x^2-68 y+6 y^c-1=0$ 经过适当的线性替换, 这个粗圆一定可以化为 $3 u^2+9 v^2=1$ 的形式 {width=300px} 从而这个椭圆的规范形为 $z^2+w^2=1$ 。 注意二次型的标准形不是唯一的,它与所选的坐标变换有关。由之前介绍的标准二次方程在一般坐标系下的图像可知,不论选取哪一个 $u o v$ 坐标系变为了标准形,椭圆的方程一定为 $$ a u^2+b v^2=1 $$ 其中 $a, b>0$. 这时候,再令坐标轴单位做一下伸缩变换,就可以使原图像的方程变为 $$ z^2+w^2=1 $$ 也就说,一个椭圆的规范形是唯一的。 因为坐标系的替换也可以理解为一个线性变换。因此,每一个线性替换可以理解为将原来的二次曲线,通过线性替换矩阵所对应的线性变换,变为了一个新的二次曲线。下图为一个椭圆经过不同的线性变换后的图像: 惯性定理,可以理解为任何一个椭圆/椭球/双曲线….在经过一个可逆的线性变换之后依然是一个椭圆/椭球/双曲线 下图为一个椭圆经过不同的线性变换后的图像 {width=300px} ## 矩阵相似例题 `例` 设有一线性变换: 如图 5-49所示, 它将任意向量 $\left(\begin{array}{l}x \\ y\end{array}\right)$ 映射为关于 $45^{\circ}$ 直线的镜像 $\left(\begin{array}{l}y \\ x\end{array}\right)$ 。  解:取直角坐标系, 其标准正交基 $\boldsymbol{e}_1=\left(\begin{array}{l}1 \\ 0\end{array}\right)$ 和 $\boldsymbol{e}_2=\left(\begin{array}{l}0 \\ 1\end{array}\right)$, 根据线性变换的矩阵定理, 则相应的线性变换矩阵 $A$ 容易求出。因为 $A$ 将 $e_1$ 映射为 $e_2$, 将 $e_2$ 映射为 $e_1$, 所以这个镜像映射在基 $e_1$ 和 $e_2$ 下的坐标表达式为 $$ \left(\begin{array}{l} y \\ x \end{array}\right)=\left[\begin{array}{ll} 0 & 1 \\ 1 & 0 \end{array}\right]\left(\begin{array}{l} x \\ y \end{array}\right) $$ 其中把变换矩阵记为 $[\boldsymbol{A}]_e=\left[\begin{array}{ll}0 & 1 \\ 1 & 0\end{array}\right]$, 表示矩阵 $\boldsymbol{A}$ 是以 $\boldsymbol{e}_i$ 为基的。 下面我们再找一个新的基底 (见图 5-50), 使得新的基向量之一 $\boldsymbol{e}_1{ }^{\prime}$ 沿着 $45^{\circ}$ 直线, 即 $\boldsymbol{e}_1{ }^{\prime}=\left(\begin{array}{l}1 \\ 1\end{array}\right)$,而另一个基向量与之垂直, 即 $\boldsymbol{e}_2{ }^{\prime}=\left(\begin{array}{c}-1 \\ 1\end{array}\right)$ 。则新基与旧基的转换关系为 $$ \left\{\begin{array}{l} \boldsymbol{e}_1^{\prime}=\boldsymbol{e}_1+\boldsymbol{e}_2 \\ \boldsymbol{e}_2^{\prime}=-\boldsymbol{e}_1+\boldsymbol{e}_2 \end{array}\right. $$ 将其改写为 $$ \left(e_1^{\prime}, e_2^{\prime}\right)=\left(e_1, e_2\right)\left[\begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array}\right] $$ 其中把基变换矩阵记为 $\boldsymbol{P}=\left[\begin{array}{cc}1 & -1 \\ 1 & 1\end{array}\right]$ 。  在这组新基上, 这个镜像运动的线性变换 $A$ 事实上被简化了。因为新基向量 $e_1{ }^{\prime}$ 在 $45^{\circ}$ 直线上,它是它本身的镜像, 即 $A e_1{ }^{\prime}=e_1{ }^{\prime}$ 。另一个新基向量 $\boldsymbol{e}_2{ }^{\prime}$ 正好被翻转过来, 即 $A e_2{ }^{\prime}=-e_2{ }^{\prime}$ 。于是,原矩阵 $\boldsymbol{A}$ 所表示的线性变换在新基 $\boldsymbol{e}_1{ }^{\prime}$ 和 $\boldsymbol{e}_2{ }^{\prime}$ 下的坐标表达式为 $$ \left(\begin{array}{c} x^{\prime} \\ -y^{\prime} \end{array}\right)=\left[\begin{array}{cc} 1 & 0 \\ 0 & -1 \end{array}\right]\left(\begin{array}{l} x^{\prime} \\ y^{\prime} \end{array}\right) $$ 其中把线性变换矩阵记为 $[\boldsymbol{B}]_{e^{\prime}}=\left[\begin{array}{cc}1 & 0 \\ 0 & -1\end{array}\right]$, 表示矩阵 $\boldsymbol{B}$ 是以 $\boldsymbol{e}_{\boldsymbol{i}}{ }^{\prime}$ 为基的。 这个矩阵 $\boldsymbol{B}$ 与单位矩阵很接近, 确实比较简单。 **这里矩阵$A$ 和$B$ 是一对相似矩阵, 因为他们都是表示的同一变换 “关于固定的一直线的镜像映射”。** ## 考研模拟题实战 **题目1**:已知矩阵 $A=\left(\begin{array}{ccc}0 & -1 & 1 \\ 2 & -3 & 0 \\ 0 & 0 & 0\end{array}\right)$ 求 $A^{99}$ ; 解:(1) 通过解方程可得特征值,即有 $$ \begin{aligned} & |\lambda E-A|=A=\left(\begin{array}{ccc} \lambda & 1 & -1 \\ -2 & \lambda+3 & 0 \\ 0 & 0 & \lambda \end{array}\right)=0 \\ & \Rightarrow \lambda_1=0, \lambda_2=-1, \lambda_3=-2 . \end{aligned} $$ 由此可得各特征值对应的特征向量为为 $$ v_1=\left(\begin{array}{l} 3 \\ 2 \\ 2 \end{array}\right), v_2=\left(\begin{array}{l} 1 \\ 1 \\ 0 \end{array}\right), v_3=\left(\begin{array}{l} 1 \\ 2 \\ 0 \end{array}\right) . $$ 把三个特征向量构成的矩阵记作 $$ P=\left(v_1, v_2, v_1\right)=\left(\begin{array}{lll} 3 & 1 & 1 \\ 2 & 1 & 2 \\ 2 & 0 & 0 \end{array}\right) $$ 从而有 $$ P^{-1} A P=\left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & -2 \end{array}\right) . $$ 于是由求矩阵幂的特征值法,可得 $$ A^{99}=P\left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & -2 \end{array}\right)^{99} P^{-1} $$ 容易求得矩阵 $\boldsymbol{P}$ 的逆矩阵为 $$ P^{-1}=\left(\begin{array}{ccc} 0 & 0 & \frac{1}{2} \\ 2 & -1 & -2 \\ -1 & 1 & \frac{1}{2} \end{array}\right) $$ 把 $P$ 和 $P^{-1}$ 代入式子 $\left(^*\right)$ ,从而有 $$ \begin{aligned} & A^{99}=P\left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & -2 \end{array}\right)^{99} P^{-1} \\ & =\left(\begin{array}{lll} 3 & 1 & 1 \\ 2 & 1 & 2 \\ 2 & 0 & 0 \end{array}\right)\left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & -2^{99} \end{array}\right)\left(\begin{array}{ccc} 0 & 0 & \frac{1}{2} \\ 2 & -1 & -2 \\ -1 & 1 & \frac{1}{2} \end{array}\right) \\ & =\left(\begin{array}{ccc} -2+2^{99} & 1-2^{99} & 2-2^{98} \\ -2+2^{100} & 1-2^{100} & 2-2^{99} \\ 0 & 0 & 0 \end{array}\right) . \\ & \end{aligned} $$ > 这题来自2016年全国硕士研究生招生统一考试数学试题及详细参考解答(数三),通过这道题感受《线性代数》的魅力,比如$A^{99}$次幂,如果死算,在人工时代,基本上是不可能的任务,但是利用特征值、特征向量,基础解析、相似、合同等概念,竟然把一个矩阵需要乘以99次转换为了对矩阵元素的运算。 ## 二次型的线性替换例题 `例` 令 $Q( x )=x_1^2-8 x_1 x_2-5 x_2^2$, 计算 $Q( x )$ 在 $x =\left[\begin{array}{r}2 \\ -2 \end{array}\right]$处的值. #### 解法一:传统解法 解法1:$Q(2,-2)=(2)^2-8(2)(-2)-5(-2)^2=16$ #### 解法二:线性替换解答本题 解法2:现在通过求一个变量代换将本例中的二次型变为一个没有交叉项的二次型. 上例中二次型对应的矩阵是 $$ A=\left[\begin{array}{rr} 1 & -4 \\ -4 & -5 \end{array}\right] $$ 第一步是将矩阵 $A$ 正交对角化, $A$ 的特征值是 $\lambda=3$ 和 $\lambda=-7$, 相应的单位特征向量是: $$ \lambda=3:\left[\begin{array}{r} 2 / \sqrt{5} \\ -1 / \sqrt{5} \end{array}\right] ; \quad \lambda=-7:\left[\begin{array}{l} 1 / \sqrt{5} \\ 2 / \sqrt{5} \end{array}\right] $$ 这些特征向量自动正交(因为它们属于不同的特征值)且构成 $R ^2$ 的一个单位正交基. 取 $$ P=\left[\begin{array}{rr} 2 / \sqrt{5} & 1 / \sqrt{5} \\ -1 / \sqrt{5} & 2 / \sqrt{5} \end{array}\right], \quad D=\left[\begin{array}{rr} 3 & 0 \\ 0 & -7 \end{array}\right] $$ 那么 $A=P D P^{-1}$, 且 $D=P^{-1} A P=P^{\top} A P$, 像前面指出的那样, 一个适当的变换是 $$ x =P y , \text { 此处 } x =\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right], \quad y =\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right] $$ 那么 $$ \begin{aligned} x_1^2-8 x_1 x_2-5 x_2^2 & = x ^{\top} A x \\ & =(P y )^{\top} A(P y) \\ & = y ^{\top} P ^{\top} A P y = y ^{\top} D y \\ & =3 y_1^2-7 y_2^2 \end{aligned} $$ 即$Q'(y)= 3 y_1^2-7 y_2^2 $ 为了说明本例中二次型相等的意义, 我们可以利用新二次型计算 $Q( x )$ 在 $x =(2,-2)$ 处的值,首先, 由于 $x =P y$, 我们得到 $$ y=P^{-1} x=P^{\top} x $$ 则有 $$ y =\left[\begin{array}{cc} 2 / \sqrt{5} & -1 / \sqrt{5} \\ 1 / \sqrt{5} & 2 / \sqrt{5} \end{array}\right]\left[\begin{array}{r} 2 \\ -2 \end{array}\right]=\left[\begin{array}{r} 6 / \sqrt{5} \\ -2 / \sqrt{5} \end{array}\right] $$ 因此 $$ \begin{aligned} 3 y_1^2-7 y_2^2 & =3(6 / \sqrt{5})^2-7(-2 / \sqrt{5})^2=3(36 / 5)-7(4 / 5) \\ & =80 / 5=16 \end{aligned} $$ > 上面这个例题看起来是把简单问题复杂化了,本来$Q(x)$计算很简单的,结果搞出来$Q'(y)$后,计算越来越复杂了。但是,我们说正交变换不更改函数的图像,当你拿到$Q(x)$时,你无法想象他的图像,但是给你$Q'(y)$你至少出感觉和圆锥曲线里双曲线类似。 具体见二次函数的[正定型](https://kb.kmath.cn/kbase/detail.aspx?id=503)。
上一篇:
附录1:线性方程组、行列式、矩阵、向量组的关系
下一篇:
附录3:再看线性代数的意义
本文对您是否有用?
有用
(
0
)
无用
(
0
)
制作不易,如果您喜欢本站,也欢迎
赞助本站
。
初中数学
高中数学
高中物理
高等数学
线性代数
概率论与数理统计
复变函数
离散数学
实变函数
数学分析
数论
群论
纠错
高考
考研
关于
赞助本站
下载
科数网是专业专业的数学网站。