科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
线性代数
第五篇 特征值与矩阵相似
特征值与特征向量的几何意义
最后
更新:
2025-08-25 09:41
查看:
332
次
反馈
同步训练
特征值与特征向量的几何意义
## 为什么要引入特征值与特征向量 我们在研究线性变换时. 特别关心这样一个问题:对给定线性空间 $R^n$ 上的线性变换,能否找到 $R^n$ 的一组基,使得该线性变换在这组基下的**表示矩阵**,他**具有特别简单的形状**. 比如, 若我们能找到 $R^n$ 的一组基 $\left\{e_1, e_2, \cdots, e_n\right\}$, 使线性变换 $\varphi$ 在这组基下的表示矩阵为对角阵: $$ \left(\begin{array}{llll} a_1 & & & \\ & a_2 & & \\ & & \ddots & \\ & & & a_n \end{array}\right) . $$ 这时, 若 $\boldsymbol{\alpha}=k_1 \boldsymbol{e}_1+k_2 \boldsymbol{e}_2+\cdots+k_n \boldsymbol{e}_n$, 则 $$ \boldsymbol{\varphi}(\boldsymbol{\alpha})=a_1 k_1 \boldsymbol{e}_1+a_2 k_2 \boldsymbol{e}_2+\cdots+a_n k_n \boldsymbol{e}_n $$ 线性变换 $\varphi$ 的表达式非常简单. 线性变换 $\varphi$ 的许多性质也变得一目了然. 如若 $a_1, a_2, \cdots, a_r$ 不为零, 而 $a_{r+1}=\cdots=a_n=0$, 则 $\boldsymbol{\varphi}$ 的秩为 $r$, 且 $\operatorname{Im} \boldsymbol{\varphi}$ 就是由 $\left\{e_1, e_2, \cdots, e_r\right\}$ 生成的子空间, 而 $\operatorname{Ker} \varphi$ 则是由 $\left\{e_{r+1}, \cdots, e_n\right\}$ 生成的子空间,等等. 我们已经知道, 一个线性变换在不同基下的表示矩阵是相似的. 因此用矩阵的语言重述上面提到的问题就是: 能否找到一类特别简单的矩阵, 使任一矩阵与这类矩阵中的某一个相似?比如,我们可以问:是否所有的矩阵都相似于对角阵? 若不然, 哪一类矩阵可以相似于对角阵? 在分块矩阵里,我们曾经学过,每一个矩阵都可以按列进行分块,我们自然想到:我们提取矩阵的某一列作为行向量$\alpha$,上述的问题可以表述为:我们希望找到一个矩阵$A$和一个向量$\lambda$,使得$A \alpha= \lambda \alpha$ ,这样就相当于通过一个矩阵转换,把一个行向量转换为了一个数,这是最原始的想法。 > 从因式分解的角度或许更容易理解特征值与特征向量? 比如,老师让我们求 $ 25 * 12 $ ,直接计算会比较麻烦,老师通常会要求我们对$12$进行分解,即 $12=4 * 3$ , 这样 $ 25 * 12 = 25 * 4 * 3= 100 *3 =300$ 可以看到,分解后, 充分利用了 $25 * 4 =100 $ 简化了计算。 同样,给我们一个对称矩阵$A$ 能否分解为$A=P \Lambda P^{-1}$ ,这样你会发现,计算矩阵会变的简单。求特征值与特征向量,就是求新坐标基的过程。 ## 从线性空间角度理解坐标 以经典的 $A x=b$ 为例,假设 $A$ 是一个 $\mathrm{n} \times n$ 的矩阵, $x$ 和 $b$ 都是 ${n} \times 1$ 的向量 $$ A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right], x=\left[\begin{array}{c} x_1 \\ x_2 \\ \vdots \\ x_n \end{array}\right], b=\left[\begin{array}{c} b_1 \\ b_2 \\ \vdots \\ b_n \end{array}\right] $$ 不难看出,矩阵就是由一列列向量组成的,所以在说矩阵之前我们再来简单说一下向量。 向量有长度有方向,但这个长度方向要有意义,或者说可度量,这就必须要有参考系,也就是坐标系。坐标系不是唯一的,但我们有一个标准坐标,叫笛卡尔坐标,简称 $I$ 坐标。那由一系列向量组成的矩阵到底代表什么意思呢? 可以从 2 个角度理解矩阵: (1)**矩阵是一个变换**,仔细盯着$A x=b$多看几次,这个等式表明,经过变换$A$,向量 $x$ 变成了向量 $b$ (在这里,$b$坐标终是隐含着使用$I$坐标)。你可以把$A$想象成一个传送门,任何向量经过这个传送门,嗖的一下就被瞬间传送到了另一个点成为另一个向量,而你到底能被传送到哪跟你本身的位置有关,也跟这个传送门的性能有关,换句话说同一个传送门,不同的向量被传送到不同的位置,同一个向量,换一个传送门,也会被传送到不同的位置。 (2)**矩阵本身就是一个坐标系**。这个不难理解,我们常见的 $I$ 坐标系,比如二维坐标,他的两个坐标轴就是 $(1,0) ,(0,1)$ 两个向量,把这两个向量按列排列就是一个矩阵,所以矩阵就代表了坐标系,每一个列向量就是他的一个坐标轴。 那一个矩阵乘以一个向量,比如 $A x$ 代表什么意思呢?我们说一个向量单看是没有意义的,你要放在一个坐标系下才能度量,而左乘一个矩阵$A$就代表它的坐标系是$A$,这个向量在$A$坐标系下的坐标为 $x$ ,也就是这个向量投影到 $A$ 的各个坐标轴的长度为 $x$ 。 $$ \begin{aligned} & A x=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & \varepsilon_{1 n} \\ a_{21} & a_{22} & \cdots & \varepsilon_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n 1} & a_{n 2} & \cdots & a_{n n} \end{array}\right]\left[\begin{array}{c} x_1 \\ x_2 \\ \vdots \\ x_n \end{array}\right]=x_1\left[\begin{array}{c} a_{11} \\ a_{21} \\ \vdots \\ a_{n 1} \end{array}\right]+x_2\left[\begin{array}{c} a_{12} \\ a_{2 c} \\ \vdots \\ a_{n 2} \end{array}\right]+\cdots & +x_n\left[\begin{array}{c} a_{1 n} \\ a_{2 n} \\ \vdots \\ a_{n n} \end{array}\right] \end{aligned} $$ 我们再来看 $A x=b$ ,发现什么了吗?上面说一个向量单看是没有意义的,你要放在一个坐标系下才能度量, $b$ 前面没有任何矩阵,但它也需要坐标系,没有指定坐标系的时候坐标系是 $I$ ,所以 $b$ 前面其实被略去了一个 $I$ ,也就是 $A x=I b$ 。 $A x$ 描述的是一个向量,它在$A$坐标系下的坐标是 $x , I b$ 描述的也是一个向量,它在 $I$ 坐标系下的坐标是 $b$ ,二者相等,说明 $x$ 和 $b$ 其实是一个向量,他们只不过是在不同坐标系下的不同表示而已。 你可以理解为这个点从来没动过,它只是换了一个坐标系来看这个点而已。就好像拍照,你从正面拍侧面拍,仰拍俯拍,你拍的都是一个对象,但拍照角度不一样,你会得到不同的照片。 来看个数学上的例子 $$ A=\left[\begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array}\right], x=\left[\begin{array}{l} 2 \\ 1 \end{array}\right], I=\left[\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right], b=\left[\begin{array}{l} 1 \\ 3 \end{array}\right] $$ 如果你计算,你会发现上面这个矩阵乘法 $Ax=Ib=b$, 换句话说,$(2,1)$ 和 $(1,3)$ 就是同一个向量,只不过前者是在$A$下的表示,后者是在 $I$ 下的表示。 {width=300px} 再看一个简单的类比, $(5)*1=5*1$ 前面这个$(5)$表示一个矩阵,后面这个$5$表示一个坐标值。这个等式告诉我们:有一个1,我用5个长度作为一个基准单位,等于以“1”为基准单位得5倍。同样 $(5)*2=10*1$ 等号右边表示,以1为基准单位,坐标为10的向量,等于“以5个单位为一个基准单位”,但是只需要2个这样的单位即可。 上式还可以简单类比,一件东西需要10元钱,我以1元人民币为单位,给他10次就可以了。但是我也可以以5元人民币为单位,只要给他2次就可以了。 ### 通过物理对上面进行解释 在高中学过运动,比如:甲在路边,乙在飞船上,一辆汽车以$v_汽$行驶,汽车里$A$质点在运动,问甲乙看到的$v_A$的速度是多少?当看到这个问题时,我们第一反应就是:你要以什么为参照物,同样一个汽车运动,选择的参照系不同,会有不同的运动速度(**这里的参照物可以理解为线性代数里的基坐标**)。比如甲在地面上,以地面为参照物,$v_A=v_\text{汽} +v_{A-\text{汽}}$ ,也就是汽车的速度加上A点相对汽车的速度就是甲看到的速度。但是乙因为在飞船里,飞船也在运行,因此他看到的速度$v_A=v_{\text{飞船}} + v_\text{汽-船} +v_{A-\text{汽}}$ 这样,对于一个物体运动,这样他们看到的速度是不同的。 通常我们以地面为绝对的参照物的好处是:计算简单。 {width=380px} 再仔细的盯着上面这张图(如下)  现在把上图想象为物体的运动:**蓝色单位坐标系**$\left(\begin{array}{cc}1,0 \\0,1\end{array} \right)$ 相当于禁止的地面, 橙色坐标系相当于**宇宙飞船**,他的单位坐标系是$\left(\begin{array}{cc}-1,1 \\1,1\end{array} \right)$ 在蓝色坐标系里,甲看到的汽车运动速度$(1,3)$ 和乙在宇宙飞船里的看到的$(2,1)$是一样的。 现在的问题是:我们能否把橙色坐标系里的运动,都用类蓝色坐标系表示,为何?**因为简单**。比如上图里,假设蓝色坐标系里看到的汽车速度为$(5,7)$,我们就可以立刻知道,汽车速度相当于沿着$x$轴为5,而沿着$y$轴为7. 这对后续的计算非常简单。因此这个问题就转换为,给你一个矩阵$A$,能否分解为简单的几个矩阵相乘?这时我们回到最原始的想法:矩阵作用向量的结果是什么:旋转和缩放。因此,我们直觉认为A可以分解为3个矩阵相乘,$A=BCD$,其中$B$作用行,D作用列,C是对角阵,分别对每个维度进行缩放(也就是C是正交矩阵)。 ## 特征值与特征向量的设计 **在找寻特征向量的过程其实就是找寻新的坐标基的过程**,如何寻找呢?矩阵作用与向量,通常使得向量旋转和缩放,但是在这些方向里,有一些向量只缩放,不旋转,那么**我们就使用那种不旋转的向量作为新的坐标基**。但是有一个大前提,对于一个$n$阶矩阵,最多可以找到$n$个方向不变的向量。 更具体的说,假设有一个三阶矩阵$A=\left(\begin{array}{lll}-2 & 1 & 1 \\0 & 2 & 0 \\-4 & 1 & 3 \end{array}\right)$ ,我们可以找到他的3个特征值为-1,2,2 并找到他的3个特征向量,这3个特征向量形成一个空间 $\Lambda=\left(\begin{array}{lll}1 & 0 & 1 \\0 & 1 & 0 \\1 & 1 & 4 \end{array}\right)$, 这样,在$A$形成的三维空间里有一个小男孩照片(你可以把这个小男孩照片想象为向量),在$\Lambda$空间里查看更简洁、漂亮。 因为小男孩的移动最多可以沿着$x,y,z$三个维度,所以,我们最多可以找到三个不旋转的向量,因此会有3个特征值,这样就可以组成一个新坐标基。(特征值可以认为是沿着该方向缩放的比例。)  ### 矩阵作用于向量的具体实现 上面说过,一个矩阵$A$相当一个坐标系。任给一个普通的向量$\boldsymbol{x_1}$ ,用矩阵$A$作用在这个向量上面,通常这个向量会进行旋转和缩放,比如下图 $\boldsymbol{x_1} \to A \boldsymbol{x_1}$ {width=500px} 但是,也有部分向量,只进行了缩放,而不进行旋转,如下图 $\boldsymbol{x_2} \to A \boldsymbol{x_2}$ {width=500px} 既然 $\boldsymbol{x_2}$只伸缩,那么他就可以表示为 $\boldsymbol{x_2} \to \lambda \boldsymbol{x_2} $ 因此,**我们只要令 $A \boldsymbol{x_2}= \lambda \boldsymbol{x_2} $ 就相当于找到了新坐标基里的一个维度。如果A是一个三阶矩阵,使用这个方法做3次,就会得出3个向量和三个特征值。这3个向量组成一个基,就是我们要找到的特征坐标基。而3个特征值相当于沿着三个维度缩放的比例。 我们称 $\lambda$ 称作 特征值,而 $\boldsymbol{x_2} $ 称作特征值对应的特征向量** 注意:如果$A$是一个普通矩阵,按照上面找到的3个维度不一定正交。但是如果$A$是对称矩阵,可以证明他的3个维度一定正交。所以,后面在研究矩阵时,通常研究对称矩阵。 如果A不是对称矩阵,那么只要$AA^T$ 就会变成对称矩阵。 ## 特征值与特征向量的定义 **数学上定义当 $A x=\lambda x$ 时 $x$ 是 $A$ 的特征向量, $\lambda$ 是 $A$ 的特征值** 事实上,这里的$x$可以成为“测量的基准单位”。就像数组我们用1表示基准单位一样。 我们用坐标系的角度来理解,那么 $A x=\lambda x$ 代表的意思是有一个向量,在$A$坐标下是 $x$ ,我换 $I$ 坐标去看它,发现它看着还是 $x$ 这个方向,只不过伸缩了 $\lambda$ 倍。 举一个例子, $$ A=\left[\begin{array}{cc} 3 & 1 \\ 2 & 2 \end{array}\right], \lambda=4, \alpha_1=\left[\begin{array}{ll} 1 \\ 1 \end{array}\right], \alpha_2=\left[\begin{array}{l} 1 \\ 2 \end{array}\right] $$ 计算得到 $$ A \alpha_1=\left[\begin{array}{cc} 3 & 1 \\ 2 & 2 \end{array}\right] \left[\begin{array}{ll} 1 \\ 1 \end{array}\right]=\left[\begin{array}{ll} 4 \\ 4 \end{array}\right]=4 \alpha_1 $$ $$ A \alpha_2=\left[\begin{array}{cc} 3 & 1 \\ 2 & 2 \end{array}\right] \left[\begin{array}{ll} 1 \\ 2 \end{array}\right]=\left[\begin{array}{ll} 5 \\ 6 \end{array}\right] \ne 4 \alpha_2 $$ 从这个计算里可以看到,$\alpha_1$ 只是缩放了$4$倍(但是方向没变) , 而$\alpha_2$ 则进行了旋转和缩放。所以 $\alpha_1$ 可以作为矩阵的新坐标基。 如果$A$是二阶矩阵,那么最多可以找到2个方向不变的向量,如果$A$是三阶矩阵,那么最多可以找到3个方向不变的向量,以此类推。 ## 对角形矩阵 只有主对角线还有元素,其余都是0的矩阵,是对角型矩阵,下面是一个二阶对角矩阵: $$ A=\left[\begin{array}{cc} 2 & 0 \\ 0 & 10 \end{array}\right] $$ 它互相独立的标准化特征向量有 2 个, $$ x_1=\left[\begin{array}{l} 1 \\ 0 \end{array}\right], x_2=\left[\begin{array}{l} 0 \\ 1 \end{array}\right] $$ 他们的特征值分别是 $2$ 和 $10$ 。 可以看到,如果一个矩阵是对角形矩阵,他们可以直接使用单位矩阵$E$作为新空间的基。而缩放倍数,就是其主对角线的值。这句话可以换一种更通俗的说法,例如一个三阶对角形矩阵$A$,我们把$A$的第一列当做$x$轴,第二列当做$y$轴,第三列当做$z$轴就可以了。 如下图,在上面说过,一个矩阵就相当于一个坐标系单位(注意不是坐标系里向量的值),既然 笛
免费注册看余下 50%
非VIP会员每天15篇文章,开通VIP 无限制查看
上一篇:
为什么引入特征值与特征向量
下一篇:
特征值与特征向量的求法
本文对您是否有用?
有用
(
1
)
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com