科数网
首页
题库
试卷
学习
VIP
你好
游客,
登录
注册
在线学习
高等数学
后记
高数答疑QA
什么是梯度?为什么梯度下降最快?
最后
更新:
2025-03-23 20:12
查看:
75
次
反馈
同步训练
什么是梯度?为什么梯度下降最快?
梯度;方向导数
## 梯度的通俗解释 作者:[不一定持仓](https://zhuanlan.zhihu.com/p/30289841250) 在多元微积分、机器学习、优化和许多其他领域中,我们经常听到函数的梯度方向指向函数值增长最快的方向。但为什么这是正确的呢?在这篇文章中,我们将深入探讨这一概念背后的原因,并了解梯度为何如此特殊。 梯度不仅在数学中扮演着重要角色,也在诸如通过梯度下降法训练机器学习模型、优化工程系统,甚至在经济学中确定最大利润点等实际应用中起着重要作用。梯度的概念对于解决我们需要找到最有效路径或解决方案的现实问题至关重要。如果你对这个概念有疑问或者需要复习一下,希望这篇文章可以帮助到你。 ### 引言 当我们处理多个变量的函数(例如 )时,我们希望了解函数在任意点如何变化。梯度是实现这一目标的强大工具。梯度被定义为包含函数偏导数的向量,并指向函数值增加最快的方向。 简单来说,想象一下你站在一座山上,想要找到爬山最快的方向。梯度向量所指的方向就是那个方向。可能你已经在非常多地方看过这个说法了,接下来我们从几何证明的角度上一步步推这个结论!别慌,这个证明非常的直观,只需要你有一点点的极限基础! **证明:梯度是函数增长最快的方向** 这里先给出一个总体的大概框架(并不严格数学准确,只是一在三维空间中简化的直观理解): {width=400px} > 首先在这座山上的某一点,我们可以用一个平面去近似,如下图的红色平面所示,所以我们需要要求山上这个地方够平滑(**可微**),想想如果山坡凹凹凸凸的你很难用一个平面去近似这个山坡(**不可微**)。 {width=600px} 因此,我们先给出第一个核心的概念点:如果一个曲面是可微的,那么对于曲面上一点,可以使用切平面近似替代改点的曲面,详细参考[全微分](https://kb.kmath.cn/kbase/detail.aspx?id=383) 的定义。 使用切平面有啥好处?最主要是他简单,特别是对于函数值和自变量的关系是线性的,比如对于平面 $z=a x+b y+c$ ,我们往 $x$ 方向走一个单位,$z$ 就会增加 $a$ ,往 $y$ 走一个单位,$z$ 就会增加 $b$ ,你也同时随便往 $x$ 走 $0.5$个单位,往 $y$ 走$0.6$个单位,$z$ 对应增加 $0.5 a+0.6 y$ ,这就是线性的力量! 最后,我们只要搞清楚这里面的 $a$ 和 $b$ ,就可以去近似我们往某个方向走,函数值可以增加多少了。 接下来我们开始证明, 首先考虑一个可微函数(这是关键!否则,我们无法通过平面在局部近似函数) $z=f(x, y)$ 在点 $A\left(x_0, y_0\right)$ 处。我们可以用一个平面来局部近似这个函数: $$ z^{\prime}=a x+b y+c $$ $z$ 的增量,用 $\Delta z$ 表示,可以写为: $$ \Delta z=f\left(x_0+\Delta x, y_0+\Delta y\right)-f\left(x_0, y_0\right) ...(1) $$ 利用线性近似,也就是上图中的红色平面来近似这个目标函数: $$ \begin{gathered} \Delta z^{\prime}=a\left(x_0+\Delta x\right)+b\left(y_0+\Delta y\right)+c-\left(a x_0+b y_0+c\right)=a \Delta x+b \Delta y \\ \Delta z^{\prime}=a \Delta x+b \Delta y ...(2) \end{gathered} $$ 其中 $a, b$ 是待定常数。 $\Delta z$ 和线性近似之间的误差,即上图中的黄色虚线: $$ \Delta z-\Delta z^{\prime}=\text { error } $$ 当 $\Delta x, \Delta y \rightarrow 0$ 时,我们将误差项表示为 $\epsilon(\Delta x, \Delta y)$ 由于函数是可微的,无论从哪个方向逼近,都可以保证误差项足够小。所以我们可以写为: $$ \Delta z=a \Delta x+b \Delta y+\epsilon(\Delta x, \Delta y) ...(3) $$ 此外,可微性意味着误差项为距离的高阶无穷小 $o\left(\sqrt{(\Delta x)^2+(\Delta y)^2}\right)$ ,即 $\frac{\epsilon(\Delta x, \Delta y)}{\sqrt{(\Delta x)^2+(\Delta y)^2}} \rightarrow 0$ ,其中 $\sqrt{(\Delta x)^2+(\Delta y)^2}$ 表示点 $A\left(x_0, y_0\right)$ 和点 $\left(x_0+\Delta x, y_0+\Delta y\right)$(图中的蓝线)的距离。 这里不想看也没关系,这一步主要的目的就是想表达,用平面去近似的误差的非常小的。 接下来求 $a$ 和 $b$ 我们先考虑在 $x$ 方向变化对 $z$ 的影响,我们首先设 $\Delta y=0$ ,只考虑 $x$ 方向的变化,而 $\Delta z$ 有两种表示方式,分别是(1)和(3),因此变化率 $\frac{\Delta z}{\Delta x}$ : $$ \begin{aligned} \left.\frac{\Delta z}{\Delta x}\right|_{\Delta y=0}=\left.\frac{(1)}{\Delta x}\right|_{\Delta y=0} & =\left.\frac{(3)}{\Delta x}\right|_{\Delta y=0} \\ =\frac{f\left(x_0+\Delta x, y_0\right)-f\left(x_0, y_0\right)}{\Delta x} & =\frac{a \Delta x+\epsilon(\Delta x, 0)}{\Delta x} \end{aligned} $$ 让 $\Delta x \rightarrow 0$ ,方程的左侧变为: $$ \lim _{\Delta x \rightarrow 0} \frac{f\left(x_0+\Delta x, y_0\right)-f\left(x_0, y_0\right)}{\Delta x}=\frac{\partial f}{\partial x} $$ 这正是函数 $f$ 在点 $A\left(x_0, y_0\right)$ 处关于 $x$ 的偏导数定义,因此可以解出:$a=\frac{\partial f}{\partial x}$ , 同理对于 $b: b=\frac{\partial f}{\partial y}$ . 现在我们可以将线性近似(3)重写为: $$ \Delta z=\frac{\partial f}{\partial x} \Delta x+\frac{\partial f}{\partial y} \Delta y+\epsilon(\Delta x, \Delta y) $$ ## 方向导数和增长最快的方向 最后我们可以开始讨论如何找到增长最快的方向。假设我们想找到函数 $f(x, y)$ 在单位向量 $v =\left(v_x, v_y\right)$ 方向上的变化率。我们从点 $\left(x_0, y_0\right)$ 出发,沿向量 $
其他版本
【高等数学】梯度
免费注册看余下 50%
非VIP会员每天15篇文章,开通VIP 无限制查看
上一篇:
怎样理解函数的间断点?
下一篇:
拉格朗日乘子法,为什么可以求极值?
本文对您是否有用?
有用
(
0
)
无用
(
0
)
更多
学习首页
数学试卷
同步训练
投稿
题库下载
会议预约系统
数学公式
关于
科数网是专业专业的数学网站 版权所有 本站部分教程采用AI辅助生成,请学习时自行鉴别
如果页面无法显示请联系 18155261033 或 983506039@qq.com