PyTorch入门学习：3-Gradient Descent

Gradient Descent

1 Introduction

穷举法局限性
分治法：区间内均分点，找到最优后，再在最优点的邻域内继续搜索。易陷入局部最优解

2 Gradient Descent

在点的梯度方向上取反，即可得到损失下降的方向。 alt text

同样难以解决非凸函数局部最优的问题
同时还存在鞍点的问题

3 Application

alt text 如图，损失函数的值随着迭代次数的增加而减小，并最终收敛到一个最小值点。

在实际场景中，可能遇到更复杂的情况，这时常用指数平均的方法来绘制图像。
若是损失函数先下降，再上升，那么常常可能是因为学习率上升。

4 Stochastic Gradient Descent 随机梯度下降

区别在于从所有样本中随机选择一个样本，计算其梯度，然后更新参数。 alt text

引入了噪声，能够解决鞍点问题。
难以进行并行运算
折中方案：batch 批量随机梯度下降（Mini-batch简写）

学习笔记 > 人工智能 > PyTorch

#Pytorch #AI #Deep learning

PyTorch入门学习：3-Gradient Descent

https://eleco.top/2026/02/24/learn-torch-3-Gradient-Descent-md/

作者

Eleco

发布于

2026年2月24日

许可协议

PyTorch入门学习：4-Back Propagation 上一篇

PyTorch入门学习：2-Linear Model 下一篇