作者回复: 👍🏻👍🏻👍🏻^^,厉害。
作者回复: 你好,clee,感谢你的留言。 先恭喜你坚持到这了^^。在14节课里会把前面的知识串起来,讲讲如何自己构建一个模型,然后训练它。 在后续的实战篇里,会讲解在工业中一些CV与NLP的应用,在实战篇里都能看到这些理论知识的影子。
作者回复: hello, 其实这跟Andrew Ng大神的说法不冲突的,咱们在这里讨论的是一种相对简单(特征没有那么多)的情况,形象化的比喻的话,还是下山的问题,高维数据相当于不是一座山,而是一片片山脉,模型在寻找最优的过程中因为步长的原因,极大概率就会进入到局部最优。这也就是为什么有时候会加入一个momentum的原因,让模型再冲出去到别的山谷试试。
作者回复: hello。 batch size太小的话,那么每个batch之间的差异就会很大,迭代的时候梯度震荡就会严重,不利于收敛。 batch size越大,那么batch之间的差异越小,梯度震荡小,利于模型收敛。 但是凡事有个限度,如果batch size太大了,训练过程就会一直沿着一个方向走,从而陷入局部最优。 这也就是为什么我们要不断的尝试一个相对合理的mini batch
作者回复: ^^,👍🏻👍🏻。是的,除此之外,较大的batch_size容易使模型收敛在局部最优点,特别小则容易受噪声影响。
作者回复: 你好,tom,谢谢你的留言。 是的,batch size太大显存会爆掉。 除此之外,较大的batch_size容易使模型收敛在局部最优点,特别小则容易受噪声影响。^^
作者回复: hello,你好。谢谢你的留言。 1. 随机梯度下降是每个样本计算之后都要更新模型参数,批量梯度则是一个batch之后再更新模型参数。2. 有区别的,建议采用批量梯度
作者回复: 你好,IUniverse,谢谢你的留言。 是的, 除此之外,较大的batch_size容易使模型收敛在局部最优点,特别小则容易受噪声影响。^^