应聘机器学习工程师必知的8个基础面试题(下)
极客时间编辑部
讲述:丁婵大小:5.32M时长:03:52
在上一篇文章中,我们分享了公众号“机器之心”编译的 4 个机器学习相关岗位的基础面试题,本文继续分享另外四道题,具体如下。
问题一:当学习率过高或过低时会怎样?
当模型的学习率过低时,模型的训练速度会变得非常慢,因为其每次对权重的更新会变得非常小,模型将需要大量更新才能到达局部最优点。
如果学习率过高,模型很可能无法收敛,因为权重的更新过大。在加权的步骤中,模型有可能无法实现局部优化,然后使模型难以更新到最优点(因为每步更新都跳得过远,导致模型在局部最优点附近摇摆)。
问题二:当输入图像的尺寸加倍时,CNN 参数的数量会增加多少倍?为什么?
对于参加面试的人来说,这个问题很有误导性,因为大部分人思考这个问题的方向都是 CNN 的参数数量会增加多少倍。但是,CNN 模型的参数数量取决于过滤器的数量和大小,而非输入图像。因此,将输入图像的尺寸加倍不会改变模型的参数数量。
问题三:处理数据不平衡问题的方法有哪些?
这个问题检验的是面试者是否知道处理真实数据问题的方法。通常,实际数据和样本数据(无需调整的标准数据集)在性质和数据量上都有很大的不同。使用真实数据集时,数据有可能是不平衡的,也就是说不同类别的数据不平衡。针对这个问题,你可以考虑使用以下方法:
为模型的评估选择适当的指标:当使用的数据集不平衡时,使用准确度来进行评估是不合适的,而应该选择精确度、召回率、F1 分数、AUC 等评估指标。
对训练数据集进行重新采样:除了使用不同的评估指标外,你还可以通过某些技术来获得不同的数据集。基于不平衡的数据集创建平衡的数据集的方法有两种,即欠采样和过采样,具体技术包括重复、自举或合成少数过采样技术。
集成多个不同模型:通过创建更多数据来实现模型的通用性在实践中是不可取的。举个例子,假设你有两个类别:有 1000 个数据样本的罕见类别和有 10000 个数据样本的常见类别。你可以不用为罕见类别寻找 9000 个数据样本来进行模型训练,而是采用一种 10 个模型的训练方案。其中每个模型都使用 1000 个罕见数据样本和 1000 个常见数据样本进行训练。然后使用集成技术得到最佳结果。
重新设计模型——成本函数:在成本函数中使用惩罚技术来严厉惩罚数据丰富的类别,以帮助模型自身更好地学习罕见类别的数据。这能使损失函数的值更全面地覆盖所有类别。
问题四:数据生成器的概念是什么?使用数据生成器需要什么?
生成函数在编程中也非常重要,数据生成函数可以帮助你在每个训练 batch 中生成能直接拟合模型的数据。
使用生成函数在训练大数据时很有帮助。因此数据集并不是需要全部都载入 RAM,这是浪费内存。此外,如果数据集过大,还可能导致内存溢出,输入数据的处理时间也会变得更长。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 小斧假如有正序有倒序功能就好了,我想把全部的都听一遍。😄
- 果珍冰很有用
收起评论