作者回复: 2个隐藏层是考虑到识别任务的难度和数据量多少。 512是经验数值,也可以用 256或者128。大家在很多论文中看到对于这类超参数的选择,通常都是基于某个数据集上,根据性能表现最终选择了某个值。 相比 sigmoid 和 tanh,使用relu 激活函数计算速度更快,也是大家现在常用的激活函数。
作者回复: 对呀,横坐标为0时就是第1个epoch训练完的结果。 因为训练数据也有标签呀。
作者回复: 👍👍
作者回复: 因为在训练时,我们梯度下降的情况或许会有不同,所以不会输出完全一样的 loss 和 acc 哈。但是最终收敛的结果差距很小。
作者回复: 因为右边的结果是 (numpy.array)的形式,[0] 就可以取出 tuple 中的 numpy.array.
作者回复: 因为大部分学员建议用高层次 API。入门的话,Keras 更好上手,也是大部分AI用户的选择。TF 低层次 API 讲起来比较复杂,并且最近大量都 depreacated。等 2.0 出来了,可以基于 TensorFlow Eager 跟大家讲讲动态图