学习笔记:神经网络的优化策略

贺叶霜的树 at 
本文基本上是 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization 的知识点大纲。具体的公式和理论,可以看 Bin Weber 的博客。训练/开发/测试集(Train/dev/test)数据量 10000 之内:70/30(免去 dev)或 60/20/20 更多数据:保证 dev/test 足够(~10000)即可过拟合引入更多训练样本正则化(Normalization1)目的:减小||W|| ←此时熵最大,可能性最高 L2 正则化:在 cost function 上附加一……