问题集: https://zhuanlan.zhihu.com/p/29936999
回答及对应英文页标:https://zhuanlan.zhihu.com/p/29965072
原文是问题 “那些深度学习《面试》你可能需要知道的” 的回答,答案均以英文版Deep Learning页标标记。
本文是以中文纸质版Deep Learning页标标记,加入了少量说明。
答:p24-p25 ;还有 p141-p156 有 regularization 的应用
答:p35
答:p43:3.10 上面那一段
答:sigmoid 和 softplus 在 p43 页;全部的在 p123-p127
答:p56-p62
答:p46
答:p52-p53
答:p53;
答:p56-p62
答:p60-p61
答:p70;p71;p72
答:p73
答:p40
答:p84
答: p87
答:p92
答:p97 维度灾难
答:p119-122
答:p98
答:p185
答:p123
答:p125
答:p140
答:p3
答:p142
答:p142
答:p142-144
答:p144
答:p147 页底 Chapter 7.3
答:p149-p150 Chapter 7.5-7.6
答:多任务学习 p151;p156 Chapter 7.7; 7.9
答:p159-p165 Chapter 7.12
答:p170 Chapter 8.1.3
答:p173-p178 Chapter 8.2.1
答:p180;p181-p184 Chapter 8.3
;
答:初始化权重:p184; Chapter 8.4
偏置初始化:p186页底 Chapter 8.4
答:AdaGrad:p187;
RMSProp:p188;
Adam:p189 Chapter 8.5.1-3
答:牛顿法:p190 Chapter 8.6.1
;
共轭梯度: p191-p193; Chapter 8.6.2
BFGS:p193-p194 Chapter 8.6.3
答:p195 Chapter 8.7.1
答:平移等变性:p205页底; Chapter 9.3
常见的一些卷积形式:p211-p218 Chapter 9.5
答:p207; p210 Chapter 9.3-4
答:p230-p238 Chapter 10.2
答:seq2seq:p240-p241; Chapter 10.4
gru:p250; Chapter 10.10.2
lstm:p248 Chapter 10.10.1
答:p286 第一段 Chapter 12.4.3
答:线性因子模型可以扩展到自编码器和深度概率模型: p304-p305; Chapter 13.5
PCA:p298; Chapter 13.1
ICA:p298 Chapter 13.2
答:意义: p306 Chapter 14.1
常见变形: p306-p313 Chapter 14.5
应用: p319 Chapter 14.9
答:p400: 想特别了解的人注意这句话: See Mohamed et al. (2012b) for an analysis of reasons for the success of these models. Chapter 20.2
答:p362 Chapter 17.3
答:p365 Chapter 17.4
答:p368 Chapter 17.5.2
“遇到难以处理的无向图模型中的配分函数时, 蒙特卡洛方法仍是最主要工具”
答:P82/85/87 Chapter 5.5
答:p329-p332 Chapter 15.3
答:p219-220 Chapter 9.7
答:p272-p293 Chapter 12.1-5
答:How is GloVe different from word2vec?;
GloVe 以及 Word2vec 能称为 deep learning 么?这俩模型的层次其实很浅的;
这个问题没找到答案,我去找了 quora 和知乎上的相关问题以及 quora 一个回答提及的论文。 (若有人在书中找到,请批评指正)
答:p288 Chapter 12.4.5.1
答:https://arxiv.org/pdf/1606.07792.pdf#### 此问题答案未在书中找到,为此我去找了原论文,论文图 1 有详细的介绍。 (若有人在书中找到,请批评指正)
答:p89 Chapter 5.7.2
答:p248 Chapter 10.10
答:p143-159; Chapter 7.1-12
包括:Parameter Norm Penalties(参数范数惩罚); Dataset Augmentation (数据集增强); Early Stopping(提前终止); Parameter Tying and Parameter Sharing (参数绑定与参数共享); Bagging and Other Ensemble Methods(Bagging 和其他集成方法);Dropout. 另外还有 Batch Normalization。
答:关于非参数模型:p72 ; Chapter 5.2
非参数模型不依赖于特定的概率模型,它的参数是无穷维的,数据集的规模的大小影响着模型使用更多或者更少的参数来对其进行建模。(并未在书中找到准确的答案,若有更好的回答,请联系我改正)
本答案是根据问题在_Deep Learning_上找到的答案;有些答案只是自己读书后在书上做的笔记的具体页面,毕竟原 po(http://t.cn/RObdPGk) 说还有另外一本书,所以该答案可能不是特别准确也不完善,答案也是给大家做个参考,若发现答案有问题,请联系我并指正,大家共同进步,谢谢!