Notes/机器学习.md at master · aopstudio/Notes · GitHub

没有免费午餐定理

如果不对特征空间的先验分布有假设，那么所有算法的表现都是一样的。没有放之四海而皆准的最好算法

先验概率（prior probability）：指根据以往经验和分析。在实验或采样前就可以得到的概率。

后验概率（posterior probability）：指某件事已经发生，想要计算这件事发生的原因是由某个因素引起的概率。

可以看出，先验概率就是事先可估计的概率分布，而后验概率类似贝叶斯公式“由果溯因”的思想。

因此，所有的机器学习算法都有如下假设： 在特征空间上距离接近的样本，它们属于同一类别的概率会更高

机器学习的本质

机器学习的本质是通过有限的已知数据，在复杂的高维特征空间中预测未知的样本

然而实际上并不知道未知样本的性质，因此再好的算法也有犯错的风险

稀疏数据

在数据集中绝大多数特征缺失或者为零的数据。这样的数据集中数据的不一致通常由维度的不一致来进行区分，而不是同一维度程度的不同来区分