Skip to content

Latest commit

 

History

History
18 lines (12 loc) · 1.12 KB

机器学习.md

File metadata and controls

18 lines (12 loc) · 1.12 KB

没有免费午餐定理

如果不对特征空间的先验分布有假设,那么所有算法的表现都是一样的。没有放之四海而皆准的最好算法

先验概率(prior probability):指根据以往经验和分析。在实验或采样前就可以得到的概率。

后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率。

可以看出,先验概率就是事先可估计的概率分布,而后验概率类似贝叶斯公式“由果溯因”的思想。

因此,所有的机器学习算法都有如下假设: 在特征空间上距离接近的样本,它们属于同一类别的概率会更高

机器学习的本质

机器学习的本质是通过有限的已知数据,在复杂的高维特征空间中预测未知的样本

然而实际上并不知道未知样本的性质,因此再好的算法也有犯错的风险

稀疏数据

在数据集中绝大多数特征缺失或者为零的数据。这样的数据集中数据的不一致通常由维度的不一致来进行区分,而不是同一维度程度的不同来区分