From 7c8137437836b784d3d5bb6efe036f70e1a9ea55 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=98=BF=E6=8B=89=E5=87=A1?= <78416589+Alafun@users.noreply.github.com> Date: Sun, 27 Feb 2022 01:07:20 +0800 Subject: [PATCH] =?UTF-8?q?Update=20=E5=91=A8=E5=BF=97=E5=8D=8E=E3=80=8AMa?= =?UTF-8?q?chine=20Learning=E3=80=8B=E5=AD=A6=E4=B9=A0=E7=AC=94=E8=AE=B0(1?= =?UTF-8?q?4)--=E8=AE=A1=E7=AE=97=E5=AD=A6=E4=B9=A0=E7=90=86=E8=AE=BA.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...246\344\271\240\347\220\206\350\256\272.md" | 18 +++++++++--------- 1 file changed, 9 insertions(+), 9 deletions(-) diff --git "a/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(14)--\350\256\241\347\256\227\345\255\246\344\271\240\347\220\206\350\256\272.md" "b/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(14)--\350\256\241\347\256\227\345\255\246\344\271\240\347\220\206\350\256\272.md" index 1d69e59..9e89cb4 100644 --- "a/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(14)--\350\256\241\347\256\227\345\255\246\344\271\240\347\220\206\350\256\272.md" +++ "b/\345\221\250\345\277\227\345\215\216\343\200\212Machine Learning\343\200\213\345\255\246\344\271\240\347\254\224\350\256\260(14)--\350\256\241\347\256\227\345\255\246\344\271\240\347\220\206\350\256\272.md" @@ -1,6 +1,6 @@ 上篇主要介绍了常用的特征选择方法及稀疏学习。首先从相关/无关特征出发引出了特征选择的基本概念,接着分别介绍了子集搜索与评价、过滤式、包裹式以及嵌入式四种类型的特征选择方法。子集搜索与评价使用的是一种优中生优的贪婪算法,即每次从候选特征子集中选出最优子集;过滤式方法计算一个相关统计量来评判特征的重要程度;包裹式方法将学习器作为特征选择的评价准则;嵌入式方法则是通过L1正则项将特征选择融入到学习器参数优化的过程中。最后介绍了稀疏表示与压缩感知的核心思想:稀疏表示利用稀疏矩阵的优良性质,试图通过某种方法找到原始稠密矩阵的合适稀疏表示;压缩感知则试图利用可稀疏表示的欠采样信息来恢复全部信息。本篇将讨论一种为机器学习提供理论保证的学习方法--计算学习理论。 -#**13、计算学习理论** +# **13、计算学习理论** 计算学习理论(computational learning theory)是通过“计算”来研究机器学习的理论,简而言之,其目的是分析学习任务的本质,例如:**在什么条件下可进行有效的学习,需要多少训练样本能获得较好的精度等,从而为机器学习算法提供理论保证**。 @@ -10,13 +10,13 @@ ![1.png](https://i.loli.net/2018/10/18/5bc854f38d4fe.png) -##**13.1 PAC学习** +## **13.1 PAC学习** 在高中课本中,我们将**函数定义为:从自变量到因变量的一种映射;对于机器学习算法,学习器也正是为了寻找合适的映射规则**,即如何从条件属性得到目标属性。从样本空间到标记空间存在着很多的映射,我们将每个映射称之为**概念**(concept),定义: -> 若概念c对任何样本x满足c(x)=y,则称c为**目标概念**,即最理想的映射,所有的目标概念构成的集合称为**“概念类”**; -> 给定学习算法,它所有可能映射/概念的集合称为**“假设空间”**,其中单个的概念称为**“假设”**(hypothesis); +> 若概念c对任何样本x满足c(x)=y,则称c为**目标概念**,即最理想的映射,所有的目标概念构成的集合称为 **“概念类”**; +> 给定学习算法,它所有可能映射/概念的集合称为 **“假设空间”** ,其中单个的概念称为 **“假设”**(hypothesis); > 若一个算法的假设空间包含目标概念,则称该数据集对该算法是**可分**(separable)的,亦称**一致**(consistent)的; > 若一个算法的假设空间不包含目标概念,则称该数据集对该算法是**不可分**(non-separable)的,或称**不一致**(non-consistent)的。 @@ -34,9 +34,9 @@ 显然,PAC学习中的一个关键因素就是**假设空间的复杂度**,对于某个学习算法,**若假设空间越大,则其中包含目标概念的可能性也越大,但同时找到某个具体概念的难度也越大**,一般假设空间分为有限假设空间与无限假设空间。 -##**13.2 有限假设空间** +## **13.2 有限假设空间** -###**13.2.1 可分情形** +### **13.2.1 可分情形** 可分或一致的情形指的是:**目标概念包含在算法的假设空间中**。对于目标概念,在训练集D中的经验误差一定为0,因此首先我们可以想到的是:不断地剔除那些出现预测错误的假设,直到找到经验误差为0的假设即为目标概念。但**由于样本集有限,可能会出现多个假设在D上的经验误差都为0,因此问题转化为:需要多大规模的数据集D才能让学习算法以置信度的概率从这些经验误差都为0的假设中找到目标概念的有效近似**。 @@ -44,7 +44,7 @@ 通过上式可以得知:**对于可分情形的有限假设空间,目标概念都是PAC可学习的,即当样本数量满足上述条件之后,在与训练集一致的假设中总是可以在1-σ概率下找到目标概念的有效近似。** -###**13.2.2 不可分情形** +### **13.2.2 不可分情形** 不可分或不一致的情形指的是:**目标概念不存在于假设空间中**,这时我们就不能像可分情形时那样从假设空间中寻找目标概念的近似。但**当假设空间给定时,必然存一个假设的泛化误差最小,若能找出此假设的有效近似也不失为一个好的目标,这便是不可知学习(agnostic learning)的来源。** @@ -63,7 +63,7 @@ ![10.png](https://i.loli.net/2018/10/18/5bc854f440a02.png) -##**13.3 VC维** +## **13.3 VC维** 现实中的学习任务通常都是无限假设空间,例如d维实数域空间中所有的超平面等,因此要对此种情形进行可学习研究,需要度量**假设空间的复杂度**。这便是**VC维**(Vapnik-Chervonenkis dimension)的来源。在介绍VC维之前,需要引入两个概念: @@ -92,7 +92,7 @@ 上式给出了基于VC维的泛化误差界,同时也可以计算出满足条件需要的样本数(样本复杂度)。若学习算法满足**经验风险最小化原则(ERM)**,即学习算法的输出假设h在数据集D上的经验误差最小,可证明:**任何VC维有限的假设空间都是(不可知)PAC可学习的,换而言之:若假设空间的最小泛化误差为0即目标概念包含在假设空间中,则是PAC可学习,若最小泛化误差不为0,则称为不可知PAC可学习。** -##**13.4 稳定性** +## **13.4 稳定性** 稳定性考察的是当算法的输入发生变化时,输出是否会随之发生较大的变化,输入的数据集D有以下两种变化: