没有深度学习的内容
泛化能力相关理论
——机器学习的理论根基
泛化误差与经验误差的关系
首先介绍 Hoeffding 不等式: 对服从同一伯努利分布 的个独立变量 有,其中。
也就是说对于投篮命中率号称 的选手,我们只要让他多投几次,就知道他到底几斤几两。
下面考虑机器学习的一般情景,也就是有监督学习:
即有服从某种神秘分布 的输入输出对,或者说特征和目标值,也就是。
我们想要拥有这种能力:在给某输入 时准确预测对应的输出 。
我们手边有这么一个观察到的集合 ,也就是训练集,这里不妨假设观察到的各实例间是相互独立的。
也许是经验,也许是调参,也许是有人不放弃,我们会选择一种模型 ,其中 是模型的可训练参数。这时输入 , 输出。
注意不同的参数对应着不同的模型实例,所有这些模型实例构成一个集合:模型空间 。
本小节主角登场:
经验误差 也称训练误差 , 它描述了模型对训练集的拟合程度。
泛化误差 ,它描述了对真实分布 的拟合程度。
很显然我们的目标是最小化泛化误差,可是并没有办法。( 是未知的)
实际上我们通常采用经验风险最小化 的策略,也就是说选择 。而不是 。
换句话说,虽然是 是我们能力的上限,但是 才是我们实际的表现。
由此引出两个重要的概念:
偏差 : ,那个神秘的最强王者。我们唯一可以确定的是他来自 。由此可以得到推论:模型空间越大(更准确的说是表达能力越强),偏差越小 (与中国最强射手不会比上海最强射手弱一个道理)。
方差 : 虽强,可我们用的是 , 很自然地, 我们转而关心 和 的关系:我们离我们能力的上限有多远?
下面来回答这个问题。
令 ,代入 Hoeffding 不等式中得到:
由下面的推导
稍加变化,得到结论
故存在至少 的概率有
即
就是方差,这个公式揭示了方差和偏差的矛盾关系。
有关泛化误差的许多结论都可以从这个公式中看出来,就不多说了。
偏差和方差的另一种解释
上面的推导能有效地对单一模型(在确定的模型空间 进行一次搜索得到 )的泛化能力进行解释。
我们还可以从另一个角度定义偏差和方差,对模型的泛化能力作出解释。
假设存在某未知函数 , 观测到训练集 ,现要寻找拟合 的一个函数 。
我们用均方差来衡量 的拟合程度:
有如下推导
其中的 noise 是函数 f 本身的性质,可以看作一个常量;variance 和 bias 即方差和偏差,可以看出: 越复杂,方差越大,同时由于可以对训练数据的刻画更细致,偏差减小。
一些理论坚实的模型