machine-learning-foundations-5

Abstract: 机器学习基石(林轩田)第五讲,训练与测试(Training versus Testing)

  1. 前期回顾
    学习可以归结为以下两个问题:

    • 是否能够保证 ${E}_{out}(g) \approx {E}_{in}(g)$ ?
    • 是否能够保证 ${E}_{in}(g)$ 足够小 ?

    训练与测试对应的阶段如下:
    $$
    {E}_{out}(g) \underbrace{\approx}_{test} {E}_{in}(g) \underbrace{\approx}_{train} 0
    $$
    前面已知的结论是:
    $$
    \mathbb{P}[|{E}_{in}(g)-{E}_{out}(g)|>\epsilon] \leq 2·M·exp(-2{\epsilon}^{2}N)
    $$
    Trade-off on M

    • small M:
      可以满足学习的第一个条件,不满足第二个条件(假设空间太小,选择太少)
    • large M:
      可以满足学习的第二个条件,不满足第一个条件(假设空间太大,很差的假设变多,可能选到很差的假设)
      因此,选择合适的M值 ${m}_{\mathcal{H}}$ 以达到折中的效果很重要的。
  2. 二维平面上的二分类直线情形的有效数量

    union bound等号成立的条件是所有的 ${\mathcal{B}}_{m}$ 不重叠,实际很多情况下会有重叠部分,所以说按照原来的计算,union bound是被overestimated。
    按照类别将假设空间划分为不重叠的区域,得到的有效假设的数量相比原来的union bound将减小。对于使用直线对二维平面上的点进行二分类的例子:

  3. 假设的有效数量
    Dichotomy代表一种二分类的形式,使用dichotomy来描述直线的假设空间,能够得到假设数量最小的假设空间。那么相应的数量就从无穷多变成以 $2^N$ 为上限。

    通过引入增长函数(growth function),代表所有情形下可能的最大的假设空间数量,从而排除了假设空间数量对于问题具体情形的依赖(比如平面上三点共线和不共线时对应的二分情形)。
    (1) Growth Function for Positive Rays

    (2) Growth Function for Positive Intervals

    (3) Growth Function for Convex Sets
    每一种二分都能通过凸集实现,因此可以称这N个输入被凸集假设打散

  4. 转折点(Break Point)

    要研究2D或者更普遍的perceptron的 ${m}_{\mathcal{H}}(N)$ 是否为多项式形式,需要先引入break point。

    通过下图的归纳,似乎可以得到growth function与break point的关系呈多项式形态?疑问待后面解开。