监督学习-统计学习三要素

监督学习-统计学习三要素

统计学习方法的不同主要来自其模型,策略,算法的不同。确定了模型,策略,算法,统计学习的方法也就确定了。这就是将模型,策略,算法称之为统计学习三要素的原因。

统计学习三要素

$$统计学习方法=模型+策略+算法$$

  • 模型
    • 在监督学习中,模型就是所要学习的条件概率分布或决策函数。
    • 模型的假设空间包含所有可能的条件概率分布或决策函数。
    • 假设空间中的模型一般有无穷多个
      • 假设空间可以定义为决策函数的集合:$$\mathbf{F}=\{f|Y=f(X)\}$$\(X\)与\(Y\)是定义在输入空间\(X\)和输出空间\(Y\)的随机变量,这时\(F\)通常是由一个参数向量决定的函数族:$$\mathbf{F}=\{f|Y=f_{\theta}(X),\theta\in\mathbf{R}^n\}$$参数向量\(\theta\)取值于\(n\)维度欧式空间\(\mathbf{R}^n\),称为参数空间
      • 假设空间也可以定义为条件概率的集合:$$\mathbf{F}=\{P|P(Y|X)\}$$\(X\)与\(Y\)是定义在输入空间\(X\)和输出空间\(Y\)的随机变量,这时\(F\)通常是由一个参数向量决定的条件概率分布族:$$\mathbf{F}=\{P|P_{\theta}(Y|X),\theta\in\mathbf{R}^n\}$$参数向量\(\theta\)取值于\(n\)维度欧式空间\(\mathbf{R}^n\),也称为参数空间
    • 通常称由决策函数表示的模型为非概率模型条件概率表示的模型为概率模型
  • 策略
    • 有了模型的假设空间之后,接下来考虑按照什么样的准则学习或者选择最优的模型。
    • 损失函数(loss function)也叫代价函数(cost function):损失函数/代价函数度量模型一次预测的好坏,损失函数是\(f(X)\)和\(Y\)的非负实值函数,记作\(L(Y,f(X))\),损失函数值越小,模型就越好
      • 统计学习常用的损失函数有以下几种:
        • 0-1损失函数(0-1 loss function)$$L(Y,f(X))=
          \begin{cases}
          1, & Y \ne f(X) \\
          0, & Y = f(X)
          \end{cases}$$
        • 平方损失函数$$L(Y,f(X))=(Y-f(X))^2$$
        • 绝对损失函数$$L(Y,f(X))=|Y-f(X)|$$
        • 对数损失函数/对数似然损失函数$$L(Y,P(Y|X))=-\log{P(Y|X)}$$
    • 风险函数(risk function)或者期望损失(Expected loss):风险函数度量平均意义下模型预测的好坏,也就是损失函数的期望$$\mathbf{R}_{exp}(f)=E_p[L(Y,f(X))]=\int_{x*y}L(y,f(x))P(x,y)dxdy$$由于并不知道\(P(X,Y)\),所以\(R_{exp}\)并不能直接进行计算
    • 经验风险(empirical risk)或者经验损失(empirical loss):
      • 给定一个训练数据集$$T=\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}$$模型\(f(X)\)关于训练数据集的平均损失称为经验损失,记作$$R_{emp}=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))$$
    • 期望风险与经验风险的区别为
      • 期望风险\(R_{exp}(f)\)是模型关于联合分布的期望损失
      • 经验风险\(R_{emp}(f)\)是模型关于训练数据集的期望损失
      • 根据大数定律,当样本容量\(N\)趋于无穷的时候,经验风险\(R_{emp}(f)\)趋于期望风险\(R_{exp}(f)\),但是现实情况下,使用经验风险估计期望风险常常并不理想,所以要对经验风险进行矫正,这关系到两个策略:经验风险最小化和结构风险最小化
    • 经验风险最小化(empirical risk minimization ERM)
      • 在假设空间,损失函数,训练数据集确定的情况下,经验风险函数式是可以确定的,经验风险最小化(ERM)认为经验风险最小化的模型为最优模型。$$\mathop{\min}\limits_{f\in\mathbf{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))$$\(\mathbf{F}\)为假设空间
      • 经验风险最小化在样本容量足够大的时候,有比较好的学习效果,比如:
        • 极大似然估计(maximum likelihood estimation),当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计
      • 经验风险最小化在样本容量很小的时候,学习效果未必好,会产生”过拟合(over-fitting)”现象
    • 结构风险最小化(structural risk minimization SRM)
      • 结构风险最小化是为了防止过拟合而提出来的策略
      • 结构风险最小化等同于正则化(regularization)
      • 结构风险在经验风险上加上模型复杂度的正则化项或罚项,在假设空间,损失函数,以及训练数据集确定的情况下,结构风险的定义为$$R_{srm}(f)=\frac{1}{N}\sum_{i=1}{N}L(y_i,f(x_i))+\lambda J(f)$$\(J(f)\)为模型的复杂度,是定义在假设空间的泛函
        • 模型\(f\)越复杂,复杂度\(J(f)\)越大
        • 模型\(f\)越简单,复杂度\(J(f)\)越小
        • \(\lambda \geq 0\)是系数,用来权衡经验风险和模型复杂度。
        • 结构风险小需要经验风险与模型复杂度同时小
        • 结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测
      • 结构风险最小化例子
        • 贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计
      • 结构风险最小化的策略认为结构风险最小的模型是最优的模型,所以最优的模型的求解为$$\mathop{\min}\limits_{f\in\mathbf{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$$
  • 算法
    • 主要是指学习模型的具体计算方法,统计学习模型可以利用已有的最优化算法,有时也需要开发独自的最优化算法。

注:

  1. 本文多参考自《统计学习方法》,李航著,偏于个人学习笔记的整理。
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×