监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
监督学习是及其重要的统计学习分支,也是统计学习中内容最丰富,应用最广泛的部分,本文主要讲述
监督学习的基本概念
- 输入空间,特征空间,输出空间
- 输入空间:输入所有可能的取值的集合
- 特征空间:每个具体的输入是一个实例,通常由特征向量(feature vector)表示,这时,所有特征向量存在的空间称之为特征空间(feature space)
- 特征空间的每一纬对应与一个特征
- 输出空间:输出所有可能的取值的集合
- 输入空间与输出空间的关系
- 输入与输出空间可以是有限元素的集合,也可以是整个欧式空间
- 输入与输出空间可以是同一空间,也可以是不同的空间
- 通常输出空间远远小于输入空间
- 输入空间与特征空间
- 有时假设输入空间与特征空间为相同空间
- 有时假设输入空间与特征空间为不同的空间,将实例(输入)映射到特征空间。
- 模型实际上都是定义在特征空间上的
- 输入实例\(x\)的特征向量记作$$x=(x^{(1)},x^{(2)},\dots,x^{(i)},\dots,x^{(n)})^T$$
- 训练数据由输入(或特征向量)与输出对组成,训练集通常表示为$$\mathbf{T}={(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)}$$
- 测试数据也由输入(或特征向量)与输出对组成,又称之为样本或者样本点
- 输入变量\(X\)和输出变量\(Y\)可以有不同的类型(连续或者是离散的),人们习惯根据输入变量和输出变量的类型定义以下几种预测任务类型
- 回归问题:输入变量和输出变量均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测任务
- 标注问题:输入变量与输出变量均为变量序列的预测问题
- 联合概率分布
- 监督学习假设输入与输出的随机变量\(X\)和\(Y\)遵循联合概率分布\(P(X,Y)\),\(P(X,Y)\)表示分布函数,或者分布密度函数。
- 在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。
- 训练集数据与测试集数据被看做是依联合改了分布\(P(X,Y)\)独立同分布产生的。
- 统计学习假设数据存在一定的统计规律,\(X\)和\(Y\)遵循联合概率分布\(P(X,Y)\)就是监督学习关于数据的基本假设
- 假设空间
- 假设空间是指输入空间到输出空间的映射的集合。
- 假设空间的设定代表学习范围的确定。
问题的形式化
- 在学习过程中,学习系统利用给定的训练集数据,通过学习,训练得到一个模型,表示为条件概率分布\(\widehat{P}(Y|X)\)或决策函数\(Y=\widehat{f}(X)\)
- 条件概率分布\(\widehat{P}(Y|X)\)或决策函数\(Y=\widehat{f}(X)\)描述输入与输出随机变量之间的映射关系
注:
- 本文多参考自《统计学习方法》,李航著,偏于个人学习笔记的整理。