统计学习方法概述
一 统计学习方法概述
统计学习对象:
数据-->数据特征-->数据模型-->知识-->预测
统计学习关于数据的假设:
具有一定统计规律性的同类数据。
统计学习目的:
对数据进行预测与分析,尤其是对未知新数据进行分析预测。通过构建概率统计模型实现。
统计学习方法:
监督学习,非监督学习,半监督学习,强化学习
监督学习:
从给定的,有限的,用于学习的训练数据集出发,假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数集合(假设空间)。应用某个评价准则,从假设空间中选取一个最优的模型,使他对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
监督学习主要包括:
分类,标注,回归问题。
统计学习学科重要性的体现:
处理海量数据的有效方法
计算机智能化的有效手段
计算机学科发展的一个重要组成部分。
二 监督学习
任务:学习一个模型,使模型(学习之后的模型)能够对任意给定的输入,对其相应的输出做出一个好的预测。
输入空间,特征空间与输出空间:输入输出所以可能的取值的集合称为输入空间,输出空间(可以是不同空间,输出小于输入)。每个具体的输入时一个实例,由特征向量表示。所有特征向量存在的空间称为特征空间(特征向量的每一维对应一个特征)。(有时假设输入空间就是特征空间,有时将实例从输入空间映射到特征空间)模型定义在特征空间上。
监督学习分类:输入输出均为连续变量的预测问题为回归问题
输出变量为有限个离散变量的预测问题称为分类
输入变量与输出变量均为变量序列的预测问题称为标注。
联合概率密度:监督学习假设输入与输出的随机变量遵循联合概率分布P(X,Y).
假设空间:监督学习的目的在于学习一个由输入到输出的映射(由模型来表示)
学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合(假设空间,即学习的范围)
监督学习的模型可以是概率模型或非概率模型,由条件概率分布p(y|x)或决策函数Y=f(X).
三 统计学习三要素
统计学习方法都是由模型,策略和算法构成的:
方法=模型+策略+算法
即,每一种方法都有其特定的模型,策略以及算法(可以是多种)。
模型:统计学习首先要考虑的问题是学习什么样的模型,在监督学习中,模型就是所要学习的条件概率分布或者决策函数。P.s.假设决策函数是输入变量的线性函数,那么假设空间就是所有这些线性函数所构成的集合(一般为无穷多个)。
策略:按照什么样的准则学习或者选择最优模型。
引入损失函数和风险函数。
常用的损失函数:0-1损失函数,平方损失函数,绝对损失函数,对数损失函数或对数似然函数。
损失函数值越小,模型就越好。损失函数的期望值E(L(Y,F(X)))称为风险函数或期望损失。
学习目标就是选择期望风险最小的模型。
经验风险:模型关于数据集的平均损失SUM(L(Yi,F(Xi)))/N称为经验风险或经验损失。
根据大数定律,当样本N趋于无穷时,经验风险趋于期望风险。对经验风险进行矫正可以用来估计期望风险:矫正策略(1经验风险最小化(极大似然估计:适用于样本容量很大且模型是条件概率分布),2结构风险最小化(适用于小样本))。
监督学习问题就变成了经验风险或结构风险函数最优化问题。
算法:学习模型的具体计算方法。
训练数据集
-->
确定模型集合 ( 线性,多项式,对数,指数等)
-->
学习策略:
1 确定模型复杂度(如多项式最高次数)。
2根据样本大小:经验风险最小(大样本),结构风险最小化(小样本)
3 正则化(结构风险最小化的实现),交叉验证(样本不充足,目标:测试误差最小化)。
-->
选择计算方法求解最优模型(求解参数)
-->
最优模型,训练误差
-->
用于预测或者分析
-->
测试结果,测试误差。