统计学习–01机器学习简介
一、分类
1.机器学习根据任务类型,可划分为:
监督学习:从已经标注的数据中来训练模型。主要分为:回归,分类、序列标注。
无监督学习:从未标记的数据中训练模型。主要分为聚类任务、降维任务。
半监督学习:用大量未标记的数据和少量标记的数据来训练模型。
强化学习:从系统和环境之间大量交互知识中训练模型。
2.机器学习根据算法类型,可以分为:
传统机器学习:基于数学模型的机器学习方法,包括逻辑回归、决策树、SVM等
深度学习:基于神经网络的机器学习方法,包括前馈神经网络、卷积神经网络、递归神经网络等。
二、基本概念
2.1.特征空间
特征向量表示每个具体的输入,所有的特征向量构成特征空间。
2.2.样本表示
x 表示输入实例,y表示真实的样本标签(标注的样本标签),y^是预测的一个值。
三、监督学习
3.1.监督学习
1.监督学习的数据是被人工打标签的。
2.监督学习假设输入x与标记y遵循联合概率分布P(x,y),训练数据和测试数据依联合概率分布p(x,y)独立同分布产生。
3.监督学习的目的在于学习一个由输入到输出到映射,该映射由模型表达。
4.监督学习的模型可以表达为概率模型或非概率模型:
概率模型由条件概率分布P(y|x)表示;
非概率模型由决策函数y = f(x) 来表示;
5.监督学习可以分为学习和预测两个过程:
学习过程:在给定的数据集上训练出一个概率模型P(y|x),或者决策函数y = f(x);
预测过程:对于概率模型,其预测值为: y^teset=argymaxp(y∣x); 对于非概率模型,其预测值为:y^test=f(xtest)
6.可以通过无监督学习来预测监督学习问题
首先求解无监督学习任务来学习联合概率分布p(x,y);
然后计算: p(y∣x)=∑y′p(x,y′)p(x,y)
3.2生成模型和判别模型
1.监督学习又分为生成方法和判别方法,分别对应的是生成模型和判别模型。
2.生成方法:主要是通过数据去学习联合概率分布p(x,y),然后求出p(y|x)作为预测的模型。 即生成模型:
p(y∣x)=p(x)p(x,y)
生成模型的主要方法有:朴素贝叶斯法、隐马尔可夫链。
3.判别方法:直接学习条件概率模型P(y|x)或者决策函数f(x);
主要的判别方法:逻辑回归、决策树。
四、机器学习三要素
模型、策略、算法。
4.1.模型
1.模型定义了解空间。监督学习中,模型就是要学习的条件概率模型或者决策函数。
4.2策略
4.2.1损失函数:
L(y,y^) 又被称为代价函数。下面是我们常用的一些损失函数:
0-1损失函数:L(y,y^)={0,if y==y^1,if y=y^平方损失函数(MSE): L(y,y^)=(y−y^)2绝对损失函数(MAE):L(y,y^)=∣y−y^∣对数损失函数:L(y,y^)=−logp(y∣x)
4.2.2风险函数
1.考虑到我们的输入是随机变量,所以我们评估模型的时候我们定义风险函数为损失函数的期望:
Rexp=EP[L(y,y^)]=∫X∗YL(y,y^)p(x,y)dxdy(X∗Y是代表输入空间和输出空间)
2.学习的目标是选择风险函数最小的模型。
3.求风险函数的困难在p(x,y)是未知的。
4.2.3经验风险
1.也叫经验损失。
Remp=N1i=1∑NL(yi,y^i)经验风险最小化策略认为:经验风险最小的模型就是最优的模型,即:f∈FminN1i=1∑NL(yi,f^(xi))
2.根据大数定律,我们知道当N−>∞的时候,Remp−>Rexp 。但是我们的样本数量有限,所以需要对经验风险进行矫正。
3.结构风险,是在经验风险上叠加表示模型复杂度对正则化项(罚项),是为了防止过拟合而提出的。
Rsrm=N1i=1∑NL(yi,y^i)+λJ(f),λ≥0(其中J(f)是模型复杂度,是定义在解空间F上的泛函,f越复杂,J(f)越大)
4.结构风险最小化:
f∈FminN1i=1∑NL(yi,y^i)+λJ(f)
4.2.4极大似然估计
1.极大似然估计就是经验风险最小化的一个例子。(样本满足独立同分布)
2.极大似然估计就是利用已知的样本结果信息,反推出具有最大可能导致这些样本结果出现的模型参数值。
3.假如我们的训练集 Dtrain的格式如下:(x1,y1),(x2,y2)......(xn,yn),接下来我们使用最大似然估计:
maxi=1∏np(yi∣xi)→maxi=1∑nlogp(yi∣xi)→mini=1∑n(−logp(yi∣xi))定义损失函数为L(y,y^)=−logp(y∣x),mini=1∑n(−logp(yi∣xi))→mini=1∑nL(yi,y^i)→minN1i=1∑nL(yi,y^i)即:最大似然函数 = 经验风险最小化
4.2.5最大后验估计
1.最大后验估计就是结构化风险最小的一个例子。
最大似然估计是求 θ 使得似然函数P(x0∣θ)最大;最大后验估计是求 θ 使得函数P(x0∣θ)P(θ)最大, θ 自己出现的先验概率也最大(其实就是考虑了参数的先验概率),MAP其实是在最大化:
P(θ∣x)=P(x)P(x∣θ)P(θ)
然后我们知道P(x)是一个从已知数据中可以得出的一个概率值,所以我们可以把分母去掉。
2.后验概率 := 似然*先验概率