统计学习–01机器学习简介

一、分类

1.机器学习根据任务类型,可划分为:

​ 监督学习:从已经标注的数据中来训练模型。主要分为:回归,分类、序列标注。

​ 无监督学习:从未标记的数据中训练模型。主要分为聚类任务、降维任务。

​ 半监督学习:用大量未标记的数据和少量标记的数据来训练模型。

​ 强化学习:从系统和环境之间大量交互知识中训练模型。

2.机器学习根据算法类型,可以分为:

​ 传统机器学习:基于数学模型的机器学习方法,包括逻辑回归、决策树、SVM等

​ 深度学习:基于神经网络的机器学习方法,包括前馈神经网络、卷积神经网络、递归神经网络等。

二、基本概念

2.1.特征空间

特征向量表示每个具体的输入,所有的特征向量构成特征空间。

2.2.样本表示

x 表示输入实例,y表示真实的样本标签(标注的样本标签),y^\hat y是预测的一个值。

三、监督学习

3.1.监督学习

1.监督学习的数据是被人工打标签的。

2.监督学习假设输入x与标记y遵循联合概率分布P(x,y),训练数据和测试数据依联合概率分布p(x,y)独立同分布产生。

3.监督学习的目的在于学习一个由输入到输出到映射,该映射由模型表达。

4.监督学习的模型可以表达为概率模型或非概率模型:

​ 概率模型由条件概率分布P(y|x)表示;

​ 非概率模型由决策函数y = f(x) 来表示;

5.监督学习可以分为学习和预测两个过程:

​ 学习过程:在给定的数据集上训练出一个概率模型P(y|x),或者决策函数y = f(x);

​ 预测过程:对于概率模型,其预测值为: y^teset=argymaxp(yx)\hat y_{teset} = arg_ymaxp(y|x); 对于非概率模型,其预测值为:y^test=f(xtest)\hat y_{test} = f(x_{test})

6.可以通过无监督学习来预测监督学习问题

​ 首先求解无监督学习任务来学习联合概率分布p(x,y);

​ 然后计算: p(yx)=p(x,y)yp(x,y)p(y|x) = \frac {p(x,y)}{\sum_{y^{'}}p(x,y^{'})}

3.2生成模型和判别模型

1.监督学习又分为生成方法和判别方法,分别对应的是生成模型和判别模型。

2.生成方法:主要是通过数据去学习联合概率分布p(x,y),然后求出p(y|x)作为预测的模型。 即生成模型:

p(yx)=p(x,y)p(x)p(y|x) = \frac{p(x,y)}{p(x)}

​ 生成模型的主要方法有:朴素贝叶斯法、隐马尔可夫链。

3.判别方法:直接学习条件概率模型P(y|x)或者决策函数f(x);

​ 主要的判别方法:逻辑回归、决策树。

四、机器学习三要素

模型、策略、算法。

4.1.模型

1.模型定义了解空间。监督学习中,模型就是要学习的条件概率模型或者决策函数。

4.2策略

4.2.1损失函数:

L(y,y^)L(y,\hat y) 又被称为代价函数。下面是我们常用的一些损失函数:

0-1损失函数:L(y,y^)={0,if y==y^1,if yy^平方损失函数(MSE): L(y,y^)=(yy^)2绝对损失函数(MAE):L(y,y^)=yy^对数损失函数:L(y,y^)=logp(yx)\text{0-1损失函数:}L(y,\hat y) = \begin{cases} 0,if\space y == \hat y\\ 1,if \space y \neq \hat y\end{cases}\\\\ \text{平方损失函数(MSE): }L(y,\hat y) = (y-\hat y)^2 \\\\ \text{绝对损失函数(MAE):} L(y,\hat y) = |y-\hat y| \\\\ \text{对数损失函数:} L(y,\hat y) = -\log p(y|x)

4.2.2风险函数

1.考虑到我们的输入是随机变量,所以我们评估模型的时候我们定义风险函数为损失函数的期望:

Rexp=EP[L(y,y^)]=XYL(y,y^)p(x,y)dxdy(XY是代表输入空间和输出空间)R_{exp} = E_P[L(y,\hat y)] = \int_{\mathcal{X} *\mathcal{Y}} L(y,\hat y)p(x,y)dxdy \\ (\mathcal{X} *\mathcal{Y}\text{是代表输入空间和输出空间})

2.学习的目标是选择风险函数最小的模型。

3.求风险函数的困难在p(x,y)是未知的。

4.2.3经验风险

1.也叫经验损失。

Remp=1Ni=1NL(yi,y^i)经验风险最小化策略认为:经验风险最小的模型就是最优的模型,即:minfF1Ni=1NL(yi,f^(xi))R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat y_i) \\ \text{经验风险最小化策略认为:经验风险最小的模型就是最优的模型,即:}\\ \min_{f \in \mathcal{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat f(x_i))

2.根据大数定律,我们知道当N>N ->\infty的时候,Remp>RexpR_{emp} ->R_{exp} 。但是我们的样本数量有限,所以需要对经验风险进行矫正。

3.结构风险,是在经验风险上叠加表示模型复杂度对正则化项(罚项),是为了防止过拟合而提出的。

Rsrm=1Ni=1NL(yi,y^i)+λJ(f),λ0(其中J(f)是模型复杂度,是定义在解空间F上的泛函,f越复杂,J(f)越大)R_{srm} =\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat y_i) + \lambda J(f) ,\lambda \geq 0\\ (\text{其中J(f)是模型复杂度,是定义在解空间}\mathcal{F}\text{上的泛函,f越复杂,J(f)越大})

4.结构风险最小化:

minfF1Ni=1NL(yi,y^i)+λJ(f)\min_{f \in \mathcal {F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat y_i) + \lambda J(f)

4.2.4极大似然估计

1.极大似然估计就是经验风险最小化的一个例子。(样本满足独立同分布)

2.极大似然估计就是利用已知的样本结果信息,反推出具有最大可能导致这些样本结果出现的模型参数值。

3.假如我们的训练集 Dtrain的格式如下:(x1,y1),(x2,y2)......(xn,yn)D_{train} 的格式如下:{(x_1,y_1),(x_2,y_2)......(x_n,y_n)},接下来我们使用最大似然估计:

maxi=1np(yixi)maxi=1nlogp(yixi)mini=1n(logp(yixi))定义损失函数为L(y,y^)=logp(yx),mini=1n(logp(yixi))mini=1nL(yi,y^i)min1Ni=1nL(yi,y^i)即:最大似然函数 = 经验风险最小化max \prod_{i=1}^{n}p(y_i|x_i) \rightarrow max\sum_{i=1}^{n}\log p(y_i|x_i) \rightarrow min\sum_{i=1}^{n}(-\log p(y_i|x_i)) \\ \text{定义损失函数为}L(y,\hat y) = -\log p(y|x), \\ min\sum_{i=1}^{n}(-\log p(y_i|x_i)) \rightarrow min\sum_{i=1}^{n} L(y_i,\hat y_i) \rightarrow min\frac{1}{N}\sum_{i=1}^{n} L(y_i,\hat y_i) \\ \text{即:最大似然函数 = 经验风险最小化}

4.2.5最大后验估计

1.最大后验估计就是结构化风险最小的一个例子。

​ 最大似然估计是求 θ\theta 使得似然函数P(x0θ)P(x_0|\theta)最大;最大后验估计是求 θ\theta 使得函数P(x0θ)P(θ)P(x_0|\theta)P(\theta)最大, θ\theta 自己出现的先验概率也最大(其实就是考虑了参数的先验概率),MAP其实是在最大化:

P(θx)=P(xθ)P(θ)P(x)P(\theta|x) = \frac{P(x|\theta)P(\theta)}{P(x)}

​ 然后我们知道P(x)是一个从已知数据中可以得出的一个概率值,所以我们可以把分母去掉。

2.后验概率 := 似然*先验概率