PRML - Chapter 01: Introduction

对于第一章来说,都是一些简单的介绍,是一些机器学习的基础知识,如:训练集、测试集、泛化、有监督学习、无监督学习、特征抽取等基本概念。并且,这章会介绍三个重要工具:概率论、决策论、信息论。虽然这些东西听起来让⼈感觉害怕,但是实际上它们非常直观。并且,在实际应⽤中,如果想让机器学习技术发挥最⼤作⽤的话,清楚地理解它们是必须的。

基本知识点

  • 训练集 ( training set ) : 用来通过训练来调节模型的参数。
    • 输入变量 x\text{x}xNNN 次观测组成,记作 X≡{x1,⋯ ,xN}\text{X}\equiv\{\text{x}_1,\cdots,\text{x}_N\}X{x1,,xN}
    • 目标变量 tttNNN 次观测组成,记作 t≡{t1,⋯ ,tN}\mathbf{t}\equiv\{t_1,\cdots,t_N\}t{t1,,tN}(通常是被独立考察,人工标注的)
  • 学习的结果 : 表示为一个函数 y(x)y ( x )y(x),它以新的 xxx 为输入,产生的 yyy 为输出,结果与 ttt 的形式相同。
    • yyy 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的,也被称为学习 ( learning ) 阶段。
    • 当训练阶段完成后,可以使用新的数据集去检验训练的结果,这种数据集称为测试集 ( test set )。
    • 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
  • 原始输入向量需要被预处理 ( pre-processed ),变换到新的变量空间,也称为特征抽取 ( feature extraction ),使问题变得更加容易解决,加快计算速度。
  • 有监督学习 ( supervised learning )
    • 离散输出学习称为分类 ( classification ) 问题
    • 连续输出学习称为回归 ( regression ) 问题
  • 无监督学习 ( unsupervised learning )
    • 离散输出学习称为聚类 ( clustering ) 问题
    • 连续输出学习称为密度估计 ( density estimation )
      • 高维空间投影到二维或者三维空间,为了数据可视化 ( visualization ) 或者降维
  • 反馈学习 ( 强化学习 ) ( reinforcement learning ) : 在给定的条件下,找到合适的动作,使得奖励达到最⼤值。

1.1. 例子 : 多项式曲线拟合

理论基础

  • 概率论提供了数学框架,用来描述不确定性
  • 决策论提供了合适的标准,用来进行最优的预测。

前提条件

  • 训练集 : 输入数据 : 由 xxxNNN 次观察组成 x≡(x1,⋯ ,xN)T\mathbf{x}\equiv ( x_1,\cdots,x_N )^Tx(x1,,xN)T
  • 训练集 : 目标数据 : 由 tttNNN 次观察组成 t≡(t1,⋯ ,tN)T\mathbf{t}\equiv ( t_1,\cdots,t_N )^Tt(t1,,tN)T

多项式函数是线性模型,应用于 线性回归 ( Ch 03 ) 和 线性分类 ( Ch 04 )

y(x,w)=w0+w1x+w2x2+⋯+wMxM=∑j=0Mwjxj y ( x,\text{w} ) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M = \sum_{j=0}^M w_j x^j y(x,w)=w0+w1x+w2x2++wMxM=j=0Mwjxj

最小化误差函数 ( error function ) 可以调整多项式函数的参数

  • 平方误差函数 ( square error function ) : 最常用

E(w)=12∑n=1N[y(xn,w)−tn]2 E ( \text{w} ) =\frac12\sum_{n=1}^N [y ( x_n,\text{w} ) - t_n]^2 E(w)=21n=1N[y(xn,w)tn]2

  • 根均方 ( root-mean-square, RMS ) 误差函数 : 更方便

ERMS=2E(w∗)/N E_{RMS}=\sqrt{2E ( \text{w}^* ) /N} ERMS=2E(w)/N

多项式的阶数 MMM 的选择,属于 模型对比 ( model comparison ) 问题 或者 模型选择 ( model selection ) 问题。

拟合问题 : 模型容量 与 实际问题 不匹配

  • 欠拟合 ( Under-fitting ) : 模型过于简单,模型容量低,不能充分描述问题
  • 过拟合 ( Over-fitting ) : 模型过于复杂,模型容量高,可能描述数据噪声

正则化 ( regularization ) : 解决过拟合问题,即给误差函数增加惩罚项,使得系数不会达到很大的值

  • 正则项的 λ\lambdaλ 系数控制过拟合的影响
  • 统计学 : 叫做收缩 ( shrinkage ) 方法
  • 二次正则项 : 称为岭回归 ( ridge regression )
  • 神经网络 : 称为权值衰减 ( weight decay )

确定模型复杂度 : 验证集 ( validation set ),也被称为拿出集 ( hold-out set ),缺点是不能充分利用数据,太浪费有价值的训练数据了。

数据集规模 : 训练数据的数量应该是模型可调节参数的数量的 5~10 倍。

最大似然 ( maximum likelihood, ML )

  • 最小二乘法 是 最大似然法 的特例
  • 过拟合问题 是 ML 的一种通用属性
  • 使用 Bayesian 方法解决过拟合问题,等价于正则化

1.2. 概率论

理解 离散随机变量 与 连续随机变量 之间的关系

离散随机变量

  • 联合概率 : XXX 取值 xix_ixiYYY 取值 yjy_jyj,的联合概率是

p(X=xi,Y=yj)=nijN p ( X=x_i,Y=y_j ) =\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij

  • 边缘概率 : XXX 取值 xix_ixi( 与 YYY 取值无关 ) 的边缘概率是

p(X=xi)=ciN p ( X=x_i ) = \frac{c_i}N p(X=xi)=Nci

  • 加和规则推导

p(X=xi)=∑j=1Lp(X=xi,Y=yj) p ( X=x_i ) = \sum_{j=1}^L p ( X=x_i,Y=y_j ) p(X=xi)=j=1Lp(X=xi,Y=yj)

  • 条件概率 : 在XXX 取值 xix_ixiYYY 取值 yjy_jyj 的条件概率是

p(Y=yj∣X=xi)=nijci p ( Y=y_j|X=x_i ) =\frac{n_{ij}}{c_i} p(Y=yjX=xi)=cinij

  • 乘积规则推导

p(X=xi,Y=yj)=nijN=nijci⋅ciN=p(Y=yj∣X=xi)p(X=xi) p ( X=x_i,Y=y_j ) =\frac{n_{ij}}N=\frac{n_{ij}}{c_i}\cdot\frac{c_i}N = p ( Y=y_j|X=x_i ) p ( X=x_i ) p(X=xi,Y=yj)=Nnij=cinijNci=p(Y=yjX=xi)p(X=xi)

  • 贝叶斯定理

p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y) p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )} p(YX)=p(X)p(XY)p(Y)=Yp(XY)p(Y)p(XY)p(Y)

  • XXXYYY 相互独立

p(X,Y)=p(X)p(Y) p ( X,Y ) =p ( X ) p ( Y ) p(X,Y)=p(X)p(Y)

概率论的两种基本规则 ( 后面会有大量的应用,需要充分理解才能正确的使用 )

  • 加和规则 ( sum rule ) : p(X)=∑Yp(X,Y)p ( X ) =\sum_Y p ( X,Y )p(X)=Yp(X,Y)
  • 乘积规则 ( product rule ) : p(X,Y)=p(Y∣X)p(X)p ( X,Y ) =p ( Y|X ) p ( X )p(X,Y)=p(YX)p(X)

这⾥p(X,Y)p(X,Y)p(X,Y)是联合概率,可以表述为“X且Y 的概率”。类似地,p(Y∣X)p(Y | X)p(YX)是条件概率,可以表述为“给定X的条件下Y 的概率”,p(X)是边缘概率,可以简单地表述为"X的概率”。这两个简单的规则组成了我们在全书中使用的全部概率推导的基础。

1.2.1. 概率密度

离散随机变量

概率质量函数 ( probability mass function )
p(X=xi)=∑jnij/N p ( X=x_i ) = \sum_j n_{ij} /N p(X=xi)=jnij/N
条件概率 ( conditional probability )
p(Y=yj∣X=xi)=nij/∑jnij p ( Y=y_j|X=x_i ) = n_{ij}/ \sum_j n_{ij} p(Y=yjX=xi)=nij/jnij

  • 利用乘积规则得到联合概率 ( conditional probability )

p(X=xi,Y=yj)=p(Y=yj∣X=xi)p(X=xi) p ( X=x_i,Y=y_j ) =p ( Y=y_j|X=x_i ) p ( X=x_i ) p(X=xi,Y=yj)=p(Y=yjX=xi)p(X=xi)

联合概率 ( joint probability )
p(X=xi,Y=yj)=nij/N p ( X=x_i,Y=y_j ) =n_{ij}/N p(X=xi,Y=yj)=nij/N

  • 利用加和规则得到边缘概率 ( marginal probability )

p(X=xi)=∑j=1Lp(X=xi,Y=yj) p ( X=x_i ) =\sum_{j=1}^L p ( X=x_i,Y=y_j ) p(X=xi)=j=1Lp(X=xi,Y=yj)

连续随机变量

概率密度函数 ( probability density function ) : p(x∈(a,b))=∫abp(x)dxp ( x\in ( a,b )) =\int_a^b p ( x ) dxp(x(a,b))=abp(x)dx

累积分布函数 ( cumulative distribution function ) : p(z)=∫−∞zp(x)dxp ( z ) = \int_{-\infty}^z p ( x ) dxp(z)=zp(x)dx

由于概率是非负的,并且x的值一定位于实数轴上的某个位置,因此概率密度一定满足下面两个条件

  • p(X)≥0p(X) \ge 0p(X)0
  • ∫−∞+∞p(x)dx=1\int_{-\infty}^{+\infty} p( x ) dx=1+p(x)dx=1

1.2.2. 期望 与 协方差

期望 ( expectation ) : 函数的平均值

  • 离散随机变量 的 期望 : E[f]=∑xp(x)f(x)\mathbb{E}[f] = \sum_x p ( x ) f ( x )E[f]=xp(x)f(x)
  • 连续随机变量 的 期望 : E[f]=∫p(x)f(x)dx\mathbb{E}[f]=\int p ( x ) f ( x ) dxE[f]=p(x)f(x)dx
  • 有限数量的数据集,数据集中的点满足某个 概率分布函数 或者 概率密度函数,那么 期望 可以用 求和 的方式来估计

E[f]≃1N∑n=1Nf(xn) \mathbb{E}[f]\simeq \frac1N\sum_{n=1}^N f ( x_n ) E[f]N1n=1Nf(xn)

  • 多变量函数的期望,使用下标 Ex[f(x,y)]\mathbb{E}_x [f ( x,y )]Ex[f(x,y)] 表明关于 xxx 的分布的平均,是 yyy 的一个函数

Ex[f(x,y)]=∑xp(x)f(x,y) \mathbb{E}_x [f ( x,y )] = \sum_x p ( x ) f ( x,y ) Ex[f(x,y)]=xp(x)f(x,y)

  • 条件分布的条件期望 ( conditional expectation )

Ex[f∣y]=∑xp(x∣y)f(x) \mathbb{E}_x [f|y]=\sum_x p ( x|y ) f ( x ) Ex[fy]=xp(xy)f(x)

方差 ( variance ) : 度量了函数 f(x)f ( x )f(x) 在均值 E[f(x)]\mathbb{E}[f ( x )]E[f(x)] 附近的变化性
var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2var[x]=E[x2]−E[x]2 \begin{aligned} \text{var}[f] &= \mathbb{E}[( f ( x ) -\mathbb{E}[f ( x )] )^2] =\mathbb{E}[f ( x )^2]-\mathbb{E}[f ( x )]^2\\ \text{var}[x] &=\mathbb{E}[x^2]-\mathbb{E}[x]^2 \end{aligned} var[f]var[x]=E[(f(x)E[f(x)])2]=E[f(x)2]E[f(x)]2=E[x2]E[x]2

协方差 ( covariance ) : 度量两个随机变量之间的关系,表示多大程度上xxxyyy会共同变化。

  • 两个值随机变量的协方差

cov[x,y]=Ex,y[(x−E[x])(y−E[y])]=Ex,y[xy]−E[x]E[y] \text{cov}[x,y] = \mathbb{E}_{x,y} [( x - \mathbb{E}[x] ) ( y - \mathbb{E}[y] )] = \mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] cov[x,y]=Ex,y[(xE[x])(yE[y])]=Ex,y[xy]E[x]E[y]

  • 两个向量随机变量协方差,协方差是一个矩阵

cov[x,y]=Ex,y[(x−E[x])(yT−E[yT])]=Ex,y[xyT]−E[x]E[yT] \text{cov}[\text{x},\text{y}] = \mathbb{E}_{\text{x},\text{y}} [( \text{x}-\mathbb{E}[\text{x}] ) ( \text{y}^T-\mathbb{E}[\text{y}^T] )] = \mathbb{E}_{\text{x},\text{y}} [\text{xy}^T]-\mathbb{E}[\text{x}]\mathbb{E}[\text{y}^T] cov[x,y]=Ex,y[(xE[x])(yTE[yT])]=Ex,y[xyT]E[x]E[yT]

  • 注:如果两个随机变量相互独立,则它们的协方差为 0

  • 一个向量随机变量 : cov[x]≡cov[x,x]\text{cov}[x] \equiv \text{cov}[x,x]cov[x]cov[x,x]

1.2.3. 经典概率论 与 贝叶斯概率论

经典概率论

  • 概率 : 随机重复事件发生的频率。
  • 似然函数
    • 频率学派:参数 www 是固定的值,可以通过某种形式的"估计"来确定
      • 估计的误差通过考察可能的数据集 D\mathcal{D}D 获得
      • 确定误差的方法 : (自助发)Bootstrap[^Geof,2009]。通过从原始数据集中随机抽取来创建多个数据集,再对多个数据集的估计值求得方差确定参数误差
    • 贝叶斯派:只有⼀个数据集DDD(即实际观测到的数据集),参数的不确定性通过www的概率分布来表达
    • 似然函数的负对数被叫做误差函数 ( error function ),最大化似然函数 等价于 最小化误差函数
    • 广泛使用最大似然估计 ( maximum likelihood estimator, MLE ) [^Duda,2003] ( P 68 ),
    • 无信息先验概率 就是 最大似然估计

注意:似然函数不是www的分布,并且它关于www的积分不(一定)等于1

Bayesian 概率

  • 概率 : 定量描述不确定性的工具。
  • Bayesian 定理 : p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )}p(YX)=p(X)p(XY)p(Y)=Yp(XY)p(Y)p(XY)p(Y)
    • 先验概率 : p(w)p ( w )p(w) 表达参数 www 的假设
      • 先验概率可以方便地将先验知识包含在模型中
    • 似然函数 : 使用条件概率 p(D∣w)p ( \mathcal{D}|w )p(Dw) 表达观测数据的效果
      • 由观测数据集 DDD 来估计,可以被看成参数向量 www 的函数。
        • 参数的不确定性通过概率分布来表达。
      • 不是 www 的概率分布,因为它关于 www 的积分并不 ( 一定 ) 等于 1。因此它只是 www 的似然函数,不是概率。
    • 后验概率 : p(w∣D)p ( w|\mathcal{D} )p(wD) 表达观测到 D\mathcal{D}D 之后估计参数 www 的不确定性。
      • p(w∣mathcalD)=p(D∣w)p(w)p(D)p ( w|mathcal{D} ) =\frac{p ( \mathcal{D}|w ) p ( w )}{p ( \mathcal{D} )}p(wmathcalD)=p(D)p(Dw)p(w)
    • 后验概率 ∝\propto似然函数 x\text{x}x 先验概率
    • 取样方法 : MCMC ( Ch 11 ) [^Geof,2009]
    • 高效判别方法 : 变分贝叶斯 ( Variational Bayes ) 和期望传播 ( Expectation Propagation )

1.2.4. 高斯分布

( 主要概率分布 Ch 02 )

高斯分布 ( Gaussian distribution ),也叫正态分布 ( normal distribution )

一元实值随机变量 xxx 的高斯分布

  • 定义

N(x∣μ,σ2)=1(2πσ2)1/2exp⁡[−12σ2(x−μ)2] \mathcal{N} ( \text{x}|\mu,\sigma^2 ) = \frac{1}{( 2\pi\sigma^2 )^{1/2}} \exp[-\frac{1}{2\sigma^2} ( \text{x}-\mu )^2] N(xμ,σ2)=(2πσ2)1/21exp[2σ21(xμ)2]

  • 控制参数
    • 均值 μ\muμ
    • 方差 σ2\sigma^2σ2,标准差 σ\sigmaσ
    • 精度 ( precision ) β=1/σ2\beta = 1/{\sigma^2}β=1/σ2
  • 性质
    • 归一化 : ∫−∞+∞N(x∣μ,σ2)dx=1\int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) dx =1+N(xμ,σ2)dx=1
    • 期望 : E[x]=∫−∞+∞N(x∣μ,σ2)xdx=μ\mathbb{E}[x] = \int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x dx =\muE[x]=+N(xμ,σ2)xdx=μ
    • 二阶矩 : E[x2]=∫−∞+∞N(x∣μ,σ2)x2dx=μ2+σ2\mathbb{E}[x^2] = \int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x^2 dx =\mu^2 + \sigma^2E[x2]=+N(xμ,σ2)x2dx=μ2+σ2
    • 方差 : var[x]=E[x2]−E[x]2=σ2\text{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 = \sigma^2var[x]=E[x2]E[x]2=σ2
    • 分布的最大值叫众数,与均值恰好相等。

D 维随机向量 x\text{x}x 的高斯分布

  • 定义

N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp⁡{−12(x−μ)TΣ−1(x−μ)} \mathcal{N} ( \text{x}|\boldsymbol{\mu},\Sigma ) = \frac1{( 2\pi )^{D/2}}\frac1{|\Sigma|^{1/2}} \exp\{-\frac12 ( \text{x}-\boldsymbol{\mu} )^T\Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) \} N(xμ,Σ)=(2π)D/21Σ1/21exp{21(xμ)TΣ1(xμ)}

  • 控制参数
    • 均值向量 : μ∈RD\boldsymbol{\mu}\in\mathcal{R}^DμRD
    • 协方差矩阵 : Σ∈RD×D{\Sigma}\in\mathcal{R}^{D \times D}ΣRD×D

一元随机实值变量的例子

  • 观测数据集 x=(x1,⋯ ,xN)T\mathbf{x}= ( x_1,\cdots,x_N )^Tx=(x1,,xN)T 表示实值变量 xxxNNN 次观测
    • 观测数据集独立地从高斯分布 N(μ,σ2)\mathcal{N} ( \mu,\sigma^2 )N(μ,σ2) 中抽取出来
      • μ\muμσ2\sigma^2σ2 未知
      • 独立同分布 ( independent and identically distributed, i.i.d. ) : 独立地从相同数据点集合中抽取的数据
  • 观测数据集的概率

p(x∣μ,σ2)=∏n=1NN(xn∣μ,σ2) p ( \mathbf{x}|\mu,\sigma^2 ) = \prod_{n=1}^N \mathcal{N} ( x_n|\mu,\sigma^2 ) p(xμ,σ2)=n=1NN(xnμ,σ2)

  • 对数似然函数 :

ln⁡p(x∣μ,σ2)=−12σ2∑n=1N(xn−μ)2−N2ln⁡σ2−N2ln⁡(2π) \ln p ( \mathbb{x}|\mu,\sigma^2 ) = -\frac{1}{2\sigma^2} \sum_{n=1}^N ( x_n-\mu )^2 -\frac{N}{2}\ln\sigma^2 -\frac{N}{2}\ln ( 2\pi ) lnp(xμ,σ2)=2σ21n=1N(xnμ)22Nlnσ22Nln(2π)

  • 基于 最大似然函数 估计参数
    • 均值 的 最大似然解 等于 样本均值
      • μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^N x_nμML=N1n=1Nxn
    • 方差 的 最大似然解 等于 样本均值 的 样本方差
      • σML2=1N∑n=1N(xn−μML)2\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N ( x_n-\mu_{ML} )^2σML2=N1n=1N(xnμML)2
    • 理论上需要同时关于 μ\muμσ2\sigma^2σ2 最大化函数,实际上 μ\muμ 的解与 σ2\sigma^2σ2 的无关,因此可以先求解 μ\muμ,再求解 σ2\sigma^2σ2
  • 最大似然的偏移问题 是 多项式曲线拟合问题 中遇到的 过拟合问题 的核心。
    • 最大似然估计 的 均值 等于 模型 中 输入 的 真实均值
      • ( Eq 1.55 ) : E[μML]=μ\mathbb{E}[\mu_{ML}]=\muE[μML]=μ
    • 最大似然估计 的 方差 小于 模型 中 输入 的 真实方差
      • ( Eq 1.56 ) : E[σML2]=N−1Nσ2\mathbb{E}[\sigma_{ML}^2]=\frac{N-1}{N}\sigma^2E[σML2]=NN1σ2
    • 无偏的方差估计
      • ( Eq 1.59 ) : σ~2=NN−1σML2=1N−1∑n=1N(xn−μML)2\tilde{\sigma}^2 = \frac{N}{N-1}\sigma_{ML}^2 = \frac1{N-1}\sum_{n=1}^N ( x_n-\mu_{ML} )^2σ~2=N1NσML2=N11n=1N(xnμML)2
      • N→∞N\rightarrow\inftyN 时,最大似然解的偏移影响不大,方差的最大似然解与真实方差相等
  • 最大似然估计 vs 最大后验估计
    • 最大似然估计 : 在给定的"数据集"下最大化"参数"的概率
    • 最大后验估计 : 在给定"参数"下最大化"数据集"的概率

1.2.5. 概率建模 : 多项式曲线拟合

概率建模

  • 一对数据点 (x,y)( x,y )(x,y) 的模型

p(t∣x,w,β)=N(t∣y(x,w),β−1) p ( t|x,\text{w},\beta ) = \mathcal{N} ( t|y ( x,\text{w} ) ,\beta^{-1} ) p(tx,w,β)=N(ty(x,w),β1)

  • NNN对数据点 ( 数据集 ) 的模型

p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1) p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|y ( x_n,\text{w} ) ,\beta^{-1} ) p(tx,w,β)=n=1NN(tny(xn,w),β1)

  • 对数似然函数

ln⁡p(t∣x,w,β)=−β2∑n=1N(y(xn,w)−tn)2+N2ln⁡β−N2ln⁡(2π) \ln p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = -\frac{\beta}{2} \sum_{n=1}^N ( y ( x_n,\text{w} ) -t_n )^2 +\frac{N}{2}\ln\beta -\frac{N}{2}\ln ( 2\pi ) lnp(tx,w,β)=2βn=1N(y(xn,w)tn)2+2Nlnβ2Nln(2π)

  • 模型参数
    • β=1/σ2\beta=1/\sigma^2β=1/σ2
    • y(x,w)=∑j=0Mwjxjy ( x,\text{w} ) =\sum_{j=0}^M w_j x^jy(x,w)=j=0Mwjxj

最大似然解 ( 最大化似然函数 等价于 最小化平方和误差函数 )

  • 模型参数 : wML\text{w}_{ML}wML
  • 精度参数 : 1βML=1N∑n=1N[y(xn,wML)−tn]2\frac{1}{\beta_{ML}}=\frac1N\sum_{n=1}^N [y ( x_n,\text{w}_{ML} ) -t_n]^2βML1=N1n=1N[y(xn,wML)tn]2
  • 预测分布 ( Eq 1.64 ) : p(t∣x,wML,βML)=N(t∣y(x,wML,βML−1))p ( t|x,\text{w}_{ML},\beta_{ML} ) = \mathcal{N} ( t|y ( x,\text{w}_{ML},\beta_{ML}^{-1} ))p(tx,wML,βML)=N(ty(x,wML,βML1))

最大后验解 ( 最大化后验概率 等价于 最小化正则化的平方和误差函数 )

  • 先验概率

p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡(−α2wTw) p ( \text{w}|\alpha ) = \mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} ) = ( \frac{\alpha}{2\pi} )^{( M+1 ) /2} \exp{( -\frac{\alpha}{2}\text{w}^T\text{w} )} p(wα)=N(w0,α1I)=(2πα)(M+1)/2exp(2αwTw)

  • 后验概率

p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α) p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) \propto p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) p ( \text{w}|\alpha ) p(wx,t,α,β)p(tx,w,β)p(wα)

  • 与 最小化正则化的平方和误差函数 的等价公式

β2∑n=1N{y(xn,w)−tn}2+α2wTw \frac\beta2\sum_{n=1}^N \{y ( x_n,\text{w} ) -t_n\}^2+\frac\alpha2\text{w}^T\text{w} 2βn=1N{y(xn,w)tn}2+2αwTw

1.2.6. 贝叶斯曲线拟合 ( Sec 3.3. )

( 依然用于理解贝叶斯观点在模型中的应用,无法理解可以暂时放弃 )

使用最大后验估计,依然属于点估计,不属于贝叶斯的观点。在模式识别中,对所有的模型参数 w\text{w}w 进行积分才是贝叶斯方法的核心。

贝叶斯模型

  • 前提条件
    • 输入数据 x\mathbf{x}x
    • 目标数据 t\mathbf{t}t
    • 新的测试点 xxx
    • 新的预测目标 ttt
  • 预测概率 ( Eq 1.69 )

p(t∣x,x,t)=∫p(t∣x,w,β)p(w∣x,t,α,β)dw=N(t∣m(x),s2(x)) p ( t|x,\mathbf{x},\mathbf{t} ) = \int p ( t|x,\text{w},\beta ) p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) d\text{w} = \mathcal{N} ( t|m ( x ) ,s^2 ( x )) p(tx,x,t)=p(tx,w,β)p(wx,t,α,β)dw=N(tm(x),s2(x))

  • 模型参数
    • m(x)=βϕ(x)TS∑n=1Nϕ(xn)tnm ( x ) =\beta\phi ( x )^T \text{S}\sum_{n=1}^N \phi ( x_n ) t_nm(x)=βϕ(x)TSn=1Nϕ(xn)tn:表示预测值 ttt 的不确定性,受目标变量上的噪声影响,在最大似然的预测分布 ( 1.64 ) 中通过 βML−1\beta_{ML}^{-1}βML1 表达
    • s2(x)=β−1+ϕ(x)TSϕ(x)s^2 ( x ) =\beta^{-1} +\phi ( x )^T\text{S}\phi ( x )s2(x)=β1+ϕ(x)TSϕ(x):对参数 w\text{w}w 的不确定性有影响
    • S−1=αI+β∑n=1Nϕ(xn)ϕ(xn)T\text{S}^{-1} =\alpha\mathbf{I} + \beta\sum_{n=1}^N\phi ( x_n ) \phi ( x_n )^TS1=αI+βn=1Nϕ(xn)ϕ(xn)T
    • ϕ(x)≡ϕi(x)=xi,(i=0,⋯ ,M)\phi ( x ) \equiv \phi_i ( x ) = x^i, ( i=0,\cdots,M )ϕ(x)ϕi(x)=xi,(i=0,,M)

1.3. 模型选择

  • 模型复杂度的控制 :
    • 多项式的阶数控制了模型的自由参数的个数,即控制了模型的复杂度
    • 正则化系数 λ\lambdaλ 影响着模型的自由参数的取值,也控制了模型的复杂度
  • 交叉验证 ( cross validation )
    • 可以解决验证模型时面临的数据不足问题
    • 会增加训练成本
    • 留一法 ( leave-one-out ) 是特例
  • 信息准则 : 度量模型的质量,避免交叉验证的训练成本,使模型选择完全依赖于训练数据
    • 修正最大似然的偏差的方法 : 增加惩罚项来补偿过于复杂的模型造成的过拟合
    • 赤池信息准则 ( Akaike information criterion, AIC ) : ln⁡p(D∣wML)−M\ln p ( \mathcal{D}|\text{w}_{ML} ) -Mlnp(DwML)M
    • 贝叶斯信息准则 ( Bayesian information criterion, BIC ) : ( Sec 4.4.1. )

1.4. 维度灾难

我们在三维空间中建立的集合直觉会在考虑高维空间时不起作用。例如,在高维空间中,一个球体的大部分的体积在哪里?( 可以推导公式理解 )

  • DDD 维空间的 r=1r=1r=1 的球体的体积 : VD(r)=KDrDV_D ( r ) = K_D r^DVD(r)=KDrD
  • r=1−ϵr=1-\epsilonr=1ϵr=1r = 1r=1 之间的球壳体积与 r=1r=1r=1 的球体的体积比 :
    • (VD(1)−VD(1−ϵ))/VD(1)=1−(1−ϵ)D( V_D ( 1 ) - V_D ( 1-\epsilon )) /V_D ( 1 ) =1- ( 1-\epsilon )^D(VD(1)VD(1ϵ))/VD(1)=1(1ϵ)D
    • DDD 的维数越大,体积比趋近于 1
    • 在高维空间中,一个球体的大部分体积都聚焦在表面附近的薄球壳上。

维度灾难 ( curse of dimensionality ) : 在高维空间中,大部分的数据都集中在薄球壳上导致数据无法有效区分

  • 维度灾难的解决方案
    • 真实数据经常被限制在有着较低的有效维度的空间区域中;( 通过特征选择降维 )
    • 真实数据通常比较光滑 ( 至少局部上比较光滑 ) ( 通过局部流形降维 )

1.5. 决策论 ( 分类问题、模式识别 )

问题原型:输入向量 x\text{x}x 和 目标向量 t\text{t}t

  • 回归问题:目标向量是连续性变量组成
  • 分类问题:目标向量是离散性变量组成,即类别标签你

决策论 : 保证在不确定性的情况下做出最优的决策。

  • 联合概率分布 p(x,t)p ( \text{x},\text{t} )p(x,t) 总结了所有的不确定性
  • 从训练数据集中确定输入向量 x\text{x}x 和目标向量 t\text{t}t 的联合分布 p(x,t)p ( \text{x,t} )p(x,t) 是推断 ( inference ) 问题
  • 从测试数据集中确定输入向量 x\text{x}x 和目标分类 Ck\mathcal{C}_kCk 的条件概率 p(Ck∣x)p ( \mathcal{C}_k |\text{x} )p(Ckx) 是决策 ( inference ) 问题

1.5.1. 最小化错误分类率

基本概念

  • 输入空间根据规则切分成不同的区域,这些区域被称为决策区域。
  • 每个类别都有一个决策区域,区域 Rk\mathcal{R}_kRk 中的点都被分到对应类别 Ck\mathcal{C}_kCk
  • 决策区域间的边界叫做决策边界 ( decision boundary ) 或者决策面 ( decision surface )。

决策 : p(Ck∣x)=p(x∣Ck)p(Ck)p(x)p ( \mathcal{C}_k|\text{x} ) =\frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )}p(Ckx)=p(x)p(xCk)p(Ck)

  • p(Ck)p ( \mathcal{C}_k )p(Ck) 称为类 Ck\mathcal{C}_kCk 的先验概率
  • p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ckx) 称为类 Ck\mathcal{C}_kCk 的后验概率
  • ( Fig 1.24 ) 最小化错误分类率,将 x\text{x}x 分配到具有最大后验概率的类别中

最小化错误分类率 : 将 x\text{x}x 分配到后验概率 p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ckx) 最大的类别中,分类错误的概率最小

p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx \begin{aligned} p ( \text{mistake} ) &=p ( \text{x}\in\mathcal{R}_1,\mathcal{C}_2 ) +p ( \text{x}\in\mathcal{R}_2,\mathcal{C}_1 ) \\ &=\int_{\mathcal{R}_1} p ( \text{x},\mathcal{C}_2 ) \text{dx}+\int_{\mathcal{R}_2} p ( \text{x},\mathcal{C}_1 ) \text{dx} \end{aligned} p(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx

最大化正确分类率 : 将 x\text{x}x 分配到联合概率 p(Ck,x)p ( \mathcal{C}_k,\text{x} )p(Ck,x) 最大的类别中,分类正确的概率最大

p(correct)=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dx p ( \text{correct} ) =\sum_{k=1}^Kp ( \text{x}\in\mathcal{R}_k,\mathcal{C}_k ) =\sum_{k=1}^K\int_{\mathcal{R}_k} p ( \text{x},\mathcal{C}_k ) \text{dx} p(correct)=k=1Kp(xRk,Ck)=k=1KRkp(x,Ck)dx

1.5.2. 最小化期望损失 ( 加先验 )

损失函数 ( loss function ) 也称为代价函数 ( cost function ),是对所有可能的决策产生的损失的一种整体度量,目标是最小化整体的损失。

效用函数 ( utility function ),目标是最大化整体的效用,如果效用函数等于损失函数的相反数,则两者等价。

最小化损失的期望 : E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j} L_{kj} p ( \text{x},\mathcal{C}_k ) dxE[L]=kjRjLkjp(x,Ck)dx

  • LkjL_{kj}Lkj 表示损失矩阵的第 k,jk,jk,j 个元素,即把类别 Ck\mathcal{C}_kCk 的数据 x\text{x}x 错分为 CjC_jCj 的损失

最小化损失的期望的决策规则 : 对于每个新的 x\text{x}x,分到的类别 CjC_jCj 保证 ∑kLkjp(Ck∣x)\sum_k L_{kj}p ( \mathcal{C}_k|\text{x} )kLkjp(Ckx) 最小化

1.5.3. 拒绝选项

拒绝选项 ( reject option ) : 为了避免做出错误的决策,系统拒绝从做出类别选择,从而使模型的分类错误率降低。

1.5.4. 推断与决策

分类问题的两个阶段

  • 推断 ( inference ) : 使用训练数据学习后验概率 p(Ck∣x)p ( \mathcal{C}_k|x )p(Ckx) 的模型
  • 决策 ( decision ) : 使用后验概率模型进行最优的分类

解决分类问题的三种方法 :

  • 生成式模型 ( generative model ) : 显式或者隐式地对输入和输出进行建模的方法
    • 推断阶段 :
      • 首先基于每个类别 Ck\mathcal{C}_kCk 推断类条件密度 p(∣Ck)p ( |\mathcal{C}_k )p(Ck)
      • 再推断类别的先验概率密度 p(Ck)p ( \mathcal{C}_k )p(Ck)
      • 再基于贝叶斯定理 p(Ck∣x)=p(x∣Ck)p(Ck)p(x)=p(x∣Ck)p(Ck)∑kp(x∣∣Ck)p(Ck)p ( \mathcal{C}_k|\text{x} ) = \frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )} = \frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )} {\sum_k p ( \text{x}||\mathcal{C}_k ) p ( \mathcal{C}_k )}p(Ckx)=p(x)p(xCk)p(Ck)=kp(xCk)p(Ck)p(xCk)p(Ck) 学习类别的后验概率密度
    • 决策阶段 : 使用决策论来确定每个新的输入 x\text{x}x 的类别。
    • 优点:能够计算数据的边缘概率密度 p(x)p ( \text{x} )p(x),方便计算具有低概率的新数据点,即离群点检测。
    • 缺点:需要计算的工作量最大
  • 判别式模型 ( Discriminative Models ) : 直接对后验概率密度建模的方法
    • 推断阶段 : 首先推断类别的后验概率密度 p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ckx)
    • 决策阶段 : 使用决策论来确定每个新的输入x\text{x}x的类别。
  • 同时解决两个阶段的问题,即把输入直接映射为决策的函数称为判别函数 ( discriminant function )

使用后验概率进行决策的理由

  • 最小化风险 : 修改最小风险准则就可以适应损失矩阵中元素改变
  • 拒绝选项 :
    • 确定最小化误分类率的拒绝标准
    • 确定最小化期望损失的拒绝标准
  • 补偿类别先验概率 : 解决不平衡的数据集存在的问题
  • 组合模型 ( Ch 14 ) : 通过特征的独立性假设,将大问题分解成小问题,例如 : 朴素贝叶斯模型

p(xI,xB∣Ck)=p(xI∣Ck)p(xB∣Ck)p(Ck∣xI,xB)∝p(xI,xB∣Ck)p(Ck)∝p(xI∣Ck)p(xB∣Ck)p(Ck)∝p(Ck∣xI)p(Ck∣xB)p(Ck) \begin{aligned} p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) &=p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) \\ p ( \mathcal{C}_k|\text{x}_I,\text{x}_B ) &\propto p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \\ &\propto p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \\ &\propto \frac{p ( \mathcal{C}_k|\text{x}_I ) p ( \mathcal{C}_k|\text{x}_B )}{p ( \mathcal{C}_k )} \end{aligned} p(xI,xBCk)p(CkxI,xB)=p(xICk)p(xBCk)p(xI,xBCk)p(Ck)p(xICk)p(xBCk)p(Ck)p(Ck)p(CkxI)p(CkxB)

1.5.5. 回归问题的损失函数

回归问题的决策阶段:对于每个输入向量 x\text{x}x,输出目标变量 ttt 的特定估计 y(x)y ( \text{x} )y(x),造成损失 L(t,y(x))L ( t,y ( \text{x} ))L(t,y(x)),则整个问题的平均损失,即损失函数的期望
E[L]=∫∫L(t,y(x))p(x,t)dx dt \mathbb{E}[L]=\int\int L ( t,y ( \text{x} )) p ( \text{x},t ) \text{dx d} t E[L]=L(t,y(x))p(x,t)dx dt

  • 变分法最小化 E[L]\mathbb{E}[L]E[L]

δE[L]δy(x)=2∫[y(x)−t]p(x,t)dt=0 \frac{\delta\mathbb{E}[L]}{\delta y ( \text{x} )}= 2\int [y ( \text{x} ) - t] p ( \text{x},t ) dt =0 δy(x)δE[L]=2[y(x)t]p(x,t)dt=0

  • 求解 y(x)y ( \text{x} )y(x) 的最优解

y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x] y ( \text{x} ) = \frac{\int t p ( \text{x},t ) \text{d}t}{p ( \text{x} )}= \int t p ( t|\text{x} ) \text{d}t= \mathbb{E}_t [t|\text{x}] y(x)=p(x)tp(x,t)dt=tp(tx)dt=Et[tx]

损失函数的具体选择

  • 平方损失函数 : L(t,y(x))={y(x)−t}2L ( t,y ( \text{x} )) =\{y ( \text{x} ) -t\}^2L(t,y(x))={y(x)t}2
  • 损失函数的期望

E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx \begin{aligned} \mathbb{E}[L] & =\int\int\{y ( \text{x} ) -t\}^2 p ( \text{x},t ) \text{dx d} t\\ & =\int\int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}] + \mathbb{E}_t [t|\text{x}] -t\}^2 p ( \text{x},t ) \text{dx d}t\\ & = \int\int [\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 + 2\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}\{\mathbb{E}_t [t|\text{x}] -t\} + \{\mathbb{E}_t [t|\text{x}] -t\}^2] p ( \text{x},t ) \text{dx d}t\\ & = \int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 p ( \text{x} ) \text{dx}+ \int\text{var}[t|\text{x}] p ( \text{x} ) \text{dx} \end{aligned} E[L]={y(x)t}2p(x,t)dx dt={y(x)Et[tx]+Et[tx]t}2p(x,t)dx dt=[{y(x)Et[tx]}2+2{y(x)Et[tx]}{Et[tx]t}+{Et[tx]t}2]p(x,t)dx dt={y(x)Et[tx]}2p(x)dx+var[tx]p(x)dx

  • 第一项:当 y(x)=Et[t∣x]y ( \text{x} ) = \mathbb{E}_t [t|\text{x}]y(x)=Et[tx] 时取得最小值,即 E[L]\mathbb{E}[L]E[L] 最小化。
    • 说明最小平方预测由条件均值给出。
  • 第二项:是 ttt 的分布的方差在 x\text{x}x 上进行了平均,表示目标数据内在的变化性,即噪声。
    • y(x)y ( \text{x} )y(x) 无关,表示损失函数的不可减小的最小值。
  • 闵可夫斯基 ( Minkowski ) 损失函数 ( 平方损失函数的一种推广 )

Lq(t,y(x))=∣y(x)−t∣qE[Lq]=∫∫∣y(x)−t∣qp(x,t)dx dt \begin{aligned} L_q ( t,y ( \text{x} )) &=|y ( \text{x} ) -t|^q\\ \mathbb{E}[L_q] &=\int\int|y ( \text{x} ) -t|^q p ( \text{x},t ) \text{dx d} t \end{aligned} Lq(t,y(x))E[Lq]=y(x)tq=y(x)tqp(x,t)dx dt

解决回归问题的三种思路 ( 建议从机器学习参考书中熟悉这三种方法 )

  • 函数模型 : 直接从训练数据中寻找一个回归函数
  • 概率建模 : 最大似然 : 先解决条件概率密度的推断问题,再求条件均值;
  • 概率建模 : 最大后验 : 先求联合概率密度,再求条件概率密度,最后求条件均值;

1.6. 信息论

离散随机变量 xxx

  • 信息量 : 学习 xxx 的值的时候的「惊讶」程度,
    • h(x)=−log⁡2p(x)h ( x ) =-\log_2 p ( x )h(x)=log2p(x)
    • 负号确保信息一定是正数或者为零
    • 对数确保低概率事件 xxx 对应高的信息量
      • 使用 2 作为对数的底,h(x)h ( x )h(x) 的单位是比特 ( bit, binary digit )
      • 使用 e 作为对数的底,h(x)h ( x )h(x) 的单位是奈特 ( nat, Napierian digit )
  • 平均信息量 : 发送者想传输一个随机变量的值给接收者,在这个传输过程中,他们传输的平均信息量就是随机变量 xxx
    • H[x]=−∑xp(x)log⁡2p(x)H [x]=-\sum_x p ( x ) \log_2 p ( x )H[x]=xp(x)log2p(x)
    • 无噪声编码定理 ( noiseless coding theorem ) 表明: 是传输一个随机变量状态值所需要的比特位的下界。
    • 在统计力学中,熵用来描述无序程度的度量。

离散随机变量的熵 ( entropy )

  • 熵:H[p(x)]=−∑ip(xi)ln⁡p(xi)H [p ( x )] = -\sum_i p ( x_i ) \ln p ( x_i )H[p(x)]=ip(xi)lnp(xi)
  • 离散随机变量服从均匀分布时,其熵值最大

连续随机变量的熵

  • HΔH_{\Delta}HΔ 的定义
    • ∑ip(xi)Δ=1\sum_i p ( x_i ) \Delta = 1ip(xi)Δ=1
    • 因为 Δ→0\Delta\rightarrow0Δ0 时,熵的连续形式与离散形式的差 ln⁡Δ→∞\ln\Delta\rightarrow\inftylnΔ,即具体化一个连续变量需要大量的比特位,因此省略 −ln⁡Δ-\ln\DeltalnΔ 得连续随机变量的熵 lim⁡Δ→0{−∑ip(xi)Δln⁡p(xi)}=−∫p(x)ln⁡p(x)dx\lim_{\Delta\rightarrow0}\{-\sum_i p ( x_i ) \Delta\ln p ( x_i ) \} = -\int p ( \text{x} ) \ln p ( \text{x} ) \text{dx}limΔ0{ip(xi)Δlnp(xi)}=p(x)lnp(x)dx

HΔ=−∑ip(xi)Δln⁡(p(xi)Δ)=−∑ip(xi)Δln⁡p(xi)−∑ip(xi)Δln⁡Δ=−∑ip(xi)Δln⁡p(xi)−ln⁡Δ \begin{aligned} H_{\Delta} &=-\sum_i p ( x_i ) \Delta\ln ( p ( x_i ) \Delta ) \\ &=-\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \sum_i p ( x_i ) \Delta \ln\Delta \\ &= -\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \ln\Delta \end{aligned} HΔ=ip(xi)Δln(p(xi)Δ)=ip(xi)Δlnp(xi)ip(xi)ΔlnΔ=ip(xi)Δlnp(xi)lnΔ

  • 微分熵:H[x]=−∫p(x)ln⁡p(x)dxH[\text{x}] = -\int p ( \text{x} ) \ln p ( \text{x} ) \text{dx}H[x]=p(x)lnp(x)dx
    • 微分熵可以为负
  • 最大化微分熵需要遵循的三个限制
    • ∫−∞+∞p(x)dx=1\int_{-\infty}^{+\infty} p ( x ) \text{d}x=1+p(x)dx=1
    • ∫−∞+∞xp(x)dx=μ\int_{-\infty}^{+\infty} xp ( x ) \text{d}x=\mu+xp(x)dx=μ
    • ∫−∞+∞(x−μ)2p(x)dx=σ2\int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x=\sigma^2+(xμ)2p(x)dx=σ2
  • 使用 拉格朗日乘数法求解带有限制条件的最大化问题
    • 使用变分法求解这个函数,令其导数等于零,得 p(x)=exp⁡{−1+λ1+λ2x+λ3(x−μ)2}p ( x ) =\exp\{-1+\lambda_1+\lambda_2 x+\lambda_3 ( x-\mu )^2\}p(x)=exp{1+λ1+λ2x+λ3(xμ)2}
    • 将结果带入限制方程,得

p(x)=1(2πσ2)1/2exp⁡{−(x−μ)22σ2}−∫−∞+∞p(x)ln⁡p(x)dx+λ1(∫−∞+∞p(x)dx−1)+λ2(∫−∞+∞xp(x)dx−μ)+λ3(∫−∞+∞(x−μ)2p(x)dx−σ2) \begin{aligned} p ( x ) &= \frac1{( 2\pi\sigma^2 )^{1/2}} \exp\{-\frac{( x-\mu )^2}{2\sigma^2}\}\\ -\int_{-\infty}^{+\infty} p ( x ) \ln p ( x ) \text{d}x &+ \lambda_1 ( \int_{-\infty}^{+\infty} p ( x ) \text{d}x -1 ) \\ &+ \lambda_2 ( \int_{-\infty}^{+\infty} xp ( x ) \text{d}x - \mu )\\ &+ \lambda_3 ( \int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x - \sigma^2 ) \end{aligned} p(x)+p(x)lnp(x)dx=(2πσ2)1/21exp{2σ2(xμ)2}+λ1(+p(x)dx1)+λ2(+xp(x)dxμ)+λ3(+(xμ)2p(x)dxσ2)

  • 连续随机变量服从高斯分布时,其熵值最大。
    • 高斯分布的微分熵 H[x]=12{1+ln⁡(2πσ2)}H [x]=\frac12\{1+\ln ( 2\pi\sigma^2 ) \}H[x]=21{1+ln(2πσ2)}
    • 熵随着分布宽度 ( σ2\sigma^2σ2 ) 的增加而增加
    • σ2<12πe\sigma^2<\frac1{2\pi e}σ2<2πe1 时,H[x]<0H [x]<0H[x]<0
  • 在给定 x 的情况下,y 的条件熵
    • H[y|x]=−∫∫p(y,x)ln⁡p(y|x) dy dxH[\text{y|x}]=-\int\int p ( \text{y,x} ) \ln p ( \text{y|x} ) \text{ dy dx}H[y|x]=p(y,x)lnp(y|x) dy dx

联合熵

  • H[x,y]=H[y|x]+H[x]H[\text{x,y}] = H[\text{y|x}] + H[\text{x}]H[x,y]=H[y|x]+H[x]
  • H[x,y]H[\text{x,y}]H[x,y]p(x,y)p ( \text{x,y} )p(x,y) 的微分熵
  • H[y|x]H[\text{y|x}]H[y|x]p(y|x)p ( \text{y|x} )p(y|x) 的微分熵
  • H[x]H[\text{x}]H[x]p(x)p ( \text{x} )p(x) 的微分熵

1.6.1. 相对熵 和 互信息

凸函数 : 每条弦都位于函数的弧或者弧的上面。f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)f ( \lambda a + ( 1-\lambda ) b ) \leq \lambda f ( a ) + ( 1-\lambda ) f ( b )f(λa+(1λ)b)λf(a)+(1λ)f(b)

  • 凸函数的二阶导数处处为正。
  • 严格凸函数 ( strictly convex function ) : 等号只在 λ=0\lambda=0λ=0λ=1\lambda=1λ=1 处取得。

凹函数 : 如果 f(x)f ( x )f(x) 是凸函数,则 −f(x)-f ( x )f(x) 是凹函数

  • 严格凹函数 ( strictly concave function )

Jensen 不等式

  • f(∑i=1Mλixi≤∑i=1Mλif(xi)f ( \sum_{i=1}^M \lambda_i x_i \leq \sum_{i=1}^M \lambda_i f ( x_i )f(i=1Mλixii=1Mλif(xi)
    • λi\lambda_iλi 看作取值为 {xi}\{x_i\}{xi} 的离散变量 xxx 的概率分布,则公式为 f(E[x])≤E[f(x)]f ( \mathbb{E}[x] ) \leq \mathbb{E}[f ( x )]f(E[x])E[f(x)]
  • f(∫xp( x ) dx)≤∫f(x)p(x)dxf ( \int\text{x}p\text{( x ) dx} ) \leq\int f ( \text{x} ) p ( \text{x} ) \text{dx}f(xp( x ) dx)f(x)p(x)dx

KL 散度 : 是两个分布 p(x)p ( \text{x} )p(x)q(x)q ( \text{x} )q(x) 之间不相似程度的度量。

  • −ln⁡x-\ln xlnx 是严格凸函数
  • 归一化条件:∫q(x)dx=1\int q ( \text{x} ) \text{dx}=1q(x)dx=1

KL(p∣∣q)=−∫p(x)ln⁡q( x ) dx−(−∫p(x)ln⁡p( x ) dx)KL(p∣∣q)=−∫p(x)ln⁡(q(x)p(x))dx≥−ln⁡∫q( x ) dx=0 \begin{aligned} \text{KL} ( p||q ) &= -\int p ( \text{x} ) \ln q\text{( x ) dx} - ( -\int p ( \text{x} ) \ln p\text{( x ) dx} ) \\ \text{KL} ( p||q ) &= -\int p ( \text{x} ) \ln ( \frac{q ( \text{x} )}{p ( \text{x} )} ) \text{dx} \geq -\ln\int q\text{( x ) dx} = 0 \\ \end{aligned} KL(pq)KL(pq)=p(x)lnq( x ) dx(p(x)lnp( x ) dx)=p(x)ln(p(x)q(x))dxlnq( x ) dx=0

Laplace 近似 : 是用方便计算的分布 去逼近 不方便计算的分布,解决 KL 散度不易计算的问题 ( Sec 4.4 )

  • 假设数据通过未知分布 p(x)p ( \text{x} )p(x) 生成,为了对 p(x)p ( \text{x} )p(x) 建模可以使用 q(x∣θ)q ( \text{x}|\theta )q(xθ) 来近似,q(x∣θ)q ( \text{x}|\theta )q(xθ) 可以是一个已知分布 ( 例如: θ\thetaθ 是控制多元高斯分布的参数 ),通过最小化 p(x)p ( \text{x} )p(x)q(x∣θ)q ( \text{x}|\theta )q(xθ) 之间关于 θ\thetaθ 的 KL 散度,就可以得到 p(x)p ( \text{x} )p(x) 的近似分布。

    • KL(p∣∣q)≃1N∑n=1N[−ln⁡q(xn∣θ)+ln⁡p(xn)]\text{KL} ( p||q ) \simeq \frac1N \sum_{n=1}^N [-\ln q ( \text{x}_n|\theta ) + \ln p ( \text{x}_n )]KL(pq)N1n=1N[lnq(xnθ)+lnp(xn)]
      • −ln⁡q(xn∣θ)-\ln q ( \text{x}_n|\theta )lnq(xnθ) 是使用训练集估计的分布 q(x∣θ)q ( \text{x}|\theta )q(xθ) 下的 θ\thetaθ 的负对数似然函数
      • ln⁡p(xn)\ln p ( \text{x}_n )lnp(xn)θ\thetaθ 无关
      • 最小化 KL 散度 等价于 最大化似然函数
  • 互信息 ( mutual information ) : 表示一个新的观测 y\text{y}y 造成的 x\text{x}x 的不确定性的减小 ( 反之亦然 )

    • 两个随机变量 p(x)p ( \text{x} )p(x)p(y)p ( \text{y} )p(y) 组成的数据集由 p(x,y)p ( \text{x,y} )p(x,y) 给出
      • 如果两个变量相互独立,则联合分布 p(x,y)=p(x)p(y)p ( \text{x,y} ) =p ( \text{x} ) p ( \text{y} )p(x,y)=p(x)p(y),互信息 I[x,y]=0I[\text{x,y}]=0I[x,y]=0
      • 如果两个变量没有相互独立,可以通过 KL 散度判断它们之间的「独立」程度,也称为随机变量 p(x)p ( \text{x} )p(x)p(y)p ( \text{y} )p(y) 之间的互信息 I[x,y]>0I[\text{x,y}]>0I[x,y]>0

I[x,y]≡KL(p(x,y)∣∣p(x)p(y))=−∫∫p(x,y)ln⁡(p(x)p(y)p(x,y)) dx dyI[x,y]=H[x]−H[x|y]=H[y]−H[y|x] \begin{aligned} I[\text{x,y}] &\equiv\text{KL} ( p ( \text{x,y} ) ||p ( \text{x} ) p ( \text{y} )) \\ &= -\int\int p ( \text{x,y} ) \ln ( \frac{p ( \text{x} ) p ( \text{y} )}{p ( \text{x,y} )} ) \text{ dx dy} \\ I[\text{x,y}] &= H[\text{x}] - H[\text{x|y}]\\ &= H[\text{y}] - H[\text{y|x}] \end{aligned} I[x,y]I[x,y]KL(p(x,y)p(x)p(y))=p(x,y)ln(p(x,y)p(x)p(y)) dx dy=H[x]H[x|y]=H[y]H[y|x]

相对熵 ( relative entropy ) 或者 KL 散度 ( Kullback-Leibler divergence ) ( 推导过程建议理解 )

小结

  • 本章对于后面需要的重要概念都进行了说明和推导,方便深入理解后面提及的各种算法。
  • 如果看完本章后感觉充斥着许多新的概念,那么建议先放下,找本更加基础的模式识别与机器学习的书,例如 : 李航的《统计学习方法》和周志华的《机器学习》等
Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐