一、前言

在统计学中,估计模型参数的方法主要有以下几种:

  1. 极大似然估计(Maximum Likelihood Estimation, MLE)

    • 原理:通过找到使得观测数据的似然函数(即样本观测值的联合概率分布函数)达到最大值的参数估计值。
    • 应用:适用于广泛的概率模型,包括正态分布、泊松分布等。
    • 优点:具有一致性、渐进正态性和渐进有效性等良好的统计性质。
    • 缺点:计算复杂度高,在某些复杂模型下可能难以计算。
  2. 最小二乘估计(Least Squares Estimation, LSE)

    • 原理:通过最小化残差平方和来估计模型参数,通常用于线性回归模型。
    • 应用:主要用于线性回归分析,也可以推广到非线性回归。
    • 优点:计算简单,容易理解和实现。
    • 缺点:对异常值敏感,不适用于误差分布为非正态的情况。
  3. 贝叶斯估计(Bayesian Estimation)

    • 原理:结合先验分布和样本信息,通过贝叶斯定理来更新参数的后验分布。
    • 应用:适用于各种复杂模型和不确定性较高的情况。
    • 优点:可以结合先验知识,提供更灵活的估计方法。
    • 缺点:需要设定先验分布,计算复杂度高,尤其是高维参数空间。
  4. 方法矩估计(Method of Moments, MOM)

    • 原理:通过样本矩来估计总体矩,从而推断模型参数。
    • 应用:适用于简单的概率分布模型。
    • 优点:计算简单,直观易懂。
    • 缺点:效率较低,相比最大似然估计可能不太精确。
  5. 极大后验估计(Maximum A Posteriori Estimation, MAP)

    • 原理:在贝叶斯估计中,通过最大化后验分布来估计参数。
    • 应用:与贝叶斯估计类似,适用于结合先验知识的情况。
    • 优点:可以利用先验知识,计算上比纯贝叶斯估计简单一些。
    • 缺点:结果依赖于先验分布的选择。
  6. 梯度下降法(Gradient Descent Method)

    • 原理:通过迭代优化的方法,利用梯度信息更新参数,使得目标函数(如损失函数)逐渐减小。
    • 应用:广泛应用于机器学习和深度学习中的参数估计。
    • 优点:适用于大规模数据和复杂模型,易于并行化。
    • 缺点:需要选择合适的学习率,可能会陷入局部最优解。

这些方法各有优缺点,具体选择需要根据实际问题的性质和数据特点来决定。在实际应用中,可能需要结合多种方法来达到最佳估计效果。

二、极大似然估计

极大似然估计法(Maximum Likelihood Estimation,简称MLE)是一种统计方法,用于估计使观测数据出现概率最大的模型参数。

极大似然估计的基本思想是,通过已知样本数据,找到使样本数据出现概率最大的参数值。换句话说,MLE 是寻找一个参数集,使得根据该参数集生成已知样本数据的概率(似然函数)达到最大。

公式

假设我们有一个参数为 θ \theta θ 的概率模型,给定一个样本数据集 X = { x 1 , x 2 , . . . , x n } X = \{x_1, x_2, ..., x_n\} X={x1,x2,...,xn},极大似然估计的目标是找到使得似然函数 L ( θ ) L(\theta) L(θ) 最大的 θ \theta θ。似然函数定义为:
L ( θ ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θ)=P(Xθ)=i=1nP(xiθ)

在实际操作中,我们通常对似然函数取对数(称为对数似然函数),因为对数函数是单调递增的,这样做简化了计算:
ℓ ( θ ) = log ⁡ L ( θ ) = ∑ i = 1 n log ⁡ P ( x i ∣ θ ) \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log P(x_i|\theta) (θ)=logL(θ)=i=1nlogP(xiθ)

例子

假设我们要估计一个均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2 的正态分布的均值 μ \mu μ,给定一个样本数据集 X = { x 1 , x 2 , . . . , x n } X = \{x_1, x_2, ..., x_n\} X={x1,x2,...,xn},其概率密度函数为:
f ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) f(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)

则似然函数为:
L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) L(μ,σ2)=i=1n2πσ2 1exp(2σ2(xiμ)2)

对似然函数取对数:
ℓ ( μ , σ 2 ) = − n 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2) = -\frac{n}{2} \log (2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 (μ,σ2)=2nlog(2πσ2)2σ21i=1n(xiμ)2

为了求解 μ \mu μ,我们对 ℓ ( μ , σ 2 ) \ell(\mu, \sigma^2) (μ,σ2) 关于 μ \mu μ 求导,并使导数等于零:
∂ ℓ ( μ , σ 2 ) ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 \frac{\partial \ell(\mu, \sigma^2)}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu) = 0 μ(μ,σ2)=σ21i=1n(xiμ)=0
⇒ μ ^ = 1 n ∑ i = 1 n x i \Rightarrow \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i μ^=n1i=1nxi

即,样本均值 μ ^ \hat{\mu} μ^ μ \mu μ 的极大似然估计。

Logo

GitCode AI社区是一款由 GitCode 团队打造的智能助手,AI大模型社区、提供国内外头部大模型及数据集服务。

更多推荐