隐语实训06-LR与GLM
连接函数的形式依赖于响应变量的分布,常见的连接函数包括恒等连接(用于正态分布)、对数连接(用于泊松分布)和逻辑连接(用于伯努利分布)。在广义线性模型的训练过程中,连接函数的选择和优化器的应用至关重要。秘密分享是MPC的一种形式,它允许多个参与方共同计算一个函数,而无需将各自的输入数据公开给对方。广义线性模型(GLM)是统计学中用于数据分析的一种灵活的通用模型,特别适用于响应变量服从指数分布族的情况
1.广义线性模型(GLM)
广义线性模型(GLM)是统计学中用于数据分析的一种灵活的通用模型,特别适用于响应变量服从指数分布族的情况。GLM由三个主要组成部分构成,每部分具有特定的统计学和数学意义:
-
随机组件:随机组件指定了响应变量的概率分布。在GLM中,这个分布属于指数分布族,这是一类包括伯努利分布、正态分布、泊松分布等在内的分布。指数分布族的通用形式可以表示为:
f(y;θ,ϕ)=exp(yθ−b(θ)a(ϕ)+c(y,ϕ))f(y;\theta,\phi) = \exp \left(\frac{y\theta - b(\theta)}{a(\phi)} + c(y,\phi)\right)f(y;θ,ϕ)=exp(a(ϕ)yθ−b(θ)+c(y,ϕ))
其中,θ\thetaθ 和 $\phi 分别是自然参数和离散参数,分别是自然参数和离散参数,分别是自然参数和离散参数,b(\theta)、、、a(\phi) $和 c(y,ϕ)c(y,\phi)c(y,ϕ) 是特定于分布的函数。
-
线性预测器:线性预测器是一个线性表达式,它将解释变量(自变量)与响应变量关联起来。通常形式为:
η=Xβ\eta = X\betaη=Xβ
其中,η\etaη 是线性预测的结果,XXX 是数据的设计矩阵,β\betaβ 是待估计的参数向量。
-
连接函数:连接函数 ggg 将线性预测 η\etaη 与响应变量的期望值 μ\muμ 关联起来。它的作用是确保模型的线性部分可以适应任何必要的分布形式。连接函数的形式依赖于响应变量的分布,常见的连接函数包括恒等连接(用于正态分布)、对数连接(用于泊松分布)和逻辑连接(用于伯努利分布)。
2.逻辑回归(Logistic Regression)
逻辑回归是广义线性模型的一个特例,适用于响应变量为二分类的情况(如是/否决策)。其连接函数为逻辑函数,它将线性预测值映射到概率值(0到1之间):
-
逻辑函数公式:
p=11+e−ηp = \frac{1}{1 + e^{-\eta}}p=1+e−η1
其中,ppp 是事件发生的概率,η\etaη 是线性预测 η=Xβ\eta = X\betaη=Xβ。
-
模型的优化:逻辑回归通常使用最大似然估计(MLE)来估计参数 β\betaβ,并常通过迭代算法如牛顿法或梯度下降法进行求解。
3.多方安全计算(MPC)在GLM中的应用
在需要保护数据隐私的统计分析和机器学习中,可以通过多方安全计算(MPC)技术实现GLM或LR的安全训练。秘密分享是MPC的一种形式,它允许多个参与方共同计算一个函数,而无需将各自的输入数据公开给对方。
- 秘密分享的基本原理:在秘密分享中,每个数据点被分割为多个“份额”,每个参与方只获得份额之一。只有当所有份额重新组合时,原始数据才能被恢复。这使得单个参与方无法单独获得关于数据的任何信息。
- 运算保密性:MPC允许参与方在保持各自数据份额私密的前提下,执行如加法和乘法等运算。这是通过精心设计的协议实现的,如Beaver triples等,用于处理乘法运算中的复杂性。
逻辑回归和广义线性模型的应用广泛,涉及医疗、金融、社会科学等多个领域。通过结合MPC技术,这些模型不仅可以帮助我们解决实际问题,还能在处理敏感数据时提供必要的隐私保护。
4. 优化器与训练技巧
在广义线性模型的训练过程中,连接函数的选择和优化器的应用至关重要。一阶和二阶优化器各有优劣,而在实际应用中,往往需要结合使用。迭代重加权最小二乘法(IRLS)是在广义线性模型中常用的一种算法,适用于处理非线性问题。

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)