Chapter-6_回归分析
Chapter-6_回归分析本文内容摘自:https://seeing-theory.brown.edu/regression-analysis/cn.html回归分析是一种建立两个变量之间线性模型的方法。1. 最小二乘法最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯
Chapter-6_回归分析
本文内容摘自:
https://seeing-theory.brown.edu/regression-analysis/cn.html
回归分析是一种建立两个变量之间线性模型的方法。
1. 最小二乘法
最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。
选择一个数据集
拖动图中的数据点,观察它们对回归直线的影响。
点击下方表格来了解每个参数在最小二乘法中的具体含义。
n 是样本大小,也就是数据集中数据点的个数。
x ˉ \bar{x} xˉ 是 X 数据的均值,其数学定义如下:
x ˉ = ∑ i = 1 n x i n \bar{x} = \sum_{i=1}^{n}\dfrac{x_{i}}{n} xˉ=i=1∑nnxi
y ˉ \bar{y} yˉ 是 y y y 数据的均值,其数学定义如下:
y ˉ = ∑ i = 1 n y i n \bar{y} = \sum_{i=1}^{n}\dfrac{y_{i}}{n} yˉ=i=1∑nnyi
B 0 ^ \hat{B_{0}} B0^ 是回归直线的截距,目前的估计值的方差是 11.39。其数学定义如下:
B 0 ^ = y ˉ − B 1 ^ x ˉ \hat{B_{0}} = \bar{y} - \hat{B_{1}}\bar{x} B0^=yˉ−B1^xˉ
B 1 ^ \hat{B_{1}} B1^ 是回归直线的斜率,目前估计的方差是0.13。 其数学定义如下:
B 1 ^ = S x y S x x \hat{B_{1}} = \dfrac{S_{xy}}{S_{xx}} B1^=SxxSxy
S S E SSE SSE 指的是残差平方和(sum of squared error,其数学定义如下:
S S E = ∑ i = 1 n ( y i − ( B 0 ^ + B 1 ^ x i ) ) 2 SSE = \sum_{i=1}^{n}(y_{i} - (\hat{B_{0}} + \hat{B_{1}}x_{i}))^{2} SSE=i=1∑n(yi−(B0^+B1^xi))2
2. 相关性
相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是
r = s x y s x x s y y r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}} r=sxxsyysxy
其中
s x y = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) s x x = ∑ i = 1 n ( x i − x ˉ ) 2 s y y = ∑ i = 1 n ( y i − y ˉ ) 2 s_{xy} =\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y}) \\ s_{xx} =\sum^n_{i=1} (x_i-\bar{x})^2 \\ s_{yy} =\sum^n_{i=1} (y_i-\bar{y})^2 sxy=i=1∑n(xi−xˉ)(yi−yˉ)sxx=i=1∑n(xi−xˉ)2syy=i=1∑n(yi−yˉ)2
由上述定义我们可以看出 r ∈ [ − 1.1 ] r\in[-1.1] r∈[−1.1]。
我们还可以把相关性 r r r 理解为最小二乘法确定的 x , y x,y x,y 变量方向之间的余弦值。你可以通过 Edgar Anderson 的著名的 鸢尾花(Iris flower)数据集例子来进一步探索这个概念。选择下方鸢尾花种类:
点击下面相关性矩阵来探索各个品种鸢尾花之间的相关性。
实验效果:
(再次)选择:
实验效果:
3. 方差分析
方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。
选择一个数据集来进行探索:
3.1 数据集1.
你可以移动数据点然后观察这些改变如何影响方差分析的结果。
点击下方方差分析表格的各列来进一步了解各参数的意义。
S S E SSE SSE (sum of squared residuals)指的是残差平方和。其数学定义如下:
S S E = ∑ i = 1 n ( y i − y ˉ ) 2 SSE = \sum_{i=1}^{n} (y_{i} - \bar{y})^{2} SSE=i=1∑n(yi−yˉ)2
d f df df(degree of freedom)指的是自由度. 其数学定义如下:
d f = n − 1 df = n - 1 df=n−1
M S E MSE MSE(mean squared error)指的是均方差,其数学定义如下:
M S E = S S E d f MSE = \dfrac{SSE}{df} MSE=dfSSE
F F F 是一个检验统计量,其数学定义如下:
F = S S T / ( k − 1 ) S S E / ( n − k ) ∼ f k − 1 , n − k F = \dfrac{SST/(k-1)}{SSE/(n-k)} \sim f_{k-1,n-k} F=SSE/(n−k)SST/(k−1)∼fk−1,n−k
p p p 是由 F F F 统计量得出的 p 值。
3.2 数据集2
3.3 数据集3.
- 【看见统计】全文内容摘自:
https://seeing-theory.brown.edu/cn.html
- 【时间】2022.03.25

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)