网站建设合同甲乙双方怎么确定,深圳福田在线,直播网站是怎么做的,杭州网站建设咨询蓝韵网络文章目录统计学 多元线性回归多元线性回归模型拟合优度显著性检验线性关系检验回归系数检验多重共线性及其处理多重共线性的问题多重共线性的识别与处理变量选择利用回归方程进行预测哑变量回归统计学 多元线性回归
多元线性回归模型
多元线性回归模型#xff1a;设因变量为…
文章目录统计学 多元线性回归多元线性回归模型拟合优度显著性检验线性关系检验回归系数检验多重共线性及其处理多重共线性的问题多重共线性的识别与处理变量选择利用回归方程进行预测哑变量回归统计学 多元线性回归
多元线性回归模型
多元线性回归模型设因变量为 yyy kkk 个自变量分别为 x1x_1x1 x2x_2x2 ⋯\cdots⋯ xkx_kxk 一般表示形式为 yβ0β1x1β2x2⋯βkxkεy\beta_0\beta_1x_1\beta_2x_2\cdots\beta_kx_k\varepsilon yβ0β1x1β2x2⋯βkxkε 这里对误差项 ε\varepsilonε 同样有三个基本的假定
正态性ε\varepsilonε 是一个服从期望为 0 的正态分布的随机变量意味着给定 x1x_1x1 x2x_2x2 ⋯\cdots⋯ xkx_kxk 的值yyy 的期望值为 E(y)β0β1x1⋯βkxkE(y)\beta_0\beta_1x_1\cdots\beta_kx_kE(y)β0β1x1⋯βkxk 方差齐性对于自变量 x1x_1x1 x2x_2x2 ⋯\cdots⋯ xkx_kxk 的所有值ε\varepsilonε 的方差 σ2\sigma^2σ2 都相同 独立性对于自变量 x1x_1x1 x2x_2x2 ⋯\cdots⋯ xkx_kxk 的不同值ε\varepsilonε 之间相互独立
最小二乘法根据残差的平方和最小估计多元回归模型中的参数 β^0\hat\beta_0β^0 β^1\hat\beta_1β^1 ⋯\cdots⋯ β^k\hat\beta_kβ^k Q∑(yi−y^i)2∑(yi−β^0−β^1x1−⋯−β^kxk)2minQ\sum(y_i-\hat y_i)^2\sum(y_i-\hat\beta_0-\hat\beta_1x_1-\cdots-\hat\beta_kx_k)^2\min Q∑(yi−y^i)2∑(yi−β^0−β^1x1−⋯−β^kxk)2min 标准化回归方程在计算最小二乘法前对因变量和各个自变量进行标准化处理再计算回归方程其中标准化回归系数记作 βˉ\bar\betaβˉ 比较不同的 βˉi\bar\beta_iβˉi 我们可以得到对因变量来说最重要的变量
拟合优度
拟合优度主要由多重决定系数或估计标准误差等统计量来评价。 多重决定系数同样将总平方和分解为回归平方和加误差平方和 SST∑(yi−yˉ)2SSRSSE∑(yi^−yˉ)2∑(yi−yi^)2SST\sum(y_{i}-\bar{y})^2SSRSSE\sum(\hat{y_{i}}-\bar{y})^{2}\sum(y_{i}-\hat{y_{i}})^{2} SST∑(yi−yˉ)2SSRSSE∑(yi^−yˉ)2∑(yi−yi^)2 多重决定系数 R2R^{2}R2 为 R2SSRSSTR^{2}\frac{SSR}{SST} R2SSTSSR 多重决定系数表示因变量 yyy 的总变差中被多个自变量所解释的比例在多元线性回归中自变量的个数将会影响到因变量中被估计回归方程所揭示的变差数量。即使再增加一个新的自变量该自变量在统计上并不显著也会导致多重决定系数 R2R^{2}R2 增大因此我们引入调整的多重决定系数 Ra2R_{a}^{2}Ra2 Ra21−(1−R2)×n−1n−k−1R_{a}^{2}1-(1-R^{2})\times \frac{n-1}{n-k-1} Ra21−(1−R2)×n−k−1n−1 其中 nnn 为样本数量kkk 为自变量的个数这样调整过后的多重决定系数总会小于原来的系数不会因为自变量的个数增加而导致 R2R^{2}R2 越来越接近于 1所以实际当中一般使用调整过后的多重决定系数进行评价。
估计标准误差即残差平方和的平方根是对误差项 ε\varepsilonε 的标准差 σ\sigmaσ 的一个估计值 se∑(yi−y^i)2n−k−1SSEn−k−1s_e\sqrt{\frac{\sum(y_i-\hat y_i)^2}{n-k-1}}\sqrt{\frac{SSE}{n-k-1}} sen−k−1∑(yi−y^i)2n−k−1SSE ses_ese 可解释为根据自变量 x1x_1x1 x2x_2x2 ⋯\cdots⋯ xkx_kxk 来预测因变量 yyy 时的平均预测误差
显著性检验
线性关系检验
线性关系检验检验因变量 yyy 与 kkk 个自变量之间的关系是否显著也称为总体显著性检验
① 提出假设
H0H_0H0 β1β2⋯βk0\beta_1\beta_2\cdots\beta_k0β1β2⋯βk0 因变量 yyy 与 kkk 个自变量之间的关系不显著H1H_1H1 βi\beta_iβi 中至少有一个不为 0因变量 yyy 与 kkk 个自变量之间的关系显著
② 计算检验统计量FFF 检验 FSSR/kSSE/(n−k−1)MSRMSE∼F(k,n−k−1)F\frac{SSR/k}{SSE/(n-k-1)}\frac{MSR}{MSE}\sim F(k,\,n-k-1) FSSE/(n−k−1)SSR/kMSEMSR∼F(k,n−k−1) ③ 作出决策算出 PPP 值根据显著性水平 α\alphaα 决定是否拒绝原假设
回归系数检验
回归系数检验判断每个自变量对因变量的影响是否都显著需要对每个回归系数 βi\beta_iβi 进行 ttt 检验
① 提出假设
H0H_0H0 βi0\beta_i0βi0 xix_ixi 对 yyy 的影响不显著H1H_1H1 βi̸0\beta_i\not0βi0 xix_ixi 对 yyy 的影响显著
② 计算检验统计量 ttt tiβ^isβ^i∼t(n−k−1)t_i\frac{\hat{\beta}_i}{s_{\hat{\beta}_i}}\sim t(n-k-1) tisβ^iβ^i∼t(n−k−1) 其中 sβ^is_{\hat{\beta}_i}sβ^i 是回归系数 β^i\hat{\beta}_iβ^i 的抽样分布的标准差计算公式为xj.ix_{j.i}xj.i 代表第 jjj 组自变量中的第 iii 个自变量即每一组中的第 iii 个自变量 sβi^se∑(xj.i−xˉi)2s_{\hat{\beta_i}}\frac{s_e}{\sqrt{\sum(x_{j.i}-\bar{x}_i)^2}} sβi^∑(xj.i−xˉi)2se
多重共线性及其处理
多重共线性的问题
多重共线性回归模型中两个或两个以上的自变量彼此相关
① 若 kkk 个自变量之间存在高度相关时有可能造成某一个或几个回归系数通不过检验但并不意味着没通过检验的那些自变量对因变量的影响就不显著只是这些相关的自变量提供了多余的信息。例如通过了 FFF 检验但某些回归系数没有通过 t 检验并不代表没有通过 t 检验的自变量对因变量的影响不显著可能只是它的贡献与其他自变量的贡献重叠了
② 多重共线性可能对回归系数的符号造成影响有可能几个相关的自变量中某些自变量的回归系数较大导致另一些自变量要抵消一部分作用所以回归系数算出来是负的但是并不意味着它们与因变量是负相关的关系
多重共线性的识别与处理
识别方法
① 对模型中各自变量之间的相关系数进行显著性检验若存在某些自变量是显著相关的那么可能存在多重共线性
② 考察各回归系数的显著性若通过 FFF 检验而几乎所有的回归系数都没有通过 t 检验那么就可能存在多重共线性
③ 分析回归系数的正负号如果回归系数的正负号与预期现实经验相反那么就可能存在多重共线性
④ 计算容忍度和方差扩大因子VIF来识别共线性 tolerance1−Ri2VIF11−Ri21tolerancetolerance1-R^2_i \\ VIF\frac{1}{1-R_i^2}\frac{1}{tolerance} tolerance1−Ri2VIF1−Ri21tolerance1 其中 Ri2R_i^2Ri2 代表将第 iii 各自变量看作因变量其他 k−1k-1k−1 个自变量对其造成影响的决定系数容忍度越小方差扩大因子越大大于5或10多重共线性越严重
处理方法
① 将一个或多个相关的自变量从模型中剔除使得自变量之间尽量不相关
② 如果要在模型中保留所有自变量则要避免对单个回归系数进行 t 检验并且将对因变量 yyy 值的推断限定在自变量样本的范围内
③ 在建立模型之前有选择地确定进入模型的自变量
变量选择
在多重共线性的处理中变量选择是有效方法。在建立多元线性回归模型时不要试图引入更多的自变量除非确实有必要。选择自变量的原则是将某个自变量引入回归模型时应当使残差平方和SSE有显著的降低否则就没有必要。
变量选择的主要方法有向前选择、向后剔除、逐步回归
向前选择从没有自变量开始按照步骤逐步选择自变量特点是被选择的自变量不会再被剔除。
分别拟合因变量 yyy 与 kkk 个自变量的一元线性回归模型找到 FFF 统计量最大PPP 值最小代表线性关系越显著的模型对应的自变量 xix_ixi 将其引入模型分别拟合因变量 yyy 与 k−1k-1k−1 个新的自变量 xix1,xix2,⋯,xixkx_ix_1,\,x_ix_2,\,\cdots,\,x_ix_kxix1,xix2,⋯,xixk 进行一元线性回归的 FFF 检验找到 FFF 统计量最大PPP 值最小代表线性关系越显著的模型对应的自变量 xjx_jxj 将其引入模型重复直到满足某种条件达到预设的变量数量达到预设的显著性水平达到算法的最大迭代次数模型预测性能SSE不能再提升
向后剔除从完整模型开始按照步骤逐步剔除自变量特点是被剔除的自变量不会再进入模型。
计算完整的多元回归模型分别拟合因变量 yyy 与剔除每一个自变量、保留剩下的 k−1k-1k−1 个自变量时的回归模型挑出 FFF 统计量最大PPP 值最小 / SSE 增加最少的模型则保留该模型的 k−1k-1k−1 个自变量重复直到满足某种条件达到预设的变量数量达到预设的显著性水平达到算法的最大迭代次数模型预测性能SSE不能再提升
逐步回归结合前两种方法开始时与向前选择法相同但增加一个自变量后要对模型中所有自变量进行考察若有些自变量对模型的影响变得不显著则将其剔除直到增加变量已经不能导致 SSESSESSE 显著减少。特点是加入模型的自变量也可能被剔除被剔除的自变量也可能重新加入模型中。
利用回归方程进行预测
书上没给公式耶因为比较复杂但是跟一元线性回归一样可以进行点估计、平均值的置信区间估计和个别值是预测区间估计。可以借助软件来完成。
哑变量回归
哑变量又称虚拟变量即代码化的定性自变量一位热键OneHotEncode如果定性自变量又 kkk 个水平需要在回归模型中引入 k−1k-1k−1 个哑变量 x1{1水平10其他水平x2{1水平20其他水平⋯xk−1{1水平k−10其他水平x_1\left\{ \begin{array}{ll} 1 水平\,1 \\ 0 其他水平 \end{array} \right. \quad x_2\left\{ \begin{array}{ll} 1 水平\,2 \\ 0 其他水平 \end{array} \right. \quad\cdots\quad x_{k-1}\left\{ \begin{array}{ll} 1 水平\,k-1 \\ 0 其他水平 \end{array} \right. x1{10水平1其他水平x2{10水平2其他水平⋯xk−1{10水平k−1其他水平 只有一个定性自变量且处理有两种不论数值自变量有几种的情况例如性别用 1 和 0 编码那么 β0\beta_0β0 总是代表哑变量值 0 所对应的那个类别变量水平的平均值而 βi\beta_iβi 即定性自变对应的回归系数总是代表哑变量值 1 所对应的那个类别变量水平的平均值与哑变量值 0 所对应的那个类别变量水平的平均值的差值。