当前位置：首页 > news >正文

网站建设合理化建议方案个人网页制作成品代码免费

news 2025/10/15 1:13:41

网站建设合理化建议方案,个人网页制作成品代码免费,iis php7 wordpress,巩义关键词优化推广1、Logistic回归分类在研究X对于Y的影响时#xff1a; 如果Y为定量数据#xff0c;那么使用多元线性回归分析#xff1b;如果Y为定类数据#xff0c;那么使用Logistic回归分析。结合实际情况#xff0c;可以将Logistic回归分析分为3类#xff1a; 二元Logistic回归…1、Logistic回归分类在研究X对于Y的影响时如果Y为定量数据那么使用多元线性回归分析如果Y为定类数据那么使用Logistic回归分析。结合实际情况可以将Logistic回归分析分为3类二元Logistic回归分析多元有序Logistic回归分析多元无序Logistic回归分析 Logistic回归分析用于研究X对Y的影响并且对X的数据类型没有要求X可以为定类数据也可以为定量数据但要求Y必须为定类数据并且根据Y的选项数使用相应的数据分析方法。如果Y有两个选项如有和无、是和否那么应该使用二元Logistic回归分析;如果Y有多个选项并且各个选项之间可以对比大小例如1代表“轻度”2代表“中度”3代表“重度”这3个选项具有对比意义数值越高代表样本的严重程度越高那么应该使用多元有序Logistic回归分析如果Y有多个选项并且各个选项之间不具有对比意义例如1代表“唱”2代表“跳”3代表“Rap”4代表“篮球”数值仅代表不同类别数值大小不具有对比意义那么应该使用多元无序Logistic回归分析。 2、二元逻辑回归因变量为二分类变量自变量可以为连续型变量也可以为分类变量预测自变量和因变量之间的显著关系。使用二元Logistic回归模型前需判断是否满足以下七个研究假设假设1因变量即结局是二分类变量。假设2有至少1个自变量自变量可以是连续变量也可以是分类变量。假设3每条观测间相互独立。分类变量包括因变量和自变量的分类必须全面且每一个分类间互斥。假设4最小样本量要求为自变量数目的15倍也有一些研究者认为样本量应达到自变量数目的50倍假设5连续的自变量与因变量的logit转换值之间存在线性关系。假设6自变量间不存在共线性。假设7没有明显的离群点、杠杆点和强影响点。参考链接https://www.zhihu.com/question/34502688/answer/329779658 2.1 二元逻辑回归分析步骤在进行二元logistic回归分析之前需要进行一些准备工作来提高分析结果的准确性。准备工作包括进行分析项即自变量的确定、多重共线性判断、以及变量处理三方面。 2.1.1 确定分析项自变量的确定因为影响因素比较多并不能确定单个影响因素是否会对因变量产生影响为了筛选确实对因变量有影响的自变量进行分析可以在进行二元logistic回归分析之前就单个因素的影响情况进行分析非必要步骤。根据影响因素类型不同可以分别进行方差分析t检验、卡方检验进行分析。连续变量使用方差分析分类变量使用卡方检验从方差分析和卡方检验的结果来看如果显著性差异P0.05,则对此变量予以保留但并不是P0.05的变量都要摒弃一般我们可以将显著性水平P值放宽至0.1、0.2都可以这是为了以防遗漏重要因素当然也可以在不满足显著性水平的自变量中挑选现实中或临床上觉得有意义的指标但是纳入模型的自变量不是越多越好原因如下当自变量过多的时候为了避免回归模型过拟合因此我们会基于P值差异性检验选择变量这种方法通过设定一个P值阈值如0.1、0.2来筛选变量只有那些P值小于阈值的变量才会被包括在模型中。这种方法可以帮助简化模型减少不必要的变量但也可能排除一些实际上对模型预测有贡献的变量。如果将所有自变量放入模型这种方法可能会包括所有可能影响因变量的变量但这也可能导致模型过拟合即模型在训练数据上表现良好但在新的、未见过的数据上表现不佳。此外过多的自变量可能导致模型解释性差因为很难确定哪些变量真正对结果有显著影响。有效纳入分析的数据量不能过少一般我们认为数据量至少是自变量数目的5~10倍。 2.1.2 多重共线性判断在模型纳入模型时纳入的变量也要考虑到变量之间的多重共线性如果模型中的变量之间存在高度相关性可能需要考虑移除一些相关性高的变量以减少模型的复杂性原因如下影响模型稳定性多重共线性意味着模型中的两个或多个自变量高度相关。这会导致模型的参数估计不稳定小的数据变化可能导致估计系数的大幅度波动。降低模型解释能力当存在多重共线性时很难确定是哪一个自变量对因变量有显著影响因为它们之间的影响可能会相互掩盖。这降低了模型的解释能力使得研究者难以解释模型结果。影响模型预测能力由于参数估计的不稳定性多重共线性可能会降低模型的预测准确性。模型可能在训练数据上表现良好但在新的、未见过的数据上表现不佳。统计显著性问题多重共线性可能导致统计检验的P值不准确使得原本不显著的变量被错误地认为显著或者相反显著的变量被错误地忽略。模型复杂性多重共线性可能导致模型过于复杂包含不必要的变量这不仅增加了模型的计算成本也可能使得模型难以理解和应用。为了判断多重共线性常用的统计量包括方差膨胀因子Variance Inflation Factor, VIF和容忍度Tolerance。VIF值大于10通常被认为是严重的多重共线性。如果发现模型中存在多重共线性可以采取以下措施移除相关性高的变量从模型中移除一些高度相关的自变量。合并变量如果两个变量高度相关可以考虑将它们合并为一个新的变量。增加样本量有时候增加样本量可以减轻共线性问题。使用主成分分析PCA或因子分析这些方法可以减少变量的数量同时保留大部分信息。在进行二元逻辑回归之前确保模型中没有严重的多重共线性可以帮助提高模型的稳定性、解释能力和预测能力。共线性诊断SPSS流程 1、分析–回归–线性 2、填入因变量 -- 填入自变量 -- 统计量 -- 勾选共线性诊断 3、结果展示从上表可以看出VIF值均小于5说明模型并不存在共线性问题。如果存在共线性问题可使用岭回归或者逐步回归进行解决。 2.1.3 数据预处理在进行二元逻辑回归之前进行数据预处理是一个关键步骤原因包括提高模型准确性通过预处理可以确保数据的质量减少噪声和异常值的影响从而提高模型的预测准确性。处理缺失值数据集中的缺失值会影响模型的训练。预处理可以帮助决定如何处理这些缺失值例如通过删除、填充或使用模型预测缺失值。变量转换某些变量可能需要转换如对数转换、标准化、归一化等以满足线性回归模型的假设或者改善变量与因变量之间的关系。处理异常值异常值可能会扭曲模型的参数估计。通过识别和处理异常值可以避免这些极端值对模型的影响。变量选择通过预处理可以进行变量选择移除不相关或冗余的变量从而简化模型并减少多重共线性的风险。编码分类变量逻辑回归模型通常需要数值输入因此需要将分类变量如性别、种族等转换为数值形式如使用哑变量编码。平衡数据集在二元逻辑回归中如果数据集中的两个类别如0和1分布极不平衡可能需要进行过采样或欠采样来平衡数据集以避免模型偏向于多数类。理解数据结构预处理过程中的数据探索可以帮助研究者更好地理解数据的结构和潜在问题为模型的建立提供指导。提高计算效率清洗和预处理数据可以减少不必要的计算提高模型训练的效率。确保模型假设逻辑回归模型有一些基本假设如线性关系、独立性等。预处理可以帮助确保数据满足这些假设从而使得模型结果更可靠。数据哑变量处理因变量0-1编码二元logistic回归分析要求因变量必须用数字0、1进行编码即“是”用1表示“否”用0表示。2 分类自变量哑变量处理二元logistic回归分析中自变量既可以是定量数据也可以是分类数据如果是分类数据需要进行哑变量处理在分析时将生成的哑变量少放一项作为参考项。在进行分析时对于严重程度【正常、轻、中、重度】4个哑变量需要保留一项作为对照项不放进分析框中。比如将“正常”作为对照项则不将该哑变量放入分析框中将剩下的3类程度放进分析框中。 2.2 SPSS二元逻辑回归流程 1、分析–回归–二元Logistic 2、填入因变量–填入自变量 3、选项–勾选【Hosmer-Lemeshow拟合度】–勾选【exp(B)的CI(X)】–勾选【在最后一个步骤中】 2.3 模型拟合评价二元logistic回归分析的模型拟合情况判断可以分为两类分别是模型系数的综合检验Hosmer-Lemeshow拟合度检验 2.2.1 模型系数的综合检验模型系数的综合检验用于对整体模型的有效性进行检验模型系数的综合检验通常是指对模型中所有自变量系数的联合显著性进行检验。在二元逻辑回归中这通常涉及到检验所有自变量系数是否同时等于零。如果检验结果表明这些系数显著不为零那么我们可以认为模型中的自变量集合对因变量有显著影响。从上图可以看出模型系数的综合检验的p值小于0.05说明模型是有效的反之说明模型无效。在二元逻辑回归分析中Cox Snell R方和Nagelkerke R方都是用来衡量模型拟合优度的指标它们提供了模型解释变量对响应变量变异性的量化度量。由于逻辑回归模型的输出是概率而不是线性回归中的直接响应变量因此不能直接使用传统的R方来衡量模型的拟合优度。Cox Snell R方和Nagelkerke R方作为伪R方提供了一种替代的方法。 Cox Snell R方 Cox Snell R方衡量的是模型相对于一个只有截距的模型即没有自变量的模型的改进程度。 Cox Snell R方的值范围在0到1之间值越大表示模型的拟合越好。但是它的最大值通常小于1这意味着它不能完全反映模型的解释能力。 Nagelkerke R方 Nagelkerke R方是对Cox Snell R方的调整使其最大值可以达到1从而提供了一个更直观的衡量模型拟合优度的指标。 Nagelkerke R方的值范围也是0到1它考虑了模型中自变量的数量因此在比较包含不同数量自变量的模型时更为公平。在实际应用中Cox Snell R方和Nagelkerke R方通常都会被报告因为它们提供了从不同角度评估模型拟合优度的方法。然而需要注意的是这些伪R方值并不像线性回归中的R方那样直接反映模型解释的方差比例它们的值通常较小且在比较不同模型时需要谨慎。此外这些指标的值不应该被用来跨数据集比较模型的拟合优度而应该在同一数据集内比较不同模型的拟合程度。在解释这些指标时应该结合模型的其他方面如预测准确性、变量的显著性以及模型的实际应用价值。 2.2.2 Hosmer-Lemeshow拟合度检验 Hosmer-Lemeshow拟合度检验是用于评估二元逻辑回归模型拟合优度的一种统计方法。这种检验的目的是检查模型预测的概率与实际观测到的概率之间是否存在显著差异。如果模型预测的概率与实际概率非常接近那么我们可以认为模型拟合得较好如果存在显著差异则表明模型可能没有很好地捕捉到数据中的信息。 Hosmer-Lemeshow检验的步骤如下计算预测概率对于模型中的每个观测值使用逻辑回归模型计算出因变量发生的概率。分组将所有观测值根据预测概率分成若干组通常为10组每组包含大约10%的观测值。分组的目的是将预测概率相近的观测值放在一起。计算观察频率和预期频率对于每组计算实际发生因变量的观测频率即实际发生的事件数除以该组的总观测数和预期频率即根据模型预测概率计算的预期事件数。计算卡方统计量使用观察频率和预期频率计算卡方统计量。这个统计量衡量了观察到的事件数与预期事件数之间的差异。确定P值将计算出的卡方统计量与相应的卡方分布进行比较以确定P值。P值表示在模型正确的情况下观察到当前或更极端的卡方统计量的概率。做出决策如果P值大于预先设定的显著性水平通常为0.05则没有足够的证据拒绝模型拟合良好的假设即模型拟合度可接受。如果P值小于显著性水平则拒绝模型拟合良好的假设表明模型可能不适合数据。 Hosmer-Lemeshow检验的一个关键点是选择分组的数量。分组数量的选择可能会影响检验的结果因此在实际应用中需要谨慎选择。此外这种检验假设模型中的预测变量与因变量之间存在线性关系如果这种假设不成立检验结果可能不准确。 Hosmer-Lemeshow拟合度检验简写为HL检验用于判断模型拟合优度。p值大于0.05则说明通过HL检验反之则说明模型没有通过HL检验模型拟合优度差。从上表可知检验对应的 p值大于0.05说明本次模型通过HL检验模型拟合优度较好。 2.3 回归分析结果解读 2.3.1 sig.(全称是significance) 在统计学中“sig” 是 significance的缩写它通常用来表示统计显著性。统计显著性是指在进行假设检验时观察到的数据与原假设null hypothesis之间的差异是否足够大以至于不太可能仅仅是由于随机变异造成的。换句话说它衡量的是拒绝原假设的证据强度。在实际应用中研究者会设定一个显著性水平α这个水平通常设定为0.05、0.01或其他阈值取决于研究的具体情况和领域标准。如果计算出的P值概率值小于这个显著性水平那么结果被认为是统计显著的sig.这意味着有足够的证据拒绝原假设认为观察到的效应或差异是真实的。例如如果一个研究的显著性水平设定为0.05而计算出的P值为0.03那么这个结果就是统计显著的sig.因为P值小于0.05。这表明观察到的数据不太可能仅仅是由于随机因素产生的从而支持了备择假设alternative hypothesis。在二元逻辑回归结果中如果sig.小于研究者设定的显著性水平(一般为0.05)那么研究者会拒绝原假设认为该自变量对因变量响应变量有显著的影响。在这种情况下我们说该自变量在统计上是显著的。只有在自变量P值小于设定的显著性水平值时此自变量才纳入模型中。 2.3.2 B回归系数在二元逻辑回归结果中“B” 通常指的是回归系数也就是偏回归系数。在逻辑回归模型中这些系数表示的是自变量解释变量对因变量通常是二分类的响应变量的对数几率log odds的影响。每个回归系数代表了在其他自变量保持不变的情况下相应自变量每增加一个单位对数几率的变化量。偏回归系数是在控制了模型中所有其他自变量的影响后单个自变量对因变量的影响。在逻辑回归中由于模型的性质回归系数和偏回归系数是相同的。这意味着当我们谈论 “B” 值时我们实际上是在讨论在给定其他自变量的情况下每个自变量对因变量对数几率的边际影响。在输出结果中每个自变量的回归系数B旁边通常会有一个标准误差SE和P值用于评估该系数的统计显著性。如果P值小于显著性水平如0.05则认为该自变量在统计上显著即它对因变量有显著的影响。 B或称为回归系数的大小和符号代表了自变量解释变量对因变量响应变量的影响程度和方向。具体来说 B的大小 B的绝对值越大表示自变量每变化一个单位因变量发生的概率变化越大。换句话说自变量对因变量的影响越强。在逻辑回归中B的值通常被解释为对数几率log odds的变化。例如如果B的值为0.5那么自变量每增加一个单位因变量发生的概率大约会增加到原来的1.65倍因为 B的符号 B的符号表示自变量对因变量影响的方向。如果B为正表示自变量与因变量呈正相关即自变量的增加会导致因变量发生的概率增加。如果B为负表示自变量与因变量呈负相关即自变量的增加会导致因变量发生的概率减少。在解释逻辑回归模型的系数时还需要注意以下几点解释系数时要考虑模型的整体单个系数的解释需要在模型的整体背景下进行因为模型中的其他变量可能会影响特定系数的解释。考虑系数的显著性通常我们会计算每个系数的标准误差和对应的P值以判断该系数是否在统计上显著。如果P值小于显著性水平如0.05则认为该系数显著即自变量对因变量的影响是统计上显著的。考虑模型的其他统计指标除了单个系数还需要考虑模型的整体拟合优度如伪R方、模型的预测能力以及模型中可能存在的多重共线性等问题。总之B的大小和符号在二元逻辑回归中提供了自变量对因变量影响程度和方向的重要信息但这些信息需要结合模型的其他统计指标和背景来综合解释。 2.3.3 Wald 在二元逻辑回归分析中Wald通常指的是Wald统计量这是一种用于检验模型中单个自变量系数显著性的统计方法。Wald统计量是基于最大似然估计MLE的它衡量的是模型中某个特定参数的估计值与零的差异程度。在二元逻辑回归模型中Wald统计量用于检验每个自变量的系数是否显著不为零。如果一个自变量的Wald统计量显著即对应的P值小于预先设定的显著性水平如0.05则认为该自变量对因变量有显著影响。换句话说这个自变量在模型中是重要的不应该被移除。 Wald统计量的计算公式通常如下其中 β^是自变量系数的估计值。SE( β^) 是估计值的标准误差。 Wald统计量遵循卡方分布其自由度等于自变量的系数个数。在实际应用中Wald统计量的结果通常与P值一起报告P值提供了在零假设自变量系数为零下观察到当前统计量或更极端情况的概率。如果P值小于显著性水平我们拒绝零假设认为自变量对因变量有显著影响。 Wald统计量的大小代表了自变量系数估计值相对于其标准误差的大小。具体来说Wald统计量是一个比值它衡量的是估计的系数β)与零即没有影响之间的差异程度相对于估计系数的标准误差(SE( β^))。 Wald统计量的大小可以解释如下如果Wald统计量较大意味着估计的系数与零的差异较大这通常表明自变量对因变量有较强的影响且这种影响在统计上不太可能是偶然发生的。在这种情况下对应的P值通常较小表明自变量在统计上是显著的。如果Wald统计量较小意味着估计的系数与零的差异不大这可能表明自变量对因变量的影响较弱或不显著。在这种情况下对应的P值较大可能不会拒绝零假设即认为自变量对因变量没有显著影响。在实际应用中Wald统计量的大小可以帮助研究者理解每个自变量在模型中的重要性。然而需要注意的是Wald统计量的大小并不直接反映影响的大小或方向它只是用来检验系数是否显著不为零。影响的大小和方向通常通过系数的估计值β^和其解释如比值比Odds Ratio来解释。 2.3.4 EXP(B)及EXPB的95%C.I.上下限在二元逻辑回归结果中EXP(B) 通常指的是回归系数B的指数化也就是比值比Odds Ratio简称OR。这个值用于解释自变量对因变量的影响强度和方向。EXP(B) 的95%置信区间C.I.提供了一个范围用于估计这个比值比的真实值在多大程度上是可信的。 EXP(B) EXP(B) 表示的是自变量每变化一个单位因变量发生的几率比odds ratio的变化。如果 EXP(B) 大于1表示自变量的增加与因变量发生几率的增加相关如果 EXP(B) 小于1表示自变量的增加与因变量发生几率的减少相关如果 EXP(B) 等于1表示自变量的变化与因变量发生几率无关。在逻辑回归中OR值Odds Ratio用于衡量自变量与因变量之间关联的强度和方向。OR值的解释依赖于其数值大小如果因变量代表的是一个不希望发生的结果时如果OR值大于1通常表示自变量与因变量之间存在正相关即自变量的增加与因变量的发生风险增加相关此时自变量被视为危险因素。如果OR值小于1表示自变量与因变量之间存在负相关即自变量的增加与因变量的发生风险减少相关此时自变量被视为保护因素。如果OR值等于1表示自变量与因变量之间没有显著的关联。在二元逻辑回归中当OR值Odds Ratio几率比大于1时确实表示自变量与因变量之间存在正向关联。这意味着自变量的增加与因变量发生的几率增加相关。然而是否将这种正向关联解释为“危险性因素”取决于因变量的性质如果因变量代表的是一个不希望发生的结果例如疾病、事故等那么自变量的正向关联OR 1通常被视为危险性因素因为它增加了不希望结果发生的风险。相反如果因变量代表的是一个积极的结果例如康复、成功等那么自变量的正向关联OR 1可能被视为保护性因素因为它增加了积极结果发生的可能性。 95% C.I. 上下限 95%置信区间的上下限提供了一个范围表示我们可以有95%的把握认为真实的比值比落在这个区间内。如果这个区间不包含1那么我们可以认为自变量对因变量的影响在统计上是显著的。大小和符号的解释 EXP(B) 的大小表示自变量对因变量影响的强度。值越大表示影响越强值越小表示影响越弱。EXP(B) 的符号表示影响的方向。大于1表示正向影响小于1表示负向影响。例如: 如果一个自变量的 EXP(B) 为2.595% C.I.上下限分别为1.5和4.0这意味着我们可以有95%的把握认为该自变量每增加一个单位因变量发生的几率比真实值在1.5到4.0之间。由于这个区间不包含1我们可以认为这个自变量对因变量有显著的正向影响。当一个自变量的EXP(B)的95%置信区间C.I.跨越了1例如上下限分别为0.5和4.0这意味着我们不能确定该自变量对因变量的影响是正向的还是负向的或者是否有显著影响。由于在这种情况下置信区间包含了1表明真实的几率比Odds Ratio可能大于1正向影响也可能小于1负向影响或者恰好等于1没有影响。由于95% C.I.的下限为0.5这表明如果自变量增加一个单位因变量发生的几率可能会减少因为0.5小于1。由于同时由于上限为4.0这也表明因变量发生的几率可能会增加。因此我们不能得出关于自变量影响方向的明确结论只能说在当前的数据和模型下自变量对因变量的影响是不确定的。在实际研究中遇到这种情况时研究者通常会谨慎地解释结果指出自变量的影响方向和显著性是不确定的并可能需要更多的数据或进一步的研究来探索这一关系。同时研究者也可能会考虑模型的假设、数据的质量和可能的混杂因素以确保分析的准确性。 3、多元有序逻辑回归 4、多元无序逻辑回归待续。。。。。。

查看全文

http://www.tj-hxxt.cn/news/218509.html