当前位置: 首页 > news >正文

本机iis发布网站后台管理网站加速代码

本机iis发布网站后台管理,网站加速代码,怎么可以在百度发布信息,建站网站官方****非斜体正文为原文献内容#xff08;也包含笔者的补充#xff09;#xff0c;灰色块中是对文章细节的进一步详细解释#xff01; 3.1.2 基于注意力的解释#xff08;Attention-Based Explanation#xff09; 注意力机制可以揭示输入数据中各个部分之间的关系#…****非斜体正文为原文献内容也包含笔者的补充灰色块中是对文章细节的进一步详细解释 3.1.2  基于注意力的解释Attention-Based Explanation 注意力机制可以揭示输入数据中各个部分之间的关系从而为模型的预测提供解释。许多现有方法尝试仅基于注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可以分为三组可视化方法、基于函数的方法和基于探测的方法。由于基于探测的方法通常用于学习全局解释因此将在第3.2.1节中讨论。此外关于注意力权重是否适合解释的研究存在广泛争议。这一主题将在后面的讨论中涵盖。 3.1.2.1 可视化Visualizations a 第 6 层句子 A 和句子 B 之间注意力矩阵的二分图注意力表示 Vig 2019; 通过使用二部图或热图显示单个输入的注意力模式和统计数据可视化提供了一种直观的方式来理解模型的工作原理。这些技术涉及在不同尺度上表示关系以不同形式为不同模型表示注意力。 在输入数据层面根据前提句和假设句之间的每个单词/token/句子对的注意力得分以评估模型预测的可信度。一些系统还允许用户手动修改注意力权重以观察效果通过直接操作注意力权重可以增加或减少模型对特定单词的关注程度。 在自然语言处理中特别是在涉及逻辑推理或问答系统的任务时“前提句”和“假设句”通常指两个部分 前提句提供背景信息或已知事实的句子。假设句基于前提句提出的推论或问题。 例如在问答系统中前提句可能是一段文本描述假设句可能是基于该描述的问题。注意力机制会帮助模型识别前提句中哪些部分对回答假设句最为重要。 在神经元层面可以检查单个注意力头以理解模型行为。 注意力头本质上是一个计算加权平均的机制。每个注意力头都关注输入数据中的不同方面分析它们的激活模式可以揭示哪些输入部分与模型的输出最为相关。 每个注意力头能够学习到输入数据不同特征或模式主要是因为它们在训练过程中学习到了不同的权重矩阵。 那万一他们学到了相同的权重矩阵呢 理论上如果多个注意力头学习到相同的权重矩阵它们就会关注输入数据的相同方面导致模型效率低下和冗余。 这相当于多个注意力头在做重复的工作没有充分利用模型的计算能力。 然而这种情况在实际训练中很少发生主要原因如下 随机初始化: 如前所述注意力头的权重矩阵是随机初始化的。 这种随机性确保了它们在训练开始时就具有不同的参数降低了学习到相同权重矩阵的可能性。 反向传播算法和优化器: 反向传播算法和优化器例如Adam会不断调整权重矩阵以最小化损失函数。 这个过程会引导不同的注意力头学习到不同的参数以更好地捕捉输入数据的不同特征。 如果多个注意力头学习到相同的权重矩阵损失函数并不会得到显著的降低因此优化器会倾向于让它们学习到不同的参数。 正则化技术: 一些正则化技术例如dropout和weight decay可以防止模型过拟合并鼓励模型学习到更具泛化能力的参数。 这些技术也能间接地防止多个注意力头学习到相同的权重矩阵。 数据的多样性: 如果训练数据足够多样化那么不同的注意力头更有可能学习到不同的特征。 如果数据过于单一则可能导致多个注意力头学习到相同的权重矩阵。 在模型层面通过可视化模型中不同注意力头attention heads和层layers之间的注意力分布可以识别出一些特定的模式或规律。 也有工作侧重于可视化注意力流以追踪注意力的演变这可用于理解信息转换并实现模型之间的训练阶段比较DeRose et al. 2020。因此注意力可视化提供了一种明确的、交互式的方法来分析偏差、错误和评估决策规则。有趣的是它还有助于制定解释性假设。 3.1.2.2 基于函数的方法Function-Based methods 由于原始注意力不足以完全解释模型预测人们研发了更佳的变体以识别解释的重要归因。 梯度作为衡量敏感性与显著性的公认度量标准故而被广泛融入自定义归因分数内。 这些自定义归因分数在对涉及注意力权重的梯度的定义方式上存在差异。例如梯度可以是输出相对于注意力权重的偏导数 (Barkan et al., 2021)或者是偏导数的积分 (Hao et al., 2021)。梯度和注意力之间的操作也可以有所不同例如逐元素乘积。 总的来说这些融合注意力和梯度的归因分数通常比单独使用任何一个表现得更好因为它们融合了更多有助于突出重要特征和理解网络的信息。 3.1.2.3 关于注意力的辩论Debate Over Attention 有大量研究评估注意力头但关于这种方法有效性的辩论可能短期内不会解决。这场辩论源于几个关键方面。 首先一些工作将基于注意力的解释与其他方法如LIME进行比较发现注意力通常不能识别对预测最重要的特征 (Serrano Smith, 2019; Jain Wallace, 2019)。它们提供的解释不如其他方法Thorne等人2019或者不能与其他解释方法相关联Jain Wallace, 2019; Liu et al., 2020; Ethayarajh Jurafsky, 2021)。其次一些研究直接批判注意力机制在模型预测中的有效性。他们认为原始注意力未能捕捉文本中的句法结构可能不会像通常假设的那样对预测做出贡献Mohankumar等人2020。此外原始注意力包含冗余信息降低了其在解释中的可靠性Bai等人2021Brunner等人,2019。然而也有研究反驳了这些主张。例如评估解释模型一致性的挑战存在于许多方法中不仅只在基于注意力的方法中Neely等人2021。此外在不重新训练的情况下操纵注意力权重可能会使评估产生偏见biasWiegreffe和Pinter2019。并且BERT中的注意力头已被证明可以有效地编码语法Clark等人2019。 为了使注意力可解释人们还探索了技术解决方案如优化输入表示Mohankumar等人2020、规范化学习目标Moradi等人2021、避免有偏见bias的学习Bai等人2021甚至融入人类原理Arous等人2021。但持续辩论的核心原因是缺乏完善的评估标准这将在第5.1节中进一步讨论。 3.1.3 基于示例的解释Example-Based Explanations 基于示例的解释旨在从个体实例的角度解释模型行为。与基于模型或基于特征的解释不同基于示例的解释说明了模型输出如何随着不同输入而变化。我们关注对抗性示例、反事实解释和数据影响。 对抗性示例通常通过操纵输入数据中较不重要的部分来生成。它们揭示了模型失效或出错的案例揭示了其弱点。相比之下反事实解释主要通过改变输入数据的重要部分来生成它们在算法补救等场景中很受欢迎因为提供对期望结果的补救措施。与操纵输入不同数据影响检查训练数据如何影响模型对测试数据的预测。 3.1.3.1 对抗性示例Adversarial Example 研究表明神经模型对输入数据的微小变化非常敏感。这些微小的修改可以改变模型决策而几乎不会被人类察觉。对抗性示例对于揭示模型失效的领域至关重要并且通常被添加到训练数据中以提高鲁棒性和准确性。 以一种人类难以察觉的方式改变输入文本但分类会偏离原始分类Jin 等人2020 年译文(f) 分类。原始文本角色们被置于不可能的矫揉造作的情境中完全与现实脱节消极。扰动文本角色们被置于不可能的精心设计的环境中完全与现实脱节积极 对抗性示例最初是通过word级别操作生成的如错误、删除和插入这些在检查时是显而易见的。 word  和 token的区别 更高级的token级别扰动方法如TextFooler (Jin et al., 2020)已经发展起来它们基于排名策略,首先针对重要性高的单词。然后根据词嵌入相似性、词性相似性、句子语义相似性和预测偏移来选择候选词。然而与上下文相关的表示contextualized representations相比词嵌入word embedding在句子表示上存在局限性常常导致句子的表示变得不连贯。 “词嵌入”指的是将单词转换成固定维度的向量表示这种表示通常是通过预训练模型如Word2Vec、GloVe等得到的它们能够捕捉单词的语义信息但是它们是静态的不包含上下文信息。这意味着同一个单词在不同的句子中其词嵌入表示是相同的而不考虑它在句子中的上下文环境。 而“上下文相关的表示”则是指在特定上下文中单词的表示这种表示能够捕捉到单词在不同上下文中的不同含义。例如BERT、GPT等模型生成的词嵌入就是上下文相关的它们能够根据单词在句子中的位置和周围的单词来调整其向量表示从而更准确地捕捉单词的语义。 因此当使用词嵌入来表示整个句子时由于缺乏上下文信息可能会导致句子的各个部分之间缺乏连贯性使得句子的整体表示不够准确和自然。相比之下上下文相关的表示能够更好地捕捉句子的语义结构和连贯性。 通过关注上下文表示一系列采用掩码-填充mask-then-infill过程的工作已经取得了最先进的性能。它们利用预训练的掩码语言模型如BERT进行包括替换、插入和合并在内的扰动。通常使用大型语料库来训练掩码语言模型生成上下文表示并获得token的重要性排名。然后模型被冻结按照排名顺序对token进行扰动操作。 对于替换生成的示例替换 masked token。对于插入新token被插入到masked token的左侧或右侧。对于合并两个 token被mask并被替换为一个token。 SemAttack (Wang et al., 2022b) 提出了一个更通用且有效的框架适用于各种嵌入空间包括错别字空间、知识空间和上下文语义空间。输入token首先被转换到嵌入空间以生成被扰动的嵌入这些嵌入被迭代优化以满足攻击目标。实验表明即使在有防御措施的白盒设置中替换5%的单词可以将BERT的准确率从70.6%降低到2.4%。SemAttack的出色攻击性能可能是因为它直接操纵嵌入。 3.1.3.2 反事实解释Counterfactual Explanation 反事实解释是一种解释因果关系的方法它通过考虑“如果...会怎样”What if...?的问题来探究因果效应。具体来说反事实解释关注的是 反事实条件假设某个事件或条件没有发生那么结果会有什么不同因果效应某个因素是否真的导致了某个结果以及这种影响的程度。 例如如果一个病人服用了某种药物后康复了反事实解释会问“如果病人没有服用这种药物他还会康复吗”通过回答这个问题我们可以更好地理解药物和康复之间的因果关系。 e提供输入文本的负面示例以测试模型在情感预测方面的能力并且也可用于提高模型性能Wu 等人2021 年译文原始文本这对孩子们很好积极。 否定示例这对孩子们不好消极。 反事实解释是一种常见的因果解释形式使用Granger因果关系的概念来识别哪些输入变量可以用来预测输出变量。然后我们可以使用反事实解释来进一步探究这些输入变量对输出变量的因果影响。 Granger因果关系Granger Causality Granger因果关系是一种统计概念用于确定一个时间序列是否可以用来预测另一个时间序列。具体来说 预测能力如果时间序列X能够提供关于时间序列Y未来值的信息并且这种信息是Y过去的值所不能提供的那么我们可以说X在Granger意义上是Y的原因。统计测试通常通过回归分析和统计测试来确定X是否是Y的Granger原因。 给定一个观察到的输入x和一个具有某些特征变化的扰动ˆx预测y将变为ˆy。反事实解释揭示了基于某些观察到的输入变化将发生什么。反事实解释被用来满足特定的需求比如提供一种方法让用户能够通过改变输入数据中的某些特征来改变模型的预测结果例如通过选择特定的反事实来实现算法性补救。 例如如果一个人的贷款申请被拒绝反事实解释可以提供给他们一些可操作的反馈告诉他们需要改变哪些特征比如收入水平、信用评分等才能获得贷款批准这种反馈就是一种算法性补救。 示例可以由人类生成也可以通过如释义或单词替换等扰动技术生成。Polyjuice (Wu et al., 2021)是一个代表性的生成器它支持对输入句子进行多种排列类型的操作比如删除、否定和重新排序。它还可以根据token的重要性来扰动它们这意味着它能够识别并重点影响句子中的关键词汇。然后Polyjuice会在特定的原始句子和经过扰动的句子对上微调GPT-2这样做的目的是为了让生成的反事实解释更加适合特定的下游任务。与之前依赖人工的方法相比每个反事实解释的生成时间从2分钟降低到了10秒显著提高了效率Kaushik等人2020。 Polyjuice选择使用GPT-2作为其基础模型基础模型Foundation Model在这里指的是一个预训练好的、通用的模型它在大量的数据上进行了学习具备了处理多种下游任务的通用能力。这样的模型可以被微调finetune以适应特定的任务。 Polyjuice过程包括以下几个步骤 数据准备Polyjuice首先生成原始句子和扰动句子的配对。这些扰动句子是通过删除、否定、洗牌等方式从原始句子派生出来的。 微调过程接着Polyjuice使用这些句子对来微调GPT-2模型。微调的目的是让模型学会区分原始句子和扰动句子并理解它们之间的差异。通过比较这两种句子模型可以学习到如何对原始输入进行适当的扰动以生成符合特定任务需求的反事实解释。 适应下游任务通过微调Polyjuice使得GPT-2模型能够更好地适应特定的下游任务。 反事实解释生成被构建为一个两阶段方法首先mask/选择重要tokens然后填充/编辑这些tokens。 具体来说MiCE在第一阶段使用基于梯度的归因选择要mask的tokens然后在第二阶段通过二分搜索优化最小编辑量。Ross等人2021 第一阶段 别忘了前文提到过基于梯度的归因是一种技术它通过分析模型输出相对于每个输入特征的偏导数来确定每个输入特征的重要性。在文本处理中这可以被用来选择对模型预测影响最大的单词tokens这些单词随后可以被遮蔽mask或修改以生成反事实解释。  第二阶段 二分搜索是一种算法它通过反复将搜索空间一分为二来快速定位目标值。在MiCE模型中二分搜索被用来优化最小编辑量即在保持反事实解释有效性的同时尽量减少对原始文本的修改。这种方法通过不断调整编辑的程度通过二分搜索找到最小的编辑量使得反事实解释与原始预测的结果不同但又尽可能接近原始文本。 相比之下CRESTContRastive Edits with Sparse raTionalization是一个结合了选择性合理化selective rationalization和反事实文本生成counterfactual text generation的框架。 第一阶段 选择性合理化它从大量可能的解释中选择一部分来构建解释。在自然语言处理中这意味着从文本中选择一些关键部分如关键单词或短语来生成解释。这种方法的目的是在保持解释准确性的同时减少解释的复杂性和长度使其更加易于理解和使用。  第二阶段 反事实文本生成是一种生成与原始文本不同但具有相似效果的文本的过程。通常用于生成与原始文本在某些特征上不同但预测结果不同的文本。例如如果一个模型预测某个文本具有负面情感反事实文本生成可能会改变一些单词以生成一个具有正面情感预测的文本。 与MiCE不同CREST模型使用了选择性合理化模型中生成的关键部分rationales来创建反事实解释而不是像MiCE那样严格追求最小化的编辑量。CREST通过这种方式提供了一种更灵活的方法来生成反事实解释允许在保持解释有效性的同时有更多的变化和灵活性。CREST模型不通过最小化编辑量来保持原始输入和反事实之间的相似性而是通过控制合理化器生成的解释的稀疏性来控制这种接近程度。这意味着CREST模型在生成反事实解释时会考虑到解释的简洁性和重要性而不是简单地减少编辑量Treviso等人2023。 实验表明这两种方法都能在有效性和流畅性方面生成高质量的反事实。 3.1.3.3 数据影响Data Influence 这一系列方法通过测量单个训练样本对测试点上的损失函数的影响程度来表征它们在训练过程中的重要性 (Yeh et al., 2018)。这个概念最初来自统计学描述了在移除特定数据点后模型参数如何受到影响。通过观察影响模式我们可以加深对模型如何根据其训练数据进行预测的理解。由于研究人员开始认识到数据的重要性已经开发了几种以数据为中心分析模型的方法。 首先影响函数Influence Function允许我们通过测量梯度和Hessian-向量积Hessian-vector products来近似地理解单个训练样本对测试点损失的影响而无需重新训练模型 (Koh Liang, 2017)。 Yeh等人2018将测试点的预测分解为训练点的线性组合其中正值表示兴奋训练点负值表示抑制点。 Data Shapley采用蒙特卡洛和基于梯度的方法来量化数据点对预测器性能的贡献更高的Shapley值告诉所需的数据类型以改进预测器Ghorbani和Zou2019。 重温Shapley值的基本概念   Shapley值基于这样一个观点在一个多人合作游戏中每个参与者对总收益的贡献是不同的而Shapley值就是用来公平地分配这些收益的一种方法。具体来说它考虑了每个参与者在所有可能的参与者组合中的平均贡献。 Shapley值的特点 公平性Shapley值确保了每个参与者获得的收益与其对游戏的贡献成正比。效率总收益被完全分配没有任何剩余或不足。对称性如果两个参与者对游戏的贡献相同那么他们将获得相同的Shapley值。虚拟玩家如果一个参与者的加入或离开不会影响其他参与者的收益分配那么这个参与者的Shapley值为零。 另一种方法使用随机梯度下降Stochastic Gradient Descent, SGD的方法来分析单个训练数据点对模型的影响。具体来说这种方法通过分析不包含该数据点的小型批次minibatches来推断该训练点的影响并利用模型参数的Hessian向量来进行分析Hara等人2019。。 Hessian矩阵是损失函数相对于模型参数的二阶导数矩阵它描述了损失函数的曲率。Hessian向量是Hessian矩阵与一个特定方向向量的乘积它提供了损失函数在该方向上的曲率信息。如果移除某个训练点后模型参数的Hessian向量发生了显著变化这表明该训练点对模型有较大的影响。 基于这种方法TracIn使用训练过程中的检查点来推导训练点的影响Pruthi等人2020。 由于在每次迭代中追踪参数和使用的训练样本是不切实际的TracIn使用一种启发式方法即利用在训练过程中定期保存的检查点checkpoints。这些检查点包含了模型的参数可以用来近似计算训练样本的影响。 然而上述方法通常伴随着昂贵的计算成本即使应用于中等规模的模型也是如此。为了解决这个问题可以考虑两个关键维度1减少搜索空间2减少近似参数的Hessian向量数量。 Guo等人2020还展示了影响函数在模型调试中的适用性。 最近Anthropic已经采用了特征值校正的Kronecker-分解近似曲率EK-FAC来扩展这种方法以适应具有8.1亿、64亿、220亿和520亿参数的LLMs。 结果表明随着模型规模的增加有影响力的序列这里指模型识别出的重要训练样本或数据点更擅长捕捉查询的推理过程而较小的模型提供的输出往往只能是与语义无关的信息片段。Grosse等人2023。 3.1.4 自然语言解释Natural Language Explanation d为输入文本的重要组成部分提供解释以协助进行常识推理Rajani 等人2019 年译文常识推理问题在和朋友一起吃汉堡时人们想要做什么  选项玩得开心、美味或消化不良 解释通常与朋友一起吃汉堡意味着愉快的时光。 自然语言处理中的自然语言解释是指用生成的文本解释模型对输入序列的决策。生成自然语言解释的基本方法涉及使用原始文本数据和人工注释的解释来训练语言模型。然后训练有素的语言模型可以自动生成自然语言解释 (Rajani et al., 2019)。 由于解释提供了额外的上下文空间它们可以提高下游预测的准确性并作为数据增强技术Luo等人2022Yordanov等人2022。 这意味着当我们为模型的预测提供一个解释时这个解释可以提供额外的信息帮助模型更好地理解和处理新的数据从而提高预测的准确性。数据增强是通过创建新的训练样本来提高模型性能的技术而解释可以提供额外的信息相当于增加了数据帮助模型学习。 存在几种不同的预测-解释方法包括“先解释再预测”explain-then-predict、“先预测再解释”predict-then-explain和“联合预测-解释”joint predict-explain方法。这些方法的选择取决于任务的目的。 联合预测-解释同时进行预测和解释两者相互影响。先预测再解释先进行预测然后为预测结果生成解释。先解释再预测先生成解释然后使用这些解释来指导预测。 但是应用生成的解释的可靠性仍需要进一步调查。值得注意的是本节介绍的技术以及第4节提到的CoTChain of Thought解释它们都产生自然语言解释这意味着它们生成的解释是人类可读的文本可以直观地理解模型的预测过程。然而这里覆盖的解释通常由单独的模型生成而CoT解释是由LLMs本身产生的。 这意味着有些情况下我们会有一个专门的模型来生成解释而在其他情况下解释是由执行预测的同一个模型生成的。 上篇【文献精读笔记】Explainability for Large Language Models: A Survey 大语言模型的可解释性综述一_可解释推荐的大型语言模型指标独特句子比率 (usr)-CSDN博客 下篇【文献精读笔记】Explainability for Large Language Models: A Survey 大语言模型的可解释性综述三-CSDN博客【文献精读笔记】Explainability for Large Language Models: A Survey 大语言模型的可解释性综述四-CSDN博客 【文献精读笔记】Explainability for Large Language Models: A Survey 大语言模型的可解释性综述五-CSDN博客
http://www.tj-hxxt.cn/news/137478.html

相关文章:

  • 网站建设与管理办法个人网站规划书模板
  • 网站建设教程 mysql北京网站手机站建设公司
  • 网站开发流程中网站制作包括网站建设单位是什么意思
  • 江西天亿建设有限公司网站百度权重是什么
  • 网站制作复杂吗wordpress点评插件
  • 定制专业网站wordpress seo theme
  • 做网站内容软件建设电子商务网站的方案
  • 网站内如何做论坛设计师网络叫法
  • 点评类网站建设编辑网站绑定 主机名
  • 化妆品网站html模板西安网站建设成功建设
  • 长春企业网站如何建设国内优秀网页设计案例
  • icp备案查询官方网站宁波网站建设设计报告
  • 个人网站seo店面设计效果图
  • 郑州 服装 网站建设wordpress加入博客
  • 大学生兼职网站开发毕设论文桂林工作网招聘
  • 自己建设网站怎么被百度收入折叠彩页设计
  • 手机网站解决方案外包做网站需要多少钱
  • 运动健身类网站开发成都网站制作公司dedecms
  • 公司有必要建设网站吗seo实战培训课程
  • 制作微信网站模板下载企业管理系统排名
  • 西宁市公司网站建设让wordpress 具有菜单功能
  • 网站建设 教程南京太阳宫网站建设
  • 网站内容的重要性网站如何做诺顿认证
  • 品牌网站建设最佳大蝌蚪接单网官网
  • 贵州省城乡住房和建设厅网站首页邢台谷歌seo
  • 网站建设费按几年摊销html做企业门户网站
  • 网站如何制作建设wordpress 上传图片接口
  • 3g免费网站我不想找之前做网站的续费
  • 最好的淘宝客网站hhvm wordpress 空白
  • 免费企业网站程序上传南京百度推广开户