网站设计和内容上的不足和建议,网站可以做章子吗,长沙南站建站,wordpress单位内网做网站提示#xff1a;文章写完后#xff0c;目录可以自动生成#xff0c;如何生成可参考右边的帮助文档 文章目录 文章链接摘要Abstract一、方法介绍1.HAT-CIR2.Horde3.DWGRNet 二、实验总结 文章链接
https://arxiv.org/pdf/2405.04101
摘要
本博客介绍了论文《Continual lea… 提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档 文章目录 文章链接摘要Abstract一、方法介绍1.HAT-CIR2.Horde3.DWGRNet 二、实验总结 文章链接
https://arxiv.org/pdf/2405.04101
摘要
本博客介绍了论文《Continual learning in the presence of repetition》关于CVPR 2023 上的 CLVision 挑战赛的总结。该挑战赛的主要目标是探索重复在持续学习中的作用。博客首先介绍了决赛团队所提出的三种方案:HAT-CIR、Horde、DWGRNet这三种方案的设计思路都是从数据流中的重复的类来进行持续学习。在比赛中实验采用数据集CIFAR100 和 Tiny-ImageNet 来生成带有重复类的数据流采用上述三种方法在生成数据流中的任务精确度作为评估指标。实验结果表明三个决赛方案相对于用于生成数据流的数据集的性能具有一致性。HAT-CIR 在实验中展现了对于重复数据流进行持续学习的适用性相较于其他两个方法HAT-CIR 在重复的数据流中得到了更高的精确度表明了数据流中的重复以不同的方式影响不同持续学习策略的行为。但是怎么准确地找出重复的数量和类型如何影响每种方法的有效性还有待研究。
Abstract
This blog presents the summary of the paper “Continual learning in the presence of repetition” about the CLVision challenge at CVPR 2023. The main goal of the challenge is to explore the role of repetition in continuous learning. The blog first introduces the three solutions proposed by the finalist teams: HAT-CIR, Horde, and DWGRNet, all of which are designed to continuously learn from duplicate classes in the data stream. In the competition, the experiment uses dataset CIFAR100 and Tiny-ImageNet to generate a data stream with duplicate classes, and the task accuracy of the above three methods in generating the data stream is used as an evaluation metric. Experimental results show that the performance of the three finalists is consistent with the dataset used to generate the data stream. Compared with the other two methods, HAT-CIR achieves higher accuracy in repeated data streams, indicating that repetition in data streams affects the behavior of different continuous learning strategies in different ways. However, how exactly to find out how the number and type of replicates affect the effectiveness of each method remains to be studied.
一、方法介绍
在论文中,持续学习用CL来表示。研究者采用重复类增量学习(CIR)CIR 包含具有两个关键特征的各种数据流1.随着时间的推移新的类别可能会出现。 2. 以前遇到的类可能会以不同的重复模式重新出现。
在论文中研究者开发的基于采样的生成器用于生成该挑战的数据流使用具有明确解释的四个控制参数 流长度Stream length简写为Stream数据流中的经验数。 经验大小Experience Size简写为ESTA每次经验中的样本数量。 首次出现分布First occurrence distribution缩写为RST数据流中经验的离散概率分布它决定了每个类的首次出现。 重复概率每个类的重复概率控制每个类在第一次出现后在流中的未来经验中重新出现的可能性。
1.HAT-CIR
xduan7团队提出的策略称为HAT-CIR。 该策略结合了网络副本和测试时决策的优势以及其他元素例如对任务的硬注意力 (HAT)和监督对比学习 (SupCon) 。
所提出的方法包括三个核心部分1.结构设计具有基于HAT的分区和网络副本 2.两阶段训练策略包括监督对比学习和分类 3.用于测试时决策的基于动量的推理机制。 该方法的示意图如下图所示: 在训练新任务时一个由多个“集合”组成的新“片段”被添加到模型中并分两个阶段对新体验的训练数据进行训练。 第一阶段使用投影头并优化监督对比损失 在第二阶段使用softmax输出层并优化交叉熵损失。 在测试期间每个可能类别的分数被计算为根据该类别出现的经验进行训练的最新片段的 logits 的加权平均值。
基于 HAT 的分区。 为了减轻灾难性遗忘HAT 根据经验 ID 隔离网络参数。 原始的 HAT 方法在处理大量经验时存在训练速度慢和超参数敏感性的问题。 为了克服这个问题使用了 HAT-CL它将掩码初始化为 1并使用余弦掩码缩放曲线来促进与网络权重更好的对齐。 通过使用余弦掩模缩放曲线每个训练时期分为三个阶段 1.训练权重掩码大多是1 2.一起训练掩码和权重使掩码更稀疏 3.当掩码主要为1时微调权重
这些变化显著提高了HAT的训练速度和稳定性以及性能。此外掩模的正则化项的影响逐渐减小。该步骤确保了网络容量的充分利用并通过可变的正则化项提供了对每个经验中的类的数量的说明。基于HAT的分区仅用于预选阶段;对于最后阶段仅使用网络副本这导致了更高的性能。
为了学习更好的特征表示在每个经验中网络首先使用监督对比学习进行训练。目标是最大化相同类别的特征向量之间的相似性并使用以下损失函数最小化不同类别的特征向量 () 生成输入 的嵌入特征向量(, ) 表示距离函数 、 和 分别表示锚点、正样本和负样本 是边距 范围。 批次中的样本数量用 表示。 由于硬注意力掩模对学习率和历元数的敏感性硬注意力掩模的训练仅发生在监督对比学习阶段。 在每次训练的第二个训练阶段使用标准交叉熵分类损失进一步训练网络参数。
HAT-CIR的局限性:在初始体验中当类的数量较小时该方法的一个显著缺点出现。在这种情况下由于有限的多样性网络无法学习有效的类表示。这对基于动量的测试时间决策策略的性能产生了负面影响。另一个固有的局限性与HAT的使用有关。网络结构的刚性要求仔细地调整超参数以匹配预期的体验总数这在CIR设置中并不总是预先知道的。结果可能会实现次优的参数分配导致性能受损。
2.Horde
mmasana团队提出的策略称为Horde。该策略根据选定的经验学习特征提取器FE的集合这应该提供强大的特征有助于区分可见和不可见的下游类。 为了进一步促进伪特征投影使用通常的交叉熵损失和额外的度量学习损失来训练FE这促进了每个特征空间内的学习类之间的对齐。
Horde将各个FE的特征表示结合到一个能够预测到目前为止所看到的所有类的统一头部中。这是通过两步训练过程实现的第一FE的学习仅在选定的经验上第二用于适应统一头部的伪特征对齐在每个经验上。每个个体FE都是一个在单一经验上训练的专家模型之后它被冻结并添加到集合中。在第二个训练步骤中数据通过所有的集成模型并对统一的头部进行微调。训练统一头部涉及直接使用来自熟悉某个类的FE的表示以及来自未在该类上训练的FE的表示的伪特征投影。Horde提高了每个任务特定的特征提取器FE的稳定性同时通过学习对齐的统一表示来利用类重复来平衡可塑性。
在论文中研究者设计了两个约束来确定何时将FE添加到集合中。首先为了限制过度拟合FE的存在并限制系综的大小不考虑少于五个类的经验。第二在已经看到85%的类之后停止向集合添加FE因为一旦已经学习了大多数类的鲁棒特征则期望在剩余类上有良好的性能。此外FE总是在第一次体验时接受培训的。在这些约束条件下所提出的方法基于下图所示的突出显示的经验来学习特征提取器 当FE在当前经验上进行训练时学习发生在具有与类一样多的输出的完全连接的头部上的通常的交叉熵损失。为了促进在更相似分布的空间中的特征的学习强调硬否定对的对比损失也被包括在单独的头部上如下图所示。这两种损失都使用自适应alpha来平衡该自适应alpha是基于每个损失的能量自动计算的。 当在新体验上进行训练时在第一阶段中可以使用交叉熵和对比损失来训练新的特征提取器。是否在新经验上训练新特征提取器由启发式决定。在对每个新体验执行的第二训练阶段中执行伪特征投影并且训练统一的头部以基于来自集合的特征来区分所有看到的类。(在测试时一个测试样本被简单地转发到模型的所有组件预测的类从统一头中读出。
伪特征投影使用相应的类标准差扩展了特征转换以允许更好的维度采样。它将表示从类转换为不同类别的预计代表。 令 为属于类别 的当前经验样本的所有 FE 输出的串联表示。 投影定义为 其中 ̂ , 是从类 到类 的估计投影。 该投影在学习统一头时应用于训练批次中的每个样本并且在评估期间不使用。 目标类是从先前学习的类中随机选择的原始表示和预测的表示都被添加到损失上。类原型(即平均和标准差)总是在通过计算可用类数据的统计量来训练统一头部之前进行更新。
3.DWGRNet
pddbend团队提出的策略称为动态加权门控表示网络DWGRNet。该策略为每个Experience创建独立的分支并使用门控单元来控制哪些分支处于活动状态。 在训练期间与当前经验相对应的分支被其门控单元激活以促进学习而来自先前经验的分支保持不活动状态。 DWGRNet 根据熵、特征范数和每个分支经历的类别数量来分配权重。 具体来说评估每个分支的预测概率分布的熵。 高熵表示样本成为该分支的开集项的可能性。 类似地计算特征范数。 较高的特征范数表明该样本很可能是开放集样本。 最后假设大量类别的经验将使模型的预测更加可靠。 因此权重还可以根据每次体验中的课程数量进行调整。
DWGRNet 使用门控单元来控制每个分支的激活。 每次新Experience都会添加一个新分支然后激活而旧分支中的模型参数保持冻结。 如图所示: 在训练阶段没有使用特殊的损失函数或重播缓冲区。 相反使用标准交叉熵损失来训练模型同时使用 AugMix 来增强模型的泛化性和鲁棒性。 AugMix 结合了不同的数据增强技术。 在测试阶段门控单元可以一一激活每个分支以避免需要大量 GPU 内存。 他们的输出被收集起来然后用于做出最终的预测。
二、实验
CVPR 2023 的 CLVision 挑战主要目标是探索重复在 CL 中的作用这是目前较少研究者所关注的方向。 为此参与者被要求设计一些策略可以利用数据流中固有的重复来促进知识转移并减少遗忘而无需存储原始样本。上述所介绍的三种主要方法以及团队是该比赛的部分参赛者。
十强队伍预选阶段结果。 显示的是在预选阶段对三个流中的每一个进行训练后CIFAR-100 测试集的准确度 为了测试数据流中的重复是否对决赛解决方案的有效性发挥重要作用在对没有重复的数据流进行训练后也会对它们进行评估。 为此使用“标准”Split CIFAR-100 类增量学习基准。 上图中的结果表明当数据流中没有重复时解决方案的性能显着降低。 虽然缓冲区大小为 2000 的 ER 在有重复的数据流上明显优于每个决赛解决方案但当没有重复时该版本的 ER 比所有决赛解决方案表现更好。 这表明数据流中的重复可以改变不同 CL 策略的相对有效性。
为了探讨结果的普遍性研究者对使用 Tiny ImageNet 数据集生成的三个 CIR 数据流对决赛解决方案进行了评估。生成数据流的配置与挑战最后阶段的数据流4、5 和6 使用的配置相同。 评估结果如下图所示。这些结果表明三个决赛解决方案相对于用于生成数据流的数据集的性能具有一致性。
总结
在随机重复的数据流中HAT-CIR基于集成的持续学习策略能够很好地利用数据流中固有的重复来促进知识转移并减少遗忘。Horde训练了一组特征提取器其中仅在需要时基于启发式添加新的特征提取器。它还使用了一个统一的头来区分在当前训练步骤中观察到的类。DWGRNet为每个体验使用独立的分支在训练期间通过门控单元激活并结合数据增强技术以提高鲁棒性。该解决方案进一步从开集问题的角度来处理该问题并且为了解决开集识别问题它采用了基于熵特征范数和每个经验中的类数等因素的加权策略。