如何建设淘宝客网站,网站前台的实现,wordpress怎么玩,天津大型网站建设报价公司A Survey on Open-Set Image Recognition
Abstract
开集图像识别(Open-set image recognition#xff0c;OSR)旨在对测试集中已知类别的样本进行分类#xff0c;并识别未知类别的样本#xff0c;在许多实际应用中支持鲁棒的分类器#xff0c;如自动驾驶、医疗诊断、安全监…A Survey on Open-Set Image Recognition
Abstract
开集图像识别(Open-set image recognitionOSR)旨在对测试集中已知类别的样本进行分类并识别未知类别的样本在许多实际应用中支持鲁棒的分类器如自动驾驶、医疗诊断、安全监控等。近年来开集识别方法得到了越来越多的关注因为通常很难获得关于开放世界的整体信息用于模型训练。鉴于近两三年来OSR方法的快速发展本文旨在总结其最新进展。具体来说我们首先介绍了一个新的分类在此分类下我们全面回顾了现有的基于DNN的OSR方法。然后在标准数据集和交叉数据集下比较了一些典型的和最新的OSR方法在粗粒度数据集和细粒度数据集上的性能并给出了比较分析。最后我们讨论了这个社区中一些开放的问题和可能的未来方向。论文地址[2312.15571] A Survey on Open-Set Image RecognitionOSR 的核心任务是在测试时同时完成已知类样本的分类和未知类样本的识别。与封闭集识别不同OSR 假设测试集中存在训练时未接触过的新类别要求模型具备 “拒绝未知” 的能力。例如在自动驾驶场景中模型不仅需识别已知的车辆、行人等类别还需对未训练过的新型障碍物发出警告。核心挑战语义偏移Semantic Shift训练集仅包含已知类样本而测试集包含已知类与未知类导致模型因深度神经网络DNN的 “数据驱动” 特性将未知类误判为已知类。具体表现为决策边界偏差DNN 在封闭集训练时倾向于压缩已知类特征空间挤占未知类空间。高置信度误判Softmax 层强制将未知类样本映射到已知类产生错误高置信度预测。OSR 方法体系与关键技术 归纳式方法Inductive Methods无需测试集参与训练是 OSR 的主流方案分为三类 判别模型Discriminative Models距离 - based 方法通过约束特征距离如 L2 距离、余弦距离区分已知 / 未知类。例如PMAL 算法通过原型挖掘策略为每个已知类生成多样原型增强类内紧凑性和类间区分度。分数校准方法改进 Softmax 分数或引入辅助分数如 EVT-based 分数通过阈值拒绝未知类。OpenMax 首次将极值理论EVT用于建模特征距离的 Weibull 分布设定拒绝阈值。重建方法利用自编码器AE的重建误差区分样本已知类重建误差通常低于未知类。C2AE 通过类条件自编码器结合重建误差与分类分数识别未知类。生成模型Generative ModelsGAN-based 方法通过生成未知类样本或特征填充开放空间。OpenGAN 结合生成对抗网络与异常暴露Outlier Exposure生成接近真实分布的未知类特征优化决策边界。AE-based 方法显式建模已知类分布如 MoEP-AE 使用指数幂分布混合模型更灵活地表示复杂特征分布。因果模型Causal Models通过引入因果关系解耦特征中的混淆因素。例如iCausalOSR 利用可逆因果模型将特征分解为因果表示和非因果噪声提升未知类识别鲁棒性。 转导式方法Transductive Methods利用测试集未标注样本辅助训练缓解分布偏移。例如IT-OSR-TransP 通过双空间一致采样策略筛选可靠测试样本并结合条件生成网络增强特征判别性迭代优化模型。
INTRODUCTION 由于近年来深度学习技术的发展闭集图像识别任务已经取得了重大突破。然而在许多真实场景中通常存在一些新的对象它们的类别不同于已知的训练对象类别。现有的闭集识别方法不能有效地处理这种情况因为它们不可避免地将未知类别的对象图像预测为已知类别之一。这个问题鼓励研究人员关注开集识别技术该技术旨在对已知类别的图像进行分类并识别未知类别的图像。闭集识别和开集识别之间的区别如图1所示。 图一闭集识别与开集识别的比较以MNIST数据集为例闭集识别模型只需要对与训练图像具有相同标签的测试图像进行分类例如类“0”和“1”的图像而开集识别模型既需要对已知类别的图像进行分类测试集中的类别图像其标签不属于训练类别例如类别“2”和“3”。 分布偏移可分为两类:(I)语义偏移其中训练集和测试集中的标签不同以及(ii)协变量偏移其中训练样本和测试样本之间的特征分布(如图像样式)不同。OSR任务中存在的主要挑战是仅包含已知类样本的训练集和包含已知类和未知类样本的测试集之间的语义偏移。由于DNNs(深度神经网络)是数据驱动的模型并且严重依赖于同分布假设这种语义转移问题将导致模型以高置信度将未知类别的测试样本预测为已知类别之一。 为了解决上述问题文献中提出了很多 OSR 方法特别是随着深度学习技术的发展。必须指出的是据作者所知在 2021 年之前或前后关于 OSR 任务的调查报告为数不多。然而由于 OSR 技术适应现实场景发展速度非常快而且最近两三年提出了各种基于 DNN 的新方法因此总结该技术的最新发展情况将对该领域的研究人员有所帮助。因此本文对现有的基于 DNN 的 OSR 方法进行了分类。然后我们对最近的 OSR 作品进行了全面回顾并对它们的性能进行了比较。此外我们还讨论了这一领域的一些未决问题和未来可能的发展方向。本文的主要贡献如下 我们对最新的基于 DNN 的 OSR 方法进行了分类和全面评述提供了该领域的基本技术和最先进的处理方法。为了方便读者了解现有 OSR 方法的共同特点我们比较分析了两种数据集设置下典型 OSR 方法和最先进 OSR 方法在多个数据集上的模型性能。我们对现有 OSR 方法中的未决问题以及处理 OSR 任务的未来研究方向提出了一些见解。 本文的其余部分安排如下。首先我们在第二节中对现有的基于 DNN 的 OSR 方法提出了一个新的分类标准。然后我们在第三节中介绍了 OSR 任务中常用的数据集和指标以及一些基于 DNN 的代表性 OSR 方法的比较结果。接下来我们将在第四部分介绍 OSR 的一些开放性问题和未来研究方向。最后我们将在第五部分给出结论。
METHODOLOGIES
在本节中我们首先描述用于对现有的基于DNN的OSR方法进行分类的分类法如图2所示。接下来我们回顾基于分类法的基本任务中的OSR方法。这些方法大致可以分为两类:归纳方法和直推方法分别进行详细介绍。最后我们还介绍了几个扩展任务其中我们回顾了相应任务中的一些典型方法。 图2现有基于DNN的开集图像识别方法的分类。
Taxonomy
根据最初的定义OSR任务可以分为两组:基本的OSR任务其中模型只需要识别测试集中的已知和未知类别(即对已知类别的测试样本进行多类别分类并将未知类别的测试样本与已知类别的测试样本区分开来)以及一些扩展任务其中模型不仅需要满足基本的OSR任务的要求还需要处理真实场景中的各种情况。根据测试样本是否用于模型训练现有的基于DNN的处理基本OSR任务的方法通常可以分为两组:归纳方法和直推方法如图2所示。这两组方法将在下面的小节中讨论。
Inductive Methods 归纳方法认为测试数据在训练阶段是不可用的。大多数现有的OSR方法是归纳方法根据其主要使用的模型的不同可以进一步分为三类:1)直接学习决策规则的判别模型2)学习训练数据分布的生成模型以及3)将因果关系引入由DNNs懒惰学习的统计模型的因果模型。 1)鉴别模型:鉴别OSR模型直接学习鉴别特征表示或分类器用于识别已知类别样本和未知类别样本。根据是否在训练过程中引入未知类别信息判别模型可以进一步分为两组:(I)一组模型旨在仅根据已知类别训练样本来学习已知类别判别表示以及(ii)另一组模型旨在引入未知类别信息以减少训练类别和测试类别之间的差异 (i) 至于第一类学习已知类别判别表征的方法现有的基于 DNN 的 OSR 方法大致可分为四类基于分数的方法 、基于距离的方法、基于重构的方法以及其他方法。 基于分数的方法。在 OSR 任务中与传统方法相比DNN 更容易受到未知类别样本的影响这是因为 softmax 层的封闭集假设该层通常用于获取分类概率作为指示分数。从 softmax 层输出的属于所有已知类别的每个样本的分数总和为 1传统分类方法将出现最大分数的指数作为预测标签因此不会考虑被排除在已知类别之外的未知类别。 为了解决这个问题Bendale 和 Boult 将极值理论EVT引入到网络倒数第二层输出的训练样本的激活向量与每个已知类别的平均激活向量之间的距离分布建模中。具体来说首先计算每个已知类别的上述距离然后选择最大值的部分距离拟合威布尔分布作为相应已知类别的极值分布。在测试阶段根据激活向量与每个已知类别的平均激活向量之间的距离计算测试样本属于每个已知类别的概率并将其归入相应类别的极值分布模型中从而得到已知类别得分。此外他们还根据已知类得分的加权组合和修正后的权重计算未知类得分。最后如果测试样本的最大得分出现在已知类得分处且大于阈值则被确定为已知类之一否则将被归类为未知类。Weibull 分布常用来模拟极值分布这种方法为后来的 OSR 方法拟合已知类特征分布并使用阈值区分未知类样本和已知类样本铺平了道路。 然而由于计算复杂许多 OSR 方法逐渐放弃了基于 EVT 的分数而结合比较阈值的简单 softmax 分数仍被广泛使用。最近Dai 等人发现在 OSR 任务中原始 logit 向量比软最大层额外计算的概率分数表现更好因为输入 logit 向量的翻译不变性削弱了分数捕捉细粒度信息的能力。随后Vaze 等人也强调了基于 logit 的分数在提高模型性能方面的有效性。 基于 EVT 的分数也可以看作是基于距离的分数之一因为分数是根据特定实例特征与特定类别原型之间的距离计算的。这种基于距离的分数可用于识别不同的类别因为模型经过训练后会缩小类内距离扩大类间距离这将在下文中详细介绍。 基于距离的方法。与传统封闭集分类方法的发展过程类似从分类损失函数的研究中延伸出了一个研究分支即研究基于距离的损失函数对特征施加约束以学习更紧凑、更具区分度的特征。这一研究分支对于 OSR 来说是合理的因为造成未知类样本识别困难的主要原因之一是已知类特征过度占据了本应留给未知类特征的空间造成已知类特征和未知类特征之间的混淆。 基于距离的损失函数受到 Fisher’s criterion 的启发其目的是最小化类内差异最大化类间差异。这种约束特征表征的思想现已形成一个研究方向即表征学习。Hassen 和 Chan 应用了一种简单的表示学习方法来处理 OSR 任务。他们将 logit 向量作为输入图像在不同空间即 logit 空间的特征表示并通过每批训练更新每个已知类别的平均向量。然后结合交叉熵分类损失传统封闭集分类任务中常用的损失和成对损失项来训练网络成对损失项用于限制每个训练样本与相应的特定类别均值向量之间的 L2 距离即欧氏距离变小成对损失项用于限制不同特定类别均值向量之间的欧氏距离变大。Jia 和 Chan将损失扩展为表征损失提取网络倒数第二层输出的激活向量形成表征矩阵用于在训练阶段强调幅度最大的特征和幅度最小的特征从而学习更具区分性的特征表征。 然而固定的原型在约束特征鉴别方面的作用有限。因此Xia等人提出了一个约束损失项用于控制这些特征原型的空间位置使其更具鉴别力。与已知类特征倾向于占据与未知类特征相同的特征空间中心部分的先前方法相比该方法将已知类的原型限制在特征空间的边缘区域通过约束原型到特征空间中心距离的方差来实现从而缓解了已知类特征与未知类特征的混淆。考虑到以前的方法中每个已知类都有一个原型表示忽略了每个类内的特征多样性Lu等人在优化特征空间之前设计了一个原型挖掘策略为每个已知类挖掘高质量和多样性的原型。 对比损失作为自监督任务中通过数据增强来约束来自同一图像或不同图像的特征对之间距离的有效工具近年来受到越来越多的关注。Kodama等人应用监督对比度损失来约束来自相同已知类或不同已知类的特征对类似地Xu等人也利用监督对比学习来提高学习的特征表示的质量。 此外一些OSR方法旨在设计具有角度的特征表示或分类器以改善类间相似性和类间差异。Park等人提出学习发散角度表示这改善了全局方向特征变化。Cevikalp和Saglamlar 引入了准线性多面体圆锥分类器其将已知类区域约束为 L1 或 L2球。 基于重构的方法。在OSR任务中存在一种观点即重构对于模型的可分辨性是有价值的因为已知类样本通常具有比模型从未见过的未知类样本更小的重构误差。遵循这一点一些OSR方法利用重构网络、重构样本或重构误差中的潜在特征来提高模型的可分辨性。 Yoshihashi等人 除了使用网络预测进行分类外还使用了重建网络中的潜在特征表示。他们提出了一种特殊的自动编码器即深度分层重建网络用于提取每层的潜在特征。在训练阶段通过联合使用分类损失和重建损失来训练网络其中分类损失使用基于EVT的分数。在测试阶段分类分数用于识别已知和未知类别的样本。 Oza 和 Patel 将自动编码器的整个训练过程分为两步。首先他们通过传统的交叉熵分类损失训练编码器和与潜在特征连接的分类器。然后固定编码器和分类器的权重并通过精心设计的成对重建损失训练解码器。在这一步输入到解码器的特征图由两部分控制通过线性调制编码特征和条件向量从而获得原始/重建图像对。解码器被训练为最大化标签不匹配对的重建误差同时最小化标签匹配对的重建误差。在测试阶段对测试图像的编码特征进行全类条件向量线性调制得到所有已知类对应的重构误差并与阈值进行比较确定预测标签。 Huang et al 集成了原型学习和重构他们提出重构特定于类的语义特征映射而不是特定于实例的图像以提高模型的语义区分度。他们为潜在空间中的每个已知类建模了一个自动编码器该方法用于重建骨干编码器从输入图像中提取的特征图。该方法将智能重构误差映射作为logit通过softmax层和pooling层将其转换为传统的logit向量在训练阶段用分类损失约束logit向量进行训练在测试阶段利用所有类自编码器对应的重构误差进行辨识. Perera等人发现了一种利用重建信息的新途径其中使用了重建图像。他们首先训练生成模型例如vanilla自动编码器条件自动编码器等以获得已知类别的重建图像然后通过将重建图像作为学习分类器的新维度来扩展原始图像。 一些方法旨在从数据增强、集体决策、多任务学习、梯度、空间变换、层次注意力中挖掘有区别的信息甚至在视觉心理物理学的帮助下。 Perera 和 Patel 发现极端的几何变换可能会导致不同的特征表示因此他们通过并行网络分支传递与变换图像对应的特征并使用多数投票进行最终预测。 随着网络骨干的发展视觉 Transformer 由于其更好的性能而得到越来越广泛的应用。Azizmalayeri 和 Rohban 经验观察到以视觉Transformer为骨干并使用softmax概率进行分类可以获得比其他OSR方法更好的性能。此外他们还发现精心选择的数据增强而不是标准的训练增强有助于提高模型的可辨别性。 此外Jang 和 Kim 提出集成多个 one-vs-rest 网络作为特征提取器并将多个决策组合起来用于对输入图像的最终决策得分进行建模。Oza和Patel 提出了一种OSR的多任务学习方法该方法同时训练潜在特征空间中的分类损失和自动编码器末端的重建损失Lee和AlRegib 利用基于梯度的特征表示进行识别因为梯度包含关于模型需要更新多少才能正确表示已知类样本的信息。Baghbaderani等人提出利用三个空间之间的变换即原始图像空间、潜在特征空间和丰度空间用于利用更多的判别信息。Liu等人提出了一种用于约束特征空间的定向优化策略和一种用于捕获特征空间中的全局依赖关系的分层空间注意机制进一步提高了特征的可区分性。Sun等人提出了一种用于学习细粒度已知类特征的分层注意力网络其逐渐聚合每个分层注意特征图中的分层注意特征和上下文特征。Huang等人 OSR任务对计算机视觉算法具有挑战性而对人类来说很容易这一事实受到启发他们将 psychophysical loss 和相应的网络架构纳入深度学习这可以支持反应时间测量来模拟人类感知。 (ii)对于第二类将未知类信息引入模型训练现有的基于DNN的OSR方法根据未知类信息来源的不同大致可以分为两类利用来自已知类样本的未知类信息的方法以及引入来自离群类样本的未知类信息的方法的一个例子。 已知类利用。第一组OSR方法陷入瓶颈因为仅旨在学习更具区分性的已知类特征或分类器不足以处理模型将在测试集中遇到的未知类。解决这个问题一些方法旨在通过混合增强分裂等基于已知类图像或特征利用未知类信息。 Mixup是一种数据增强策略它线性混合来自两个不同类别的图像和相应的标签。Vanilla mixup 通过使用线性插值在输入空间中产生新样本而流形mixup 在潜在特征空间中产生新特征。Zhou等通过流形mixup产生新特征来学习未知类别的数据占位符作为一个额外的类与已知类样本一起沿着用于训练模型。通过生成未知类特征约束已知类特征更加紧凑和具有区分力从而缓解OSR任务的过度占用问题。此外他们还提出学习分类器占位符它代表了一个区分未知类样本和已知类样本的类特定阈值。具体来说他们在分类器的输出向量中为未知类提供了一个额外的维度作为区分已知类和未知类的可学习阈值这是通过将额外维度的值限制为所有维度中的第二大来进行的因为可以区分目标类和非目标类的可学习阈值被认为具有区分已知类和未知类的能力。 此外Wang等人提出了一种新的度量通过关于已知类和未知类特征的成对公式化来耦合闭集和开集性能并将该公式化转化为最小化相应风险的优化问题。类似于他们通过流形混合来生成未知类特征Jiang等人通过混合它们来生成高质量的负图像这被证明可以降低封闭空间结构风险和开放空间风险。 除了 mixup 之外一些方法使用基于增强的相似性学习类内分裂或多类交互来基于已知类数据挖掘未知类信息。Esmaeilpour等人采用相似性损失来鼓励模型学习如何区分已知类别和未知类别的样本其中未知类别的图像是通过分布移位数据增强生成的。具体来说他们对模型训练进行了两个步骤。在第一步通过随机旋转原始图像90°的倍数来生成未知类别的图像。在第二步中一个分类模型进行了训练与已知类的训练图像和生成的 unknownclass 图像并施加两个损失一个交叉熵损失分类已知类的图像和二进制交叉熵损失学习集群的已知类和unknownclass图像通过相似性监督。 Schlachter等人利用已知类别训练图像中的未知类别信息。具体来说他们通过闭集分类器将训练图像分成典型子集和非典型子集。然后非典型子集作为未知类数据作为第C 1个样本加入训练集其中C是已知类的数量类用于训练C 1类分类模型。这两种方法对于构建未知类数据相对直接和简单。为了捕获更精确的未知类信息一些研究者探索了基于已知类特征学习未知类特征的可学习策略。 Chen等人定义了用于捕获每个已知类别的未知类别信息的 discriminative reciprocal points包含从其他已知类别提取的图像特征和一组可学习的特征作为未知类别特征。在训练过程中从一个已知类中提取的特征被推到远离相应已知类的倒数点从而学习到的已知类特征位于特征空间的外围而未知类特征则被限制在特征空间中心的有界区域内。在这种情况下未知空间被缩小并有界这可以防止分类网络对未知类别的测试样本产生高置信度。 离群类介绍。利用已知类中未知类信息的方法仍然受到训练集的限制。有时当训练集的分布明显偏离测试集的分布时或者当数据量很小时原始训练集不足以支持模型探索有效的未知类信息。在这种情况下一些方法试图将离群数据引入模型训练。 离群数据的使用可以追溯到对象检测任务其中分类网络也由指示在提议中没有感兴趣的对象的背景类来训练。离群类样本的引入可以防止网络对未知类样本输出过度自信的错误预测。Dhamija等人借鉴了这一思想他们将NIST字母数据集中某些类别的数字图像作为已知类别样本而将NIST字母的其余类别图像作为未知类别样本进行测试并将CIFAR10 和MNIST 的图像作为异常样本。他们首先发现未知类别的特征通常比已知类别的特征具有更低的特征量和更高的软最大熵。基于这种默认观察他们设计了基于熵的损失和基于量级的损失以约束模型训练中的已知类样本和离群样本从而增加这种分离这提高了模型对训练中不可用的未知类样本的鲁棒性。 这种在模型训练中引入离群类样本的操作也被用于分布外(OOD)检测任务其中模型拒绝未知类样本的能力更受关注。然而在开集方法或OOD检测方法中已知类样本被归类到离群类相关损失的一个组中这可能会影响OSR任务中的闭集分类性能。此外这些方法在不同数据集上的不同已知类和离群类之间采用相同的间隔限制了开集识别性能。 为了解决上述问题Cho和Choo 基于线性判别分析(LDA)的原理而不是通常使用的SoftMax分类器选择了多个基于距离的分类器。此外他们设计了一种类别包含损失鼓励每个离群样本远离最近的类别超球分类器这进一步提高了模型的可分辨性。他们从ImageNet数据集中选择图像作为离群类样本。除了上面介绍的鉴别方法生成OSR方法也采用离群点暴露来增加训练集这将在下面的段落中介绍。 2)生成模型:随着生成模型的发展越来越多的OSR方法注重采用生成学习技术来提高模型的可分辨性。生成OSR模型 主要从已知类样本中学习分布在此基础上建立如何识别未知类样本和分类已知类样本的判别标准。根据使用的具体生成模型这些方法可以进一步分为三组:基于生成对抗网络(GAN)的方法基于自动编码器(AE)的方法以及其他方法。 基于GAN方法。考虑到GANs能够生成各种新样本一些方法利用GANs生成未知类样本来填充关于开放空间的缺失信息。他们通过对抗性训练来隐式地对数据分布建模而不是通过拟合特定的参数化分布来显式地建模。大多数基于GAN的方法仅基于已知类训练样本生成未知类样本或特征并且寻求关于未知类样本/特征的位置的不同假设以及利用所生成的未知类样本/特征的不同策略。 Ge等人假设未知类别样本位于已知类别分布的混合分布中。他们修改了条件GAN的训练过程其中混合了几个先前已知的类分布。基于生成的未知类样本他们通过提供关于未知类的显式概率估计来扩展OpenMax 。 Neal等人假设未知类别样本位于特征空间中任何已知类别分布之外但同时与像素空间中的已知类别图像相似。每个未知类别样本是基于编码器-解码器从已知类别训练图像生成的。具体地它们最小化输入已知类别图像和生成图像之间的重构误差以保证像素空间中的相似性同时最小化生成图像被分类到相应已知类别的分类概率。然后将生成的图像作为一个附加类来扩充训练集并用于训练(C 1)类(其中C是已知类的数量)分类器。 Jo等人假设未知类特征位于已知类的相邻特征空间中。因此他们将GAN中的生成与边缘去噪自动编码器相结合以模拟远离每个已知类别的分布。在生成未知类别特征的情况下他们训练了一个C类分类模型该模型具有附加的基于熵的正则化损失以鼓励模型对未知类别特征具有高不确定性这收紧了已知类别的决策边界。 Chen等人 扩展了他们以前的判别性OSR方法基于对抗性训练策略生成混淆样本以提高模型的判别力。具体而言生成的特征被约束为欺骗鉴别器同时它们也被约束为通过最大化分类器的输出熵来接近倒数点。此时生成的混淆特征位于已知类特征和倒易点之间的边界。在特征生成之后他们为训练分类模型设计了三个损失包括两个对比损失这两个损失都最大化每个倒易点与其对应的已知类原型的距离并将距离限制在可学习的范围内以降低经验分类风险和限制开放空间风险以及一个基于距离的熵损失约束生成的混淆特征位于倒易点附近以进一步增强已知类和未知类之间的区分。 将已知类特征推到特征空间的边缘而将未知类特征限制在特征空间的中心夏等人生成了未知类特征这些特征位于已知类原型附近但在已知类原型中心的可学习距离之外。他们还引入了对抗运动属性使距离边缘的对抗运动成为可能这进一步降低了经验风险和开放空间风险。 然而上述方法通常会产生决策边界之外的未知类样本这些样本容易被区分并且忽略了对开集识别性能更重要的“硬否定”样本。为了解决这个问题Moon等人从分类器的角度考虑了生成未知类别样本的不同难度。他们训练了一个多组卷积分类网络和一个复制的对应物其层由基于多级知识提取的相同预定义标准分离以生成难度或难度级别的特征并与GAN连接以生成不同难度级别的多个特征。当最终训练分类器时生成的未知类别特征被赋予统一的概率作为标签。 考虑到有时离群数据集是可用的一些判别OSR方法引入了离群样本来模拟未知类别样本。然而这种模型对不同的未知类样本表现出较差的泛化能力因为训练中使用的离群样本不能完全覆盖开放空间。为了解决这个问题Kong和Ramanan 提出了OpenGAN它基于原始已知类训练样本和引入的离群类样本训练了一个与C-way分类器相结合的GAN并在GAN中采用鉴别器来区分未知类样本和已知类样本。模型选择也是基于离群验证样本来操作的即使离群验证样本是稀疏的或有偏差的这也被发现是有效的。 基于 AE 的方法。如前所述一些基于重建的区别性OSR方法基于从自动编码器输出的差异重建误差来区分未知类样本和已知类样本。近年来一些生成OSR方法已经利用自动编码器来显式地对已知类分布建模使得如果未知类样本不属于被建模的已知类分布之一则未知类样本可以被拒绝并且已知类样本也可以根据它属于哪个已知类分布来分类。 作为一种典型的自动编码器变分自动编码器(VAE) 已经广泛应用于许多视觉任务它将已知类样本建模为标准高斯分布。然而使用VAE将所有已知类别的特征分布建模为高斯分布会破坏两个不同已知类别之间的可区分性。孙等将VAE扩展为基于概率梯形架构的分类识别自动编码器。具体地编码器将每个图像编码成高斯分布的两个分布参数(即平均值和标准偏差)。由学习分布采样的潜在特征被强制逼近相应已知类别的高斯分布其标准偏差是单位矩阵均值从独热标签映射。在推理阶段未知类别图像不仅可以根据其偏差分布来检测还可以根据其较高的重建误差来检测。随后他们还以类似的方式将对立自动编码器(AAE) 扩展到另一个类别区分自动编码器。 受上述方法的启发Guo等人用胶囊网络取代了CNN主干其中网络中的每个潜在神经元输出一个矢量而不是一个标量这样编码的潜在特征可以表示更多样的信息。他们没有像中那样使用额外的分类器来使潜在特征具有区分性而是利用具有余量的对比损失来迫使编码特征位于相应的已知类别区域并保持不同的已知类别特征彼此远离。 然而将每个已知类特征分布建模为单个高斯分布不能很好地表示类内差异。为了解决这个问题Li和Yang 假设每个已知类特征分布遵循高斯混合分布它可以通过不同的高斯分量来表示类内差异。他们嵌入了神经高斯混合模型进入自动编码器将潜在特征映射到边缘分布该分布被称为双分布因为可以从中推导出两个相反的概率i潜在特征属于已知类的概率ii潜在特征属于未知类的概率训练模型编码的已知类特征或未知类特征都可以形成一个分布峰值因此可以根据潜在空间中的分布峰值来识别测试样本一旦测试样本靠近已知类峰值它将被潜在空间中的已知类分类器进一步分类。 类似地Cao等人也将每个已知类的特征分布建模为高斯混合但他们直接修改了高斯混合VAE 而不是嵌入神经高斯混合模型。结合条件VAE 和原型学习将每个已知类的特征分布约束为多个高斯分布也可以将其视为高斯混合分布考虑到一些复杂的特征分布不能用单高斯或高斯混合来表示例如亚高斯和超高斯Sun等人基于新的重新参数化策略将指数幂分布的混合引入网络其通过指数幂分布的不一致混合来对来自不同已知类别的特征分布进行建模。 一般来说这组OSR方法的主要研究方向是寻求更有效的显式表示已知类的特征分布以及研究如何更好地利用重构误差来提高特征的可分辨性其中第二个动机与基于重构的判别OSR方法相一致。 其他。除了基于GAN和基于AE的方法之外还存在一些OSR方法它们采用其他生成模型例如基于流的模型或者仅采用编码器来建模特征分布或者生成用于转移学习的实例权重。 基于流的生成模型生成质量与GAN相当的图像或特征但由于其可逆架构可以显式地对训练分布进行建模该模型还将潜在空间中的训练类特征分布建模为标准高斯分布正如VAE中所做的那样。Zhang et al 将典型的流网络Resflow 与潜在空间中的已知类分类器相结合。Resflow用作检测未知类的密度估计器而潜在分类器用于保持已知类分类精度。 考虑到基于AE的方法中的图像级重建将考虑所有图像像素其中许多像素与类别无关甚至容易引起误导Sun等人去除了自动编码器中的解码器并使用Kullback-LeiblerKL发散损失来约束潜在特征使得每个已知类别的特征分布被建模为单个高斯分布。他们设计了一种多尺度互信息最大化策略用于建立输入图像与其潜在特征之间的相关性这进一步提高了特征的可区分性。 另一种创新的生成式OSR方法是学习用于生成新样本的中间向量而不是直接生成图像或特征这是由Fang等人提出的。受迁移学习理论和可能的近似正确理论的启发他们将已知类别的样本与辅助域中的样本对齐通过这种实例加权策略可以利用实例权值检测未知类样本。 3)因果模型无论是上面提到的判别式模型还是生成式模型它们都容易陷入懒惰学习的陷阱因为一旦模型寻找到一组可以最小化损失函数的权重参数这种懒惰的学习必然会导致模型学习到容易学习但相对脆弱的相关关系。为了解决这个问题针对这个问题人们提出了一些因果模型旨在从训练数据中寻找因果关系从而以两种方式减轻非因果OSR方法学习的特征中的混淆因素从高度耦合的相关特征中解开鲁棒表示并基于反事实生成生成更可靠的已知类样本。 因果解缠。Yang提出了一种用于开放集识别的可逆因果模型该模型由可逆编码器此处使用 i-RevNet 和类函数组成前者用于将图像编码为特征后者用于提供属于每个已知类的编码特征的分布先验。与将特征分布建模为显式固定分布的基于 AE 的生成式 OSR 方法不同这里的类函数是以结构因果模型SCM 的形式构建的每个结构因果模型都是一个有向无环图。在训练阶段编码特征受限于匹配相应的先验类函数。在推理阶段与大多数基于 AE 的生成式 OSR 方法的推理策略类似根据样本属于这些类函数的概率对样本进行分类/检测。反事实生成。由于生成模型对已知类特征分布具有很强的建模能力而训练样本在某些情况下可能不足因此生成式 OSR 方法成为处理 OSR 任务的主流。然而这些方法大多直接根据单点类标签生成样本或特征忽略了渗透到不同已知类中的非因果混杂因素导致生成的样本或特征存在偏差。为了解决这个问题一些方法采用了 counterfactual generation来生成更可靠的样本或特征。 Yue等人[73]提出了一种基于 TF-VAEGAN 的反事实生成方法来处理OSR任务该方法由一个将图像编码为潜在特征的编码器、一个根据潜在特征和所提供的单击标签重建/生成反事实图像的解码器/生成器以及一个用于区分真实图像真和反事实图像假的判别器组成。他们用三种损失来训练网络β-VAE 损失用于将潜在特征分布建模为各向同性高斯分布对比损失用于最小化或最大化输入图像与其基于匹配或不匹配标签重建的图像之间的重建误差以及 GAN 损失用于鼓励生成的图像欺骗判别器。在推理阶段将测试图像与其根据 C 个单次热已知类别标签生成的 C 个反事实图像之间的最小距离与检测未知类别图像的阈值进行比较。如果距离小于阈值测试图像就会被预测为与最小距离相对应的已知类别。Zhou 等人在处理开放集合成孔径雷达SAR图像目标识别任务时也采用了类似的方法结果仍然优于其他 OSR 方法。
Transductive Methods 转导式方法考虑到测试样本在训练阶段就已存在因此在模型训练中同时使用有标记的训练集和无标记的测试集。正如在其他视觉任务如零/少样本学习和域适应中证明的那样转导式学习能有效缓解分布偏移问题这也启发了两种转导式 OSR 方法。 Yang等人首次提出了转导式OSR方法。首先他们根据基于分数的策略从测试样本中筛选出一些类外样本同时用基线分类模型对这些样本进行伪标记。然后利用原始训练样本和过滤出的伪标签测试样本共同更新模型。 尽管这种直推式学习方法提高了模型的性能但仍然存在两个问题:(1)样本选择问题:如何选择伪标签更可靠的测试样本(ii)已知/未知类别不平衡问题:已知类别样本(包含原始训练样本和被伪标记为已知类别的选定测试样本)的数量通常大于未知类别样本(仅包含被伪标记为未知类别的选定测试样本)的数量。 为了解决这两个问题Sun和Dong 在他们提出的迭代转换OSR框架中设计了一种采样策略和生成方法。具体来说他们设计了一种用于样本选择的双空间一致性采样策略该策略将不可靠的测试样本从候选样本中移除这些样本在输出空间中分配的伪标签与其在特征空间中的大多数邻居不一致。此外他们设计了一个用于特征生成的条件生成网络在网络中增加了一个区分已知类特征和未知类特征的附加权值以提高生成特征的可分辨性;然后基于他们设计的采样和生成方法提出了一个迭代的直推OSR框架该框架迭代地进行样本选择、特征生成和模型更新。
Extension Tasks 除了基本的OSR任务外我们还介绍了一些扩展任务。在现实中OSR任务部署在复杂多变的环境中。这里我们简要回顾了OSR任务7个典型扩展场景中的一些代表性方法1只有一个已知类可用的一类分类2训练数据递增的开放世界识别3开集长尾识别其中数据分布呈现长尾分布4开集域自适应其中数据分布也存在5少样本开集识别其中训练数据非常充足6开集对抗防御其中输入图像受到对抗攻击以及7具有标签噪声的开集识别其中标签是有噪声的或不准确的。 1)One-Class Classification: 在常见场景下训练集中存在不止一个已知类训练模型能够区分不同的已知类也在一定程度上提高了模型区分未知类的能力。在极端场景下只有一个已知类可用称为 One-Class Classification其中依赖于提升已知类别特征可辨别性来改进OSR性能的一些辨别性OSR方法可能失败。 为了解决这个问题一些判别方法将单类支持向量机嵌入到损失函数中或者应用特定的数据变换来捕获已知类的唯一几何结构信息。然而由于在模型训练中无法获得负样本考虑到生成式模型能够模拟已知类数据的分布生成式方法被广泛应用于一类分类任务该方法根据未知类样本的分布与已知类样本分布的偏差来识别未知类样本。此外重建误差仍然可以用来区分未知类样本和已知类样本。 2)开放世界识别: 在常见场景中数据集通常是静态和固定的OSR模型仅在一个时间从现有数据集学习。然而现实场景中的数据通常是动态呈现的并且可以周期性地甚至连续地获得新的数据。每次重新训练模型的成本都很高。在这样的应用需求下一系列开放世界的识别方法被提出这些方法旨在不断地检测和添加遇到的新类别。 Bendale和Boult 首先提出了开放世界识别的概念也将最近类均值分类器扩展到了开放世界识别任务中。Cao等人提出了一种渐进式直推方法该方法选择未标记的新样本并根据聚类结果为其提供伪标记以更新特征原型。Wu等人回答了用于预测和利用新类别样本的图表示和学习其中图网络用于根据特征级图推断从新数据提取的特征的嵌入预测网络用于预测新特征的伪标签。通常聚类和直推学习是处理开放世界识别任务的两种常用工具。最近类均值可以被认为是一种聚类策略因为它将样本拉向其最近的邻居。图形网络也是直推式学习的常用工具。通过直推式学习模型可以逐步利用新样本即使它们的标签不可用。通过聚类可以用相对较小的成本更新模型。 3)开集长尾识别:OSR模型在现实场景中会遇到的另一个问题是数据具有长尾分布该模型会偏好样本数量占优势的多数类而忽略样本明显不足的少数类。长尾问题是阶级不平衡问题的一个极端例子。有一些简单的策略来减轻模型对多数类的偏差例如数据重采样技术(包括从多数类的下采样和从少数类的过采样)和损失重加权(增加/减少少数/多数类样本的损失权重)。 近年来开集长尾识别任务受到越来越多的关注如何在开集环境下的少数类中挖掘有效信息成为该任务的关键问题。刘等 首先形式化定义了开集长尾识别任务并基于动态元嵌入机制对其进行处理。元嵌入机制将多数类视觉特征与少数类视觉特征相关联使模型对少数类具有鲁棒性并基于记忆库中的视觉特征动态校准特征范数以支持网格识别。蔡等人提出了一种分布敏感损失当约束类内距离最小化时该损失为少数类样本提供了更大的权重。此外他们设计了一种基于距离的度量标准根据特征到聚类的距离进行识别。 4)开集域适配:如第节所述。第一分布移位既包括普遍存在于OSR任务中的语义移位也包括协变量移位。在[Open set domain adaptation]中首次提出的开集域适应任务中语义移位和协变量移位同时存在。换句话说未知类别的样本将存在于测试集中此外训练集和测试集中的已知类别的样本位于不同的领域(即分别是源领域和目标领域)。大多数现有的闭集域自适应方法旨在根据源域中已标记的已知类别样本以及目标域中未标记(或部分标记)的样本将整个目标域与源域对齐。然而在开集域适应任务中目标域中的未知类样本将与源域中的已知类样本不正确地对齐这将损害已知类和未知类之间的可区分性。 为了解决这个问题Busto和Gall 在将目标域中的图像分配给源域中的一些类别时添加了隐式离群点检测机制因此不属于已知类别的图像可以在分配中被丢弃。为了将目标域中的未知类样本与目标域中的已知类样本分开Saito等人在特征提取器和(C 1)类分类器之间采用了对抗训练其中训练分类器不仅对已知类源特征进行分类而且根据第(C 1)类的概率区分已知类和未知类同时训练特征提取器来欺骗分类器。Liu等人从目标域中的已知类样本和源域中的已知类样本之间的差距比目标域中的未知类样本和源域中的已知类样本之间的差距小得多的观察中得到启发。他们设计了一种从粗到细的加权机制该机制迭代地操作两个步骤:多二进制分类器训练步骤该步骤测量目标图像与每个源已知类的相似性以及二进制分类器学习步骤该步骤基于通过与源类的高/低相似性选择的已知/未知类目标样本来训练二进制分类器。 5)少量开集识别:常见的OSR任务部署在大规模数据集上。然而在一些极端现实的场景中每个已知类别中的训练样本数量非常少这样的任务称为fewshot开集识别任务。 为了完成这项任务刘等人【Few-shot open-set recognition using meta-learning】将闭集少样本学习模型扩展到了开集环境。他们通过基于开集距离的损失项将一些伪未知样本添加到模型训练中。Jeong等人根据未知类样本与转换原型的较大差异来识别未知类样本。王等提出了一个基于能量的模型其中偏离少数已知类别样本的类别特征或像素特征的样本被赋予更大的能量分数。 6)开集对抗性防御:开集对抗性防御任务结合了开集识别任务和对抗性防御任务开集识别任务的目的是在测试过程中对已知类别进行分类并识别未知类别对抗性防御任务的目的是使网络能够防御不易察觉的对抗性干扰图像。 为了处理这项任务Shao等人提出了一个开集防御网络它由一个带去噪层的编码器和一个用于学习无噪声特征的分类器组成。此外他们结合了一个解码器来重建干净的图像增加了一个自我监督损失以提高特征的可辨性以及一个干净-敌对的相互学习机制其中另一个分类器(处理干净的图像)与原始分类器(处理敌对的图像)相互学习以促进特征去噪。 7)带有标签噪声的OSR:在常见的OSR场景中该模型严重依赖干净的标签。然而向大规模数据集提供标签成本很高且容易出错并且真实数据不可避免地包含有噪声/不正确的标签。 Wang等人提出了一种迭代学习框架该框架迭代地检测噪声标签扩大干净标签和噪声标签之间的差异并应用重新加权模块来鼓励模型从干净标签而不是噪声标签学习更多。Sachideva等人利用了主观逻辑损失这可以在闭集噪声样本上产生较高的损失而在开集样本上产生较低的损失。与上述方法不同Wei等人从经验上证明了开集含噪标签甚至有助于提高模型对含噪标签的鲁棒性并将带有动态含噪标签的开集样本作为正则项引入模型训练。
DATASETS, METRICS, AND COMPARISON
Datasets 本节将介绍 OSR 任务中常用的多类数据集包括粗粒度数据集和细粒度数据集。与粗粒度数据集相比细粒度数据集中的图像通常具有较高的类间相似性和较低的类内相似性。因此在处理细粒度数据集时需要进行一些详细的处理操作。 为了模拟开放集场景有些类被选为已知类有些类被选为未知类。根据类的来源数据部署可分为两类标准数据集设置已知类和未知类来自同一数据集和跨数据集设置已知类和未知类来自不同数据集。 粗粒度数据集 在标准数据集设置下使用了五个数据集 MNIST 该数据集包含 7 万张 10 级手写数字图像28×28其中包括 6 万张训练图像和 1 万张测试图像。随机抽取 6 个类别作为已知类别其余 4 个类别作为未知类别。 SVHN该数据集的图像来自街景门牌号码SVHN数据集其中包含 99289 个 10 类街景门牌号码32×32包括 73257 个训练图像和 26032 个测试图像。同样选择 6 个类别作为已知类别其余 4 个类别作为未知类别。 CIFAR10该数据集的图像来自 CIFAR10 数据集其中包含 60000 张 10 类自然物体图像32×32包括 50000 张训练图像和 10000 张测试图像。同样选择 6 个类别作为已知类别其余 4 个类别作为未知类别。 CIFAR10/50该数据集的图像来自 CIFAR10 和 CIFAR100 数据集。与 CIFAR10 类似CIFAR100 包含 60000 张 100 类自然物体图像32×32其中包括 50000 张训练图像和 10000 张测试图像。10 个已知类固定为 CIFAR10 数据集中的 10 个类CIFAR10 或 CIFAR50 从 CIFAR100 数据集中随机抽取 10 或 50 个类作为未知类。 TinyImageNet 该数据集是 ImageNet 数据集的一个 200 类子集包含 120000 张自然物体图像64×64其中包括 100000 张训练图像、10000 张评估图像和 10000 张测试图像。其中 20 个类别为已知类别其余 180 个类别为未知类别。 在跨数据集设置下10-class CIFAR10 数据集作为已知类数据集 收集的四个数据集分别作为四个未知类数据集 ImageNet-crop、ImageNet-resize、LSUN-crop 和 LSUN-resize它们是从 200 类别 TingImageNet 和 10 类别 LSUN 中裁剪或调整大小的图像。 细粒度数据集 在跨数据集设置下使用了三个语义转换数据集分别包含鸟类、汽车和飞机等不同子类的高分辨率图像 CUB该数据集的图像来自加州理工学院-加州大学伯克利分校鸟类CUB数据集CUB-200-2011其中包含 11788 张带标签和属性标记的 200 类鸟类图像包括 5994 张训练图像和 5794 张测试图像图像大小各异。其中随机抽取 100 个类别作为已知类别其余 100 个类别则根据每个未知类别与整个已知类别的属性相似度分为三组未知类别“易 ”组包含 32 个与已知类别区别较大的类别“难 ”组包含 34 个与已知类别较为相似的类别“中 ”组包含其余 34 个类别。 FGVC-飞机 在该数据集中图像来自 FGVC-Aircraft-2013b 数据集该数据集同样包含 10000 张带标签和属性标记的 100 级汽车图像其中包括 6667 张训练图像和 3333 张测试图像图像大小各不相同。随机选取 50 个类别作为已知类别其余 50 个类别也被分为与 CUB 类似的三个难度组20 个 “简单 ”组、13 个 “困难 ”组和 17 个 “中等 ”组。 斯坦福汽车 该数据集的图像来自 Stanford-Cars 数据集其中包含 16185 张带标签的 196 级飞机图像包括 8144 张训练图像和 8041 张测试图像360×240。前 98 个类别被选为已知类别其余 98 个类别被选为未知类别。 在跨数据集设置下将 FGVC-Aircraft 中包含上述选定的 50 个已知类别的子集作为已知类别数据集而将 200 个类别的 CUB 和 196 个类别的 Stanford-Cars 数据集分别作为两个未知类别数据集 飞机-CUB、飞机-斯坦福-汽车。
Metrics 在此我们介绍 OSR 任务中常用的评估指标。OSR 任务的目标不仅是准确接受多类已知类测试样本并对其进行分类而且还需要对测试样本进行分类、同时也能正确剔除未知类别的测试样本。根据上述目标评价模型性能ACC 和 AUROC 是标准数据集设置下最常用的两个指标适用于粗粒度和细粒度图像。此外在跨数据集设置下宏-F1 分数也被用于衡量多类开放集分类性能。OSCR[Reducing network agnostophobia]也被用于同时测量细粒度数据集上的闭集分类性能和开集剔除性能。四种评价指标的详情如下 ACC Top-1 准确率ACC是封闭集识别任务中常用的指标。在 OSR 任务中该指标只考虑已知类测试样本。其计算方法是正确分类的已知类测试样本占整个已知类测试样本的比例。 AUROC接收者操作特征曲线ROC下面积AUROC是一个与阈值无关的指标。在 OSR 任务中该指标将所有已知类别视为一类而将所有未知类别视为另一类并测量不同阈值设置下的二元分类性能。AUROC 显示了模型能在多大程度上对两个类别进行分类。ROC 曲线以假阳性率 (FPR) 为横坐标真阳性率 (TPR) 为纵坐标。TPR 和 FPR 的计算公式分别为 T P R T P T P F N F P R F P F P T N TPR\frac{TP}{TPFN}\\ FPR\frac{FP}{FPTN} TPRTPFNTPFPRFPTNFP 其中TP 和 FN 表示已知类别测试样本中被正确接受为已知类别和被错误剔除为未知类别的样本数FP 和 TN 表示未知类别测试样本中被错误接受为已知类别和被正确剔除为未知类别的样本数。 宏-F1 宏-F1 分数是一个取决于阈值的指标用于衡量多类分类性能。在 OSR 任务中该指标将所有未知类别视为 C 个已知类别的附加类别即第 (C 1)- 个类别。它是根据平均精确度 Pmacro 和平均召回率 Rmacro 计算得出的这两个指标的计算公式分别为 P m a c r o 1 C 1 ∑ i 1 C 1 T P i T P i F P i ( 3 ) R m a c r o 1 C 1 ∑ i 1 C 1 T P i T P i F N i ( 3 ) P_{macro} \frac 1 {C 1}\sum ^{C1}_{i1}\frac {TP_i} {TP_i FP_i} (3)\\ R_{macro} \frac 1 {C 1}\sum ^{C1}_{i1}\frac {TP_i} {TP_i FN_i} (3) PmacroC11i1∑C1TPiFPiTPi(3)RmacroC11i1∑C1TPiFNiTPi(3) 其中 TPi , TNi , FPi , 和 FNi 分别表示第 i 个类别i∈ {1, 2, …, C 1}的真阳性、真阴性、假阳性和假阴性。因此宏 F1 分数的计算公式为 F 1 _ m a c r o 2 × P m a c r o × R m a c r o P m a c r o R m a c r o ( 5 ) F_{1\_macro} 2 ×\frac {P_{macro} × R_{macro}} {P_{macro} R_{macro}} (5) F1_macro2×PmacroRmacroPmacro×Rmacro(5) OSCR开放集分类率Open-Set Classification RateOSCR 也是一个与阈值无关的指标可同时衡量已知类测试样本的 C 类分类性能以及区分未知类和已知类的二元分类性能。与 AUROC 类似它是另一条曲线下的面积以正确分类率CCR为横坐标新定义的 FPR 为纵坐标。这里CCR 表示已知类别测试样本中被正确接受为已知类别以及被正确分类的比例而新定义的 FPR 表示未知类别测试样本中被错误接受为已知类别的比例。OSCR 越大表明不仅在接受已知类样本并将其分类方面而且在拒绝未知类样本方面都有更好的表现。
Comparison 在本小节中我们将提供在上述两种数据集设置下一些具有代表性的 OSR 方法在粗粒度数据集和细粒度数据集上的比较结果。 粗粒度数据集比较 表 I 和表 II 报告了 34 种代表性 OSR 方法的 ACC 和 AUROC 结果这些方法都是在标准数据集设置下在粗粒度数据集上进行评估的其中比较方法的结果引用了其原始论文或引用其的论文并按照 TinyImageNet 上的年份和 AUROC 指标进行了排序。此外表 III 还报告了跨数据集设置下相应的宏 F1 分数其中某些方法的结果因未在任何地方报告而缺失。为保持一致性宏 F1 结果也按照上述策略进行排序。 表 I 标准数据集设置下粗粒度数据集的 ACC 结果。 表 II标准数据集设置下粗粒度数据集的 AUROC 结果。 表 III跨数据集设置下粗粒度数据集的 Macro-F1 结果。 为了更好地进行比较还列出了骨干和网络架构。“Convs”、‘ResNet’、“Wide-ResNet ”和 “Transformer ”分别表示相应的方法是基于普通 CNN、ResNets、Wide-ResNets 和视觉转换器开发的。由于不同的方法通常采用不同的层配置尽管使用的是同一组骨干我们用 “*”表示涵盖不同的配置。此外骨干网项中的 “‘和’/”分别表示该方法结合了两个网络作为骨干网以及在不同数据集上采用了不同的骨干网。架构项中的 “E”、‘G’、“D ”和 “D*”分别表示编码器、生成器、解码器和鉴别器。 在细粒度数据集上的比较 表 IV 和表 V 报告了一些 OSR 方法在标准数据集设置下对 CUB、FGVC-飞机和 Stanford-汽车的 ACC、AUROC 和 OSCR 结果。这些表格中的结果按年份和 CUB 的 OSCR 指标排序。E“、”M “和 ”H “分别表示 ‘简单’、”中等 “和 ”困难 难度级别。“中等 ”和 “困难 ”两组合并报告而不是在 CUB 上单独报告。 表 IV标准数据集设置下细粒度 CUB 数据集的 ACC、AUROC 和 OSCR 结果。 表 5标准数据集设置下细粒度 FGVC-飞机和斯坦福-汽车数据集的 ACC、AUROC 和 OSCR 结果。 表 VI在跨数据集设置下对 Aircraft-CUB 和 Aircraft-Cars 这两个细粒度数据集的 Macro-F1 结果。 比较结果总结与分析 总之根据上述比较可以从这些表格中看出 8 点 从表一和表二可以看出大多数比较方法无论是采用更强大的骨干网还是采用更简单的架构在大多数情况下都优于采用更轻量级骨干网的方法这表明强大的骨干网有助于提高模型的可辨别性。 虽然更强大的骨干网通常会导致更高的模型复杂度从而限制了架构的复杂性但它仍然可以与一些精心设计的模块相结合如 H A N − O S F G R 中的注意机制、 C r o s s − E n t r o p y 中的综合数据增强、 C S S R 和 M o E P A E 中的轻量级重建、 P M A L 中的原型约束、 C l a s s − i n c l u s i o n 中的离群值暴露、 O p e n G A N 和 I T − O S R − T r a n s P 中的特征生成等、以进一步提高模型性能 \textcolor{red}{虽然更强大的骨干网通常会导致更高的模型复杂度从而限制了架构的复杂性但它仍然可以与一些精心设计的模块相结合如 HAN-OSFGR 中的注意机制、Cross-Entropy 中的综合数据增强、CSSR 和 MoEPAE 中的轻量级重建、PMAL 中的原型约束、Class-inclusion 中的离群值暴露、OpenGAN 和 IT-OSR-TransP 中的特征生成等、 以进一步提高模型性能} 虽然更强大的骨干网通常会导致更高的模型复杂度从而限制了架构的复杂性但它仍然可以与一些精心设计的模块相结合如HAN−OSFGR中的注意机制、Cross−Entropy中的综合数据增强、CSSR和MoEPAE中的轻量级重建、PMAL中的原型约束、Class−inclusion中的离群值暴露、OpenGAN和IT−OSR−TransP中的特征生成等、以进一步提高模型性能。 从表一和表二可以看出如果一种方法的 ACC 值较高则其 AUROC 值通常也较高。换句话说在大多数比较方法中封闭集分类性能越好开放集检测性能也就越好。不过在成对比较时也有很多反例即 AUROC 明显较高对应的 ACC 相近甚至明显较低而 ACC 较好对应的 AUROC 较差。这主要是因为一些未知类样本与一些已知类样本相似将这些未知类样本从已知类中分离出来会损害已知类的分类准确性。因此如何在开放集检测性能和封闭集分类性能之间取得更好的平衡是 OSR 界的一个未决问题。 从表一至表三可以看出交叉数据集下的结果普遍低于标准数据集下的结果主要原因有两个(i) 除了语义偏移外训练样本与未知类测试样本之间还存在协变量偏移这可能更容易造成类混淆。(ii) 宏 F1 指标同时考虑了封闭集分类性能和开放集检测性能模型不仅需要正确分类已知类样本还需要根据阈值将其识别为已知类。 从表 I 至表 III 可以看出最近的 OSR 方法已经实现了接近饱和的性能即接近或高于 95%尤其是在 Transformer 骨干网方面。因此有必要在更大规模、更高分辨率和更困难的数据集上进行评估。 从表 IV 中可以看出“中等 ”和 “较难 ”组的结果普遍低于 “简单 ”组这主要是因为较难组中的未知类图像通常与已知类图像具有相似的外观只是在某些细粒度属性上有所不同。此外最近的模型性能在 “简单 ”组中也达到或接近饱和识别更难的未知类样本主要会影响整体性能。因此如何区分和利用较难识别的未知类样本成为提高模型在细粒度数据集上可识别性的关键。对细粒度信息进行更有效的获取和更细致的处理或许有助于区分较难的未知类样本然后再利用一些无监督技术进行模型训练。 从表四和表五可以看出使用 ResNet* 主干网的方法通常比使用 Convs* 主干网的方法表现更好而使用 Transformer* 主干网的方法通常比使用 ResNet* 主干网的方法表现更好。这主要是因为 ResNet 中的残差连接加深了网络从而增强了网络学习更复杂特征的能力而变换器中的多重自关注操作则有助于捕捉图像中语义对象的更细粒度关注。 从表 VI 可以看出飞机-CUB 的结果明显低于飞机-汽车的结果。这主要是因为 FGVC-Aircraft 与 CUB 之间的分布偏移大于 FGVC-Aircraft 与 Stanford-Cars 之间的分布偏移。结合前面的观察我们可以发现无论是过大的分布偏移如 CUB 上未知类样本与 FGVC-Aircraft 上已知类样本之间的分布还是过小的分布偏移如未知类样本中的 “中难 ”组与已知类样本之间的细微差别都会造成类混淆。由于分布偏移问题是 OSR 界固有的问题因此迁移学习可能有助于缓解分布偏移问题。 从表 I-VI 可以看出在标准数据集设置下和粗粒度数据集上生成式 OSR 方法的性能普遍优于判别式 OSR 方法这主要是因为生成式模型的学习不仅基于输入和输出之间的关系还基于数据的内部分布结构。然而无论是在跨数据集设置下还是在细粒度数据集上这种现象都很难被观察到这主要是因为在跨数据集设置下学习到的基于语义的分布无法适应协变量的变化而在细粒度数据集上从相似样本中学习到的分布也会相似。因此无论是在跨数据集环境下还是在细粒度数据集上采用各种策略提高特征可区分性的判别方法都会更加有效。
OPEN ISSUES AND FUTURE RESEARCH DIRECTIONS
Open Issues 在这里我们提出了OSR任务中的一些开放问题。 1)语义转换问题OSR任务中的固有问题是语义转移问题在测试集中会遇到一些新类别的图像。由于深度学习模型是数据驱动的模型因此仅基于已知类别训练模型会使模型更倾向于已知类别即模型会错误地将未知类别的样本预测为已知类别之一。现有的OSR方法大多是归纳方法假设在模型训练中只有已知类的样本虽然它们追求对已知类更具区分性的表示希望未知类的样本可以根据它们与已知类的偏差来识别由于不存在真实的未知类已知类和未知类之间的决策边界的偏差仍然存在。然而学习已经在其他任务和OSR任务中证明了它的有效性。到目前为止只有两种转导OSR方法。此外在现有的转导OSR方法中也存在一些开放的子问题如第II.B节所提到的。因此如何有效地利用未标记的测试样本仍然值得研究特别是难以识别的测试样本。 2)分类已知类和识别未知类之间的一致性问题OSR任务旨在同时分类已知类样本和识别未知类样本。一个好的OSR模型需要同时产生高的闭集分类精度和已知类和未知类之间的高差异。然而当特征空间中的未知类样本与已知类样本混淆时这两个目标有时可能不一致在这种情况下将这些未知类样本与已知类样本分离可能会损害不同已知类之间的区分度这种现象在闭集识别任务中也可以观察到其中一部分类别的准确性差异可能导致其他类别之间的混淆因此另一个开放的问题是如何实现一致的更好的性能或实现已知类别分类和未知类别识别之间的更好的平衡挖掘和利用难以识别的混淆样本可能是解决这一问题的一种方法。 3)区分已知类别和未知类别的阈值由于在模型训练中未知类样本通常不可用因此大多数现有的OSR方法首先训练C路分类器并通过将基于C类的识别分数与阈值进行比较来识别未知类样本。阈值的选择对于开集识别性能至关重要现有的OSR方法大多根据经验选择阈值进行识别Zhou等人提出了一种基于可学习策略的类特定阈值为阈值的进一步研究奠定了基础。
Future Research Directions
在这里我们提供了一些未来的研究方向以促进未来的工作在处理OSR任务。1)人脑机制启发的开集识别在神经科学领域人类大脑和动物大脑被证明具有快速识别新类别的能力。一些识别机制可以启发未来的OSR方法。一些现有的OSR方法已经提供了实例。Yang等人设计了类-具体特征原型的灵感来自于人类大脑中不同类别的抽象记忆。Sun等人受大脑中时间注意机制的启发对分层注意特征进行时间聚合因此从大脑中的识别机制借鉴是一个很有前途的未来研究方向。2)多模态大模型引导开集识别随着数据量的快速膨胀和硬件性能的提高深度神经网络正在进入多模态大模型时代最近很多在多模态大规模数据集上预训练的多模态大模型已经在辅助许多视觉任务方面展示了其泛化能力例如少样本和零样本图像识别任务。预训练的大模型存储了关于开放世界的丰富先验信息这是处理OSR任务的有前途的辅助工具。使用大模型的一个简单方法是调整它们的提示其提供关于输入数据的上下文或参数信息以帮助大型模型更好地理解和处理特定任务。受预训练大型模型令人印象深刻的生成能力的鼓舞Qu等人合作了几个大型模型ChatGPT DALL-E CLIP 和DINO 以免训练的方式利用丰富的内隐知识以减少对虚假判别特征的依赖。他们的方法分两个阶段操作。在一个阶段在第二阶段基于生成的图像和 CLIP 和 DINO 的已知类和虚拟未知类的扩展列表的两个对齐来推断测试图像。虽然该方法直观且不需要训练它在处理OSR任务时是有效的。为了进一步利用大模型Liao等人将开放词和大模型上的快速调整结合起来处理OSR任务。开放词取自WordNet 而不是通过询问ChatGPT生成可学习提示提高了模型对下游任务的适应性。此外对于较大规模数据集上的XXX他们首先对较少类的组执行多个独立的分组提示调优然后基于最优子提示进行预测。此外他们提出了新的基线以便与基于大模型的OSR方法进行公平比较如何更好地利用OSR的开放性基于新的提示和调优策略来处理OSR任务的世界预训练大型模型仍然值得研究。
CONCLUSION
本文对开集图像识别进行了全面的综述首先对现有的基于DNN的方法进行了系统的分类并对多数据集和两种数据集部署下的典型和最先进的OSR方法进行了比较和分析。此外我们讨论了一些开放的问题和未来的发展方向在这个社区。
学习提示提高了模型对下游任务的适应性。此外对于较大规模数据集上的XXX他们首先对较少类的组执行多个独立的分组提示调优然后基于最优子提示进行预测。此外他们提出了新的基线以便与基于大模型的OSR方法进行公平比较如何更好地利用OSR的开放性基于新的提示和调优策略来处理OSR任务的世界预训练大型模型仍然值得研究。
CONCLUSION 本文对开集图像识别进行了全面的综述首先对现有的基于DNN的方法进行了系统的分类并对多数据集和两种数据集部署下的典型和最先进的OSR方法进行了比较和分析。此外我们讨论了一些开放的问题和未来的发展方向在这个社区。 小样本开放集图像识别Few-Shot OSR的挑战与解决方案数据稀缺性每个已知类仅有少量样本难以学习稳健的特征表示且未知类完全未见过导致模型泛化能力不足。双重任务冲突需同时解决小样本分类的 “快速适应” 和开放集识别的 “未知拒绝”传统方法易在两者间失衡。