当前位置: 首页 > news >正文

如何建立免费网站网站关键词部署

如何建立免费网站,网站关键词部署,免费的信息发布平台,不要营业执照的做网站AI视野今日CS.CV 计算机视觉论文速览 Mon, 18 Sep 2023 Totally 83 papers #x1f449;上期速览✈更多精彩请移步主页 Interesting: #x1f4da;Robust e-NeRF,处理高速且大噪声事件相机流的NERF模型。(from NUS新加坡国立) 稀疏噪声事件与稠密事件数据的区别#xff1a;… AI视野·今日CS.CV 计算机视觉论文速览 Mon, 18 Sep 2023 Totally 83 papers 上期速览✈更多精彩请移步主页 Interesting: Robust e-NeRF,处理高速且大噪声事件相机流的NERF模型。(from NUS新加坡国立) 稀疏噪声事件与稠密事件数据的区别 模型架构 项目网站https://wengflow.github.io/robust-e-nerf/ Daily Computer Vision Papers Robust e-NeRF: NeRF from Sparse Noisy Events under Non-Uniform Motion Authors Weng Fei Low, Gim Hee Lee由于其独特的低功耗、低延迟、高时间分辨率和高动态范围的工作原理事件摄像机比标准摄像机具有许多优势。尽管如此许多下游视觉应用的成功也取决于高效且有效的场景表示其中神经辐射场 NeRF 被视为主要候选者。事件相机和 NeRF 的这种前景和潜力激发了最近研究从移动事件相机重建 NeRF 的工作。然而这些工作主要受限于对密集和低噪声事件流的依赖以及对任意对比度阈值和相机速度配置文件的泛化。在这项工作中我们提出了 Robust e NeRF这是一种新颖的方法可以在各种现实世界条件下从移动事件摄像机直接、鲁棒地重建 NeRF特别是从非匀速运动下生成的稀疏和噪声事件。它由两个关键组件组成一个是现实事件生成模型该模型考虑了各种内在参数例如与时间无关、不对称阈值和不应期以及非理想性例如像素到像素阈值变化以及一对互补的归一化重建损失可以有效地推广到任意速度曲线和内在参数值而无需先验知识。对真实和新颖的真实模拟序列的实验验证了我们的有效性。Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes Authors Fabien Delattre, David Dirnfeld, Phat Nguyen, Stephen Scarano, Michael J. Jones, Pedro Miraldo, Erik Learned Miller我们提出了一种通过手持单目视频估计拥挤的现实世界场景中相机旋转的方法。虽然相机旋转估计是一个经过充分研究的问题但之前没有任何方法在此设置下同时表现出高精度和可接受的速度。由于其他数据集无法很好地解决该设置因此我们在 17 个视频序列上提供了一个新的数据集和基准具有高精度、经过严格验证的基本事实。为宽基线立体开发的方法例如 5 点方法在单目视频上表现不佳。另一方面自动驾驶中使用的方法例如 SLAM利用特定的传感器设置、特定的运动模型或滞后于批处理的本地优化策略并且不能很好地推广到手持视频。最后对于动态场景常用的鲁棒性技术如 RANSAC需要大量迭代并且变得非常慢。我们在 SO 3 上引入了霍夫变换的新颖概括以有效且稳健地找到与光流最兼容的相机旋转。在相对较快的方法中我们的方法比次佳方法减少了近 50 倍的误差并且无论速度如何都比任何方法都更准确。这代表了拥挤场景的强大新性能点这是计算机视觉的重要设置。Replacing softmax with ReLU in Vision Transformers Authors Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith先前的研究观察到当用 ReLU 等逐点激活替换注意力 softmax 时准确性会下降。在视觉变换器的背景下我们发现当除以序列长度时这种退化得到了缓解。Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding Authors Xiaonan Lu, Jianlong Yuan, Ruigang Niu, Yuan Hu, Fan Wang最近预训练视觉语言基础模型 VLFM 的开发在许多任务中取得了显着的性能。然而这些模型往往具有较强的单图像理解能力但缺乏理解多图像的能力。因此它们不能直接应用于应对图像变化理解ICU这需要模型捕获多个图像之间的实际变化并用语言描述它们。在本文中我们发现现有的 VLFM 在直接应用于 ICU 时表现不佳原因如下 1 VLFM 通常学习单个图像的全局表示而 ICU 需要捕获多个图像之间的细微差别。 2 VLFM 的 ICU 性能受到视点变化的显着影响这是由于视点变化时对象之间的关系发生变化而引起的。为了解决这些问题我们提出了一种视点集成和注册方法。具体来说我们引入了一种融合适配器图像编码器它通过插入设计的可训练适配器和融合适配器来微调预训练编码器以有效捕获图像对之间的细微差别。此外还设计了视点注册流程和语义强调模块以分别减少视觉和语义空间中视点变化引起的性能下降。 The Impact of Different Backbone Architecture on Autonomous Vehicle Dataset Authors Ning Ding, Azim Eskandarian物体检测是自动驾驶的重要组成部分并且已经开发了许多检测应用程序来解决此任务。这些应用程序通常依赖于主干架构该架构从输入中提取表示特征以执行对象检测任务。主干架构提取的特征的质量会对整体检测性能产生重大影响。许多研究人员致力于开发新的和改进的主干架构以提高对象检测应用的效率和准确性。虽然这些骨干架构在 MS COCO 和 PASCAL VOC 等通用对象检测数据集上表现出了最先进的性能但之前尚未探索过在自动驾驶环境下评估它们的性能。Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model Authors Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro本文提出了一种强大的视觉语音识别 VSR 方法适用于多种语言特别是对于标记数据数量有限的低资源语言。与之前试图利用从其他语言学到的知识来提高目标语言的 VSR 性能的方法不同我们探索是否可以在没有人工干预的情况下增加不同语言的训练数据量本身。为此我们采用了 Whisper 模型它可以进行语言识别和基于音频的语音识别。它用于过滤所需语言的数据并从未注释的多语言视听数据池中转录标签。通过比较在自动标签和人工注释标签上训练的 VSR 模型的性能我们表明即使不使用人工注释我们也可以实现与人工注释标签相似的 VSR 性能。通过自动化标记流程我们标记了大型未标记多语言数据库 VoxCeleb2 和 AVSpeech为四种低 VSR 资源语言法语、意大利语、西班牙语和葡萄牙语生成了 1,002 小时的数据。借助自动标签我们在 mTEDx 上以四种语言实现了最先进的性能显着超越了以前的方法。Automated dermatoscopic pattern discovery by clustering neural network output for human-computer interaction Authors Lidia Talavera Martinez, Philipp Tschandl背景随着可用的医学图像数据集大小的增加临床医生手动审查内容以提取知识变得不可行。Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens Authors Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, Yong Man Ro在本文中我们提出了构建强大且高效的图像到语音字幕 Im2Sp 模型的方法。为此我们首先将大规模预训练视觉语言模型中与图像理解和语言建模相关的丰富知识导入到 Im2Sp 中。我们将所提出的 Im2Sp 的输出设置为离散语音单元即自监督语音模型的量化语音特征。语音单元主要包含语言信息同时抑制语音的其他特征。这使得我们能够将预训练的视觉语言模型的语言建模能力合并到 Im2Sp 的口语建模中。通过视觉语言预训练策略我们在两个广泛使用的基准数据库 COCO 和 Flickr8k 上设置了最先进的 Im2Sp 性能。然后我们进一步提高了 Im2Sp 模型的效率。与语音单元的情况类似我们将原始图像转换为图像单元这些图像单元是通过原始图像的矢量量化得出的。通过这些图像单元与原始图像数据相比我们可以将保存图像数据所需的数据存储量大幅减少至 0.8 位。Breathing New Life into 3D Assets with Generative Repainting Authors Tianfu Wang, Menelaos Kanakis, Konrad Schindler, Luc Van Gool, Anton Obukhov基于扩散的文本到图像模型引起了视觉社区、艺术家和内容创作者的极大关注。这些模型的广泛采用是由于生成质量的显着提高以及对各种模式而不仅仅是文本的有效调节。然而将这些 2D 模型的丰富生成先验提升到 3D 具有挑战性。最近的工作提出了由扩散模型和神经场的纠缠驱动的各种管道。我们探索预训练 2D 扩散模型和标准 3D 神经辐射场作为独立工具的强大功能并展示它们以非学习方式协同工作的能力。这种模块化具有易于部分升级的内在优势这成为如此快节奏的领域的一个重要属性。我们的管道接受任何传统的可渲染几何体例如纹理或无纹理网格协调 2D 生成细化和 3D 一致性强制工具之间的交互并以多种格式输出绘制的输入几何体。我们对 ShapeNetSem 数据集中的各种对象和类别进行了大规模研究并在定性和定量方面展示了我们的方法的优势。SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels Authors Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou预训练的视觉转换器对各种下游任务具有很强的代表性。最近人们提出了许多参数有效的微调PEFT方法他们的实验表明在低数据资源场景下仅调整1个额外参数就可以超越完全微调。然而这些方法在微调不同下游任务时忽略了任务特定信息。在本文中我们提出了一种简单而有效的方法称为显着通道调整 SCT通过将模型与任务图像一起转发来选择特征图中的部分通道从而利用任务特定信息这使我们能够仅调整 1-8 个通道从而显着提高更低的参数成本。通过仅添加 ViT B 的 0.11M 参数实验在 VTAB 1K 基准测试中的 19 个任务中的 18 个上优于完全微调这比完全微调对应的参数少了 780 倍。YCB-Ev: Event-vision dataset for 6DoF object pose estimation Authors Pavel Rojtberg, Thomas P llabauer3D Arterial Segmentation via Single 2D Projections and Depth Supervision in Contrast-Enhanced CT Images Authors Alina F. Dima, Veronika A. Zimmer, Martin J. Menten, Hongwei Bran Li, Markus Graf, Tristan Lemke, Philipp Raffler, Robert Graf, Jan S. Kirschke, Rickmer Braren, Daniel Rueckert3D 体积中血管的自动分割是许多血管疾病定量诊断和治疗的重要步骤。现有工作正在积极研究 3D 血管分割主要是深度学习方法。然而训练 3D 深度网络需要专家进行大量的手动 3D 注释而这些注释很难获得。 3D 血管分割尤其如此因为血管稀疏但分布在许多切片上并且在 2D 切片中可视化时会断开连接。在这项工作中我们提出了一种新颖的方法仅通过深度监督的每个训练图像的一个带注释的 2D 投影来分割 3D 胰周动脉。我们对 3D 对比增强 CT 图像上的胰周动脉分割进行了广泛的实验并展示了我们如何很好地从 2D 投影中捕获丰富的深度信息。我们证明通过为每个训练样本注释单个随机选择的投影我们获得了与注释多个 2D 投影相当的性能从而减少了注释工作。此外通过使用深度信息将 2D 标签映射到 3D 空间并将其纳入训练中我们几乎缩小了 3D 监督和 2D 监督之间的性能差距。PoseFix: Correcting 3D Human Poses with Natural Language Authors Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno Noguer, Gr gory Rogez自动生成改变姿势的指令可以为无限的应用打开大门例如个性化指导和家庭物理治疗。解决相反的问题即根据一些自然语言反馈改进 3D 姿势可以有助于辅助 3D 角色动画或机器人教学等。尽管最近的一些作品探索了自然语言和 3D 人体姿势之间的联系但没有一个专注于描述 3D 身体姿势差异。在本文中我们解决了使用自然语言纠正 3D 人体姿势的问题。为此我们引入了 PoseFix 数据集它由数千个配对的 3D 姿势及其相应的文本反馈组成描述了需要如何修改源姿势以获得目标姿势。我们展示了该数据集在两项任务上的潜力1. 基于文本的姿势编辑旨在根据给定的查询姿势和文本修改器生成校正的 3D 身体姿势2. 校正文本生成其中根据两个身体姿势之间的差异生成指令TreeLearn: A Comprehensive Deep Learning Method for Segmenting Individual Trees from Forest Point Clouds Authors Jonathan Henrich, Jan van Delden, Dominik Seidel, Thomas Kneib, Alexander Ecker激光扫描森林点云可以提取有价值的森林管理信息。为了考虑单棵树需要将森林点云分割成单独的树点云。现有的分割方法通常基于手工算法例如识别树干并从中生长树木并且在树冠重叠的茂密森林中面临困难。在这项研究中我们提出了 mbox TreeLearn这是一种基于深度学习的方法用于森林点云的语义和实例分割。与以前的方法不同TreeLearn 以数据驱动的方式在已经分割的点云上进行训练从而减少对预定义特征和算法的依赖。此外我们引入了一个新的手动分割基准森林数据集其中包含 156 棵完整树木和 79 棵部分树木这些树木已被手动清晰分割。这使得实例分割性能的评估不仅仅是评估单个树的检测。我们在 6665 棵树的森林点云上训练了 TreeLearn并使用 Lidar360 软件进行了标记。对基准数据集的评估表明TreeLearn 的性能与用于生成训练数据的算法相同或更好。此外通过对清晰标记的基准数据集进行微调可以极大地提高该方法的性能。 Toward responsible face datasets: modeling the distribution of a disentangled latent space for sampling face images from demographic groups Authors Parsa Rahimi, Christophe Ecabert, Sebastien Marcel最近有消息称一些现代面部识别系统可能会歧视特定的人口群体并可能导致对性别和出身等各种面部属性的不公平关注。主要原因是用于训练这些模型的数据集内部的偏差、人口统计数据的不平衡。X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction Authors Duc Cao Dinh, J Lim从单个 RGB 图像中分割平面区域是复杂场景感知中一项特别重要的任务。为了利用图像中的视觉和几何属性最近的方法通常通过特征融合机制和几何约束损失将问题表述为平面实例和密集深度的联合估计。尽管结果很有希望但这些方法没有考虑跨任务特征蒸馏并且在边界区域表现不佳。为了克服这些限制我们提出了 X PDNet一个用于平面实例分割和深度估计的多任务学习的框架并在以下两个方面进行了改进。首先我们构建了跨任务蒸馏设计促进双任务之间的早期信息共享以实现特定任务的改进。其次我们强调了当前使用地面真实边界来开发边界回归损失的局限性并提出了一种利用深度信息来支持精确边界区域分割的新方法。最后我们手动注释了斯坦福 2D 3D 语义数据集中的 3000 多张图像并可用于平面实例分割的评估。Deformable Neural Radiance Fields using RGB and Event Cameras Authors Qi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool仅根据视觉数据对快速移动的可变形物体进行神经辐射场建模是一个具有挑战性的问题。由于高变形和低采集率出现了一个主要问题。为了解决这个问题我们建议使用事件相机它能够以异步方式非常快速地获取视觉变化。在这项工作中我们开发了一种使用 RGB 和事件相机对可变形神经辐射场进行建模的新颖方法。所提出的方法使用异步事件流和校准的稀疏 RGB 帧。在我们的设置中相机在将它们集成到辐射场所需的各个事件中的姿势仍然未知。我们的方法联合优化这些姿势和辐射场。通过立即利用事件集合并在学习过程中主动采样事件可以有效地实现这一点。Double Domain Guided Real-Time Low-Light Image Enhancement for Ultra-High-Definition Transportation Surveillance Authors Jingxiang Qu, Ryan Wen Liu, Yuan Gao, Yu Guo, Fenghua Zhu, Fei yue Wang实时交通监控是智能交通系统ITS的重要组成部分。然而在弱光条件下捕获的图像往往会出现可视性较差的情况并出现各种退化例如噪声干扰和边缘特征模糊等。随着成像设备的发展视觉监控数据的质量不断提高如2K和4K对图像处理的效率有更严格的要求。为了满足增强质量和计算速度的要求本文提出了一种用于超高清UHD交通监控的双域引导实时微光图像增强网络DDNet。具体来说我们设计了一个编码器解码器结构作为学习网络的主要架构。特别是通过嵌入编码器解码器结构中的粗略增强模块 CEM 和基于 LoG 的梯度增强模块 GEM 将增强处理分为两个子任务即颜色增强和梯度增强。它使网络能够同时增强颜色和边缘特征。通过颜色域和梯度域的分解和重构我们的DDNet可以以更好的视觉质量和效率恢复黑暗中隐藏的详细特征信息。对标准和交通相关数据集的评估实验表明与最先进的方法相比我们的 DDNet 提供了卓越的增强质量和效率。PatFig: Generating Short and Long Captions for Patent Figures Authors Dana Aubakirova, Kim Gerdes, Lufei Liu本文介绍了 Qatent PatFig这是一个新颖的大规模专利数据集包含来自 11,000 多个欧洲专利申请的 30,000 个专利数据。对于每个图该数据集提供了短标题和长标题、参考数字、它们对应的术语以及描述图像组件之间相互作用的最小权利要求集。Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval Authors Kejun Lin, Zhixiang Wang, Zheng Wang, Yinqiang Zheng, Shin ichi Satoh人员再识别re ID需要密集分布的摄像头。在实践中感兴趣的人可能不会被摄像机捕捉到因此需要使用主观信息例如目击者的草图来检索。先前的研究将这种使用草图的情况定义为草图重新识别草图重新ID并侧重于消除域间隙。事实上主观性是另一个重大挑战。我们通过提供具有多证人描述的新数据集来对其进行建模和研究。它有两个方面的特点。 1 规模大。它包含超过 4,763 个草图和 32,668 张照片使其成为最大的 Sketch re ID 数据集。 2 多视角、多风格。我们的数据集为每个身份提供多个草图。目击者的主观认知提供了对同一个人的多种视角而不同艺术家的绘画风格提供了素描风格的差异。我们还有两种新颖的设计来减轻主观性的挑战。 1 融合主观性。我们提出了一个非本地 NL 融合模块该模块收集不同目击者对同一身份的草图。 2 引入客观性。 AttrAlign 模块利用属性作为隐式掩码来对齐跨域特征。为了推动Sketch re ID的进步我们设定了大规模、多风格、跨风格三个基准。大量的实验证明了我们在这些基准测试中的领先性能。An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single Camera Authors Zhupeng Ye, Yinqi Li, Zejian Yuan宽范围和细粒度的车辆检测对于在智能驾驶系统中实现主动安全功能起着至关重要的作用。然而现有的基于矩形边界框 BBox 的车辆检测方法常常难以感知大范围的物体尤其是长距离的小物体。而且BBox表达式无法提供车辆详细的几何形状和位姿信息。本文提出了一种基于单摄像头图像的新型宽范围伪 3D 车辆检测方法并结合了高效的学习方法。该模型以拼接图像作为输入该拼接图像是通过组合高分辨率图像中的两个子窗口图像而获得的。这种图像格式最大限度地利用有限的图像分辨率来保留有关各种车辆对象的基本信息。为了检测伪 3D 物体我们的模型采用了专门设计的检测头。这些头同时输出扩展的 BBox 和侧投影线 SPL 表示捕获车辆的形状和姿态从而实现高精度检测。为了进一步增强检测性能模型训练时设计了结合目标框和SPL的联合约束损失提高了模型的效率、稳定性和预测精度。我们自建数据集上的实验结果表明我们的模型在跨多个评估指标的大范围伪 3D 车辆检测中取得了良好的性能。Robust Burned Area Delineation through Multitask Learning Authors Edoardo Arnaudo, Luca Barco, Matteo Merlo, Claudio Rossi近年来野火由于其频率和严重程度不断增加而构成了重大挑战。因此准确划定过火区域对于环境监测和火灾后评估至关重要。然而由于资源有限以及分割任务固有的不平衡性依赖二元分割模型的传统方法通常很难获得稳健且准确的结果尤其是从头开始训练时。我们建议通过两种方式解决这些限制首先我们构建一个临时数据集来应对有限的资源将 Sentinel 2 源的信息与哥白尼激活和其他数据源相结合。在此数据集中我们为多个任务提供注释包括烧毁区域划分和土地覆盖分割。其次我们提出了一个多任务学习框架将土地覆盖分类作为辅助任务以增强烧毁区域分割模型的鲁棒性和性能。M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient Object Detection Authors Yao Yuan, Pan Gao, XiaoYang Tan现有的显着目标检测方法大多采用U Net或特征金字塔结构简单地聚合不同尺度的特征图忽略了它们的唯一性和相互依赖性以及它们各自对最终预测的贡献。为了克服这些问题我们提出了 M 3 Net即用于显着对象检测 SOD 的多级、混合和多级注意网络。首先我们提出多尺度交互块创新性地引入交叉注意方法来实现多级特征之间的交互允许高级特征指导低级特征学习从而增强显着区域。其次考虑到之前基于 Transformer 的 SOD 方法仅使用全局自注意力来定位显着区域而不可避免地忽略了复杂对象的细节我们提出了混合注意力块。该模块结合了全局自注意力和窗口自注意力旨在对全局和局部级别的上下文进行建模以进一步提高预测图的准确性。最后我们提出了一种多级监督策略来逐步优化聚合特征。对六个具有挑战性的数据集的实验表明所提出的 M 3 Net 在四个指标方面超越了最近的基于 CNN 和 Transformer 的 SOD 技术。Continual Learning with Deep Streaming Regularized Discriminant Analysis Authors Joe Khawand, Peter Hanappe, David Colliaux持续学习在现实世界的机器学习应用中越来越受追捧因为它使学习能够以更人性化的方式进行。传统的机器学习方法无法实现这一点因为使用非同分布的数据增量更新模型会导致灾难性遗忘现有表示被覆盖。尽管传统的持续学习方法主要集中于批量学习涉及从大量标记数据中顺序学习但这种方法不太适合我们希望直接集成新数据的现实世界应用。这需要向流式学习进行范式转变。在本文中我们提出了正则化判别分析的流式版本作为这一挑战的解决方案。T-UDA: Temporal Unsupervised Domain Adaptation in Sequential Point Clouds Authors Awet Haileslassie Gebrehiwot, David Hurych, Karel Zimmermann, Patrick P rez, Tom Svoboda深度感知模型必须可靠地应对由不同地理区域、传感器属性、安装位置和其他几个原因引起的域转移的开放世界环境。由于可能存在无穷无尽的变化用带注释的数据覆盖所有领域在技术上是棘手的因此研究人员专注于无监督的领域适应 UDA 方法该方法将在一个源域上训练的模型与可用于另一个目标域的可用注释相适应而对于另一个目标域来说只有未注释的数据可用。当前的主要方法要么利用半监督方法例如教师学生设置要么利用特权数据例如其他传感器模式或时间数据一致性。我们引入了一种新颖的领域适应方法该方法充分利用了这两种趋势的优点。我们的方法将输入数据的时间和跨传感器几何一致性与平均教师方法结合起来。这种组合被称为时间 UDA 的 T UDA为驾驶场景的 3D 语义分割任务带来了巨大的性能提升。在 Waymo 开放数据集 nuScenes 和 SemanticKITTI 上针对两种流行的 3D 点云架构 Cylinder3D 和 MinkowskiNet 进行了实验。Large Intestine 3D Shape Refinement Using Point Diffusion Models for Digital Phantom Generation Authors Kaouther Mouheb, Mobina Ghojogh Nejad, Lavsen Dahal, Ehsan Samei, W. Paul Segars, Joseph Y. Lo人体器官的精确 3D 建模在构建用于虚拟成像试验的计算模型方面发挥着至关重要的作用。然而对于人体的许多结构来说通过计算机断层扫描生成器官表面的解剖学上合理的重建仍然具有挑战性。在处理大肠时这一挑战尤其明显。在这项研究中我们利用几何深度学习和去噪扩散概率模型的最新进展来细化大肠的分割结果。我们首先将器官表示为从 3D 分割掩模表面采样的点云。随后我们采用分层变分自动编码器来获得器官形状的全局和局部潜在表示。我们在分层潜在空间中训练两个条件去噪扩散模型来执行形状细化。为了进一步增强我们的方法我们采用了最先进的表面重建模型使我们能够从获得的完整点云生成平滑的网格。实验结果证明了我们的方法在捕捉器官形状的全局分布及其细节方面的有效性。与初始分割相比我们完整的细化流程展示了表面表示的显着增强将倒角距离减少了 70 豪斯多夫距离减少了 32 地球移动器距离减少了 6 。Unsupervised Disentangling of Facial Representations with 3D-aware Latent Diffusion Models Authors Ruian He, Zhen Xing, Weimin Tan, Bo Yan面部表征的无监督学习在不严重依赖大规模注释数据集的情况下因其面部理解能力而受到越来越多的关注。然而由于面部身份、表情以及姿势和光线等外部因素的耦合该问题仍未得到解决。先前的方法主要关注 2D 因素和像素级一致性导致下游任务中的解缠不完整和性能次优。在本文中我们提出了 LatentFace一种用于面部表情和身份表示的新型无监督解缠框架。我们建议解开问题应在潜在空间中执行并提出使用 3D ware 潜在扩散模型的解决方案。首先我们引入 3D 感知自动编码器将人脸图像编码为 3D 潜在嵌入。其次我们提出了一种新颖的表示扩散模型 RDM将 3D 潜在特征分解为面部身份和表情。Edge Based Oriented Object Detection Authors Jianghu Shen, Xiaojun Wu在遥感领域我们经常利用定向包围盒OBB来约束物体。这种方法显着减少了密集检测框之间的重叠并最大限度地减少了边界框内背景内容的包含。为了提高定向对象的检测精度受模板匹配任务中使用的相似性测量函数的启发我们提出了一种基于边缘梯度的独特损失函数。在此过程中我们解决了函数的不可微性问题以及地面真值 GT 框和预测框 PB 中梯度向量之间的语义对齐问题。实验结果表明与基线算法中常用的 Smooth L1 损失相比我们提出的损失函数实现了 0.6 mAP 的改进。此外我们设计了一个基于边缘的自注意力模块以鼓励检测网络更多地关注对象边缘。Leveraging the Power of Data Augmentation for Transformer-based Tracking Authors Jie Zhao, Johan Edstedt, Michael Felsberg, Dong Wang, Huchuan Lu由于长距离相关性和强大的预训练模型基于 Transformer 的方法在视觉对象跟踪性能方面取得了突破。以前的工作重点是设计适合跟踪的有效架构但忽略了数据增强对于训练性能良好的模型同样重要。在本文中我们首先通过系统实验探讨一般数据增强对基于变压器的跟踪器的影响并揭示这些常见策略的有限有效性。在实验观察的推动下我们提出了两种为跟踪定制的​​数据增强方法。首先我们通过动态搜索半径机制和边界样本模拟来优化现有的随机裁剪。其次我们提出了一种令牌级特征混合增强策略该策略使模型能够应对背景干扰等挑战。BROW: Better featuRes fOr Whole slide image based on self-distillation Authors Yuanfeng Wu, Shaojie Li, Zhiqiang Du, Wentao Zhu整个幻灯片图像 WSI 处理正在成为各种疾病标准临床诊断的关键组成部分。然而由于WSI独特的超高分辨率特性传统图像处理算法直接应用于WSI面临一定的障碍。大多数 WSI 相关任务的性能依赖于提取 WSI 补丁特征表示的主干网的效率。因此我们提出了 BROW一种为 WSI 提取更好的特征表示的基础模型它可以方便地适应下游任务无需或稍加微调。该模型采用变压器架构使用自蒸馏框架进行预训练。为了提高模型的鲁棒性采用了补丁洗牌等技术。此外该模型利用 WSI 的独特属性利用 WSI 的多尺度金字塔纳入额外的全局视图从而进一步提高其性能。我们使用私人和公共数据组成了一个大型预训练数据集包含超过 11000 张幻灯片、超过 1.8 亿个提取的补丁涵盖与各种器官和组织相关的 WSI。为了评估我们模型的有效性我们运行了广泛的下游任务包括幻灯片级别子类型、补丁级别分类和核实例分割。结果证实了该模型的有效性、鲁棒性和良好的泛化能力。Cartoondiff: Training-free Cartoon Image Generation with Diffusion Transformer Models Authors Feihong He, Gang Li, Lingyu Si, Leilei Yan, Shimeng Hou, Hongwei Dong, Fanzhang Li图像卡通化引起了图像生成领域的极大兴趣。然而大多数现有的图像卡通化技术需要使用卡通风格的图像重新训练模型。在本文中我们提出了CartoonDiff这是一种新颖的免训练采样方法它使用扩散变换器模型生成图像卡通化。具体来说我们将扩散模型的逆过程分解为语义生成阶段和细节生成阶段。此外我们通过在特定的去噪步骤中对噪声图像的高频信号进行归一化来实现图像卡通化过程。 CartoonDiff 不需要任何额外的参考图像、复杂的模型设计或多个参数的繁琐调整。大量的实验结果显示了我们的CartoonDiff的强大能力。Optimization of Rank Losses for Image Retrieval Authors Elias Ramzi, Nicolas Audebert, Cl ment Rambour, Andr Araujo, Xavier Bitot, Nicolas Thome在图像检索中标准评估指标依赖于分数排序例如平均精度 AP 、k R k 召回率、归一化贴现累积增益 NDCG 。在这项工作中我们介绍了一个稳健且可分解的排名损失优化的通用框架。它解决了具有秩损失不可微性和不可分解性的深度神经网络端到端训练的两个主要挑战。首先我们提出了排序算子的通用替代方案 SupRank它适用于随机梯度下降。它提供了排名损失的上限并确保稳健的训练。其次我们使用简单而有效的损失函数来减少排名损失的平均批次近似与其在整个训练集上的值之间的可分解性差距。我们将我们的框架应用于图像检索 AP 和 R k 的两个标准指标。此外我们将我们的框架应用于分层图像检索。我们引入了 AP 的扩展即分层平均精度数学 H AP并对其以及 NDCG 进行了优化。最后我们创建第一个分层地标检索数据集。我们使用半自动管道来创建分层标签扩展大规模 Google Landmarks v2 数据集。A Real-time Faint Space Debris Detector With Learning-based LCM Authors Zherui Lu, Gangyi Wang, Xinguo Wei, Jian Li随着航天技术的发展空间碎片数量不断增加对航天器的安全构成了巨大威胁。然而反射光的低强度和空间碎片的高角速度阻碍了提取。此外由于地面观测手段的限制微小的空间碎片很难被探测到因此有必要增强航天器的空间态势感知SSA能力。考虑到传统方法在低信噪比目标检测中存在有效性低、耗时大等缺陷提出一种基于局部对比度和最大似然估计MLE的低信噪比条纹提取方法可检测信噪比为2.0的空间目标有效率的。在该算法中将应用局部对比进行粗分类将连通分量作为初步结果返回然后进行MLE通过定向增长来重建目标的连通分量进一步提高精度。该算法已经通过模拟条纹和真实星跟踪器图像进行了验证并且该算法的平均质心误差接近于ODCC等最先进的方法。同时本文算法与ODCC相比在效率上具有显着优势。Human-Inspired Topological Representations for Visual Object Recognition in Unseen Environments Authors Ekta U. Samani, Ashis G. Banerjee对于移动机器人来说在看不见和杂乱的室内环境中进行视觉目标识别是一个具有挑战性的问题。为了实现这一目标我们扩展了之前的工作提出了 TOPS2 描述符以及随附的识别框架 THOR2其灵感来自于称为对象统一的人类推理机制。我们将使用用于拓扑软聚类的 Mapper 算法获得的颜色嵌入与基于形状的 TOPS 描述符交织以获得 TOPS2 描述符。 THOR2 使用合成数据进行训练比基于形状的 THOR 框架实现了更高的识别精度并且在两个现实世界数据集基准 OCID 数据集和 UW IS Occlusion 数据集上优于 RGB D ViT。Salient Object Detection in Optical Remote Sensing Images Driven by Transformer Authors Gongyang Li, Zhen Bai, Zhi Liu, Xinpeng Zhang, Haibin Ling现有的光学遥感图像ORSI SOD中显着目标检测的方法主要采用卷积神经网络CNN作为主干例如VGG和ResNet。由于 CNN 只能提取某些感受野内的特征因此大多数 ORSI SOD 方法通常遵循局部到上下文范式。在本文中我们遵循全局到局部范式为 ORSI SOD 提出了一种新颖的全局提取局部探索网络 GeleNet。具体来说GeleNet 首先采用 Transformer 主干来生成具有全局长程依赖性的四级特征嵌入。然后GeleNet 采用方向感知随机加权空间注意力模块 D SWSAM 及其简化版本 SWSAM 来增强局部交互并采用知识转移模块 KTM 来进一步增强跨级别上下文交互。 D SWSAM通过方向卷积全面感知最低层特征中的方向信息以适应ORSI中显着对象的各种方向并通过改进的注意力机制有效增强显着对象的细节。 SWSAM 放弃了 D SWSAM 的方向感知部分专注于定位最高级别特征中的显着对象。 KTM基于自注意力机制对两个不同尺度的中级特征的上下文相关知识进行建模并将知识转移到原始特征中以生成更具判别性的特征。最后使用显着性预测器根据上述三个模块的输出生成显着性图。对三个公共数据集的广泛实验表明所提出的 GeleNet 优于相关的最先进方法。One-stage Modality Distillation for Incomplete Multimodal Learning Authors Shicai Wei, Yang Luo, Chunbo Luo基于多模态数据的学习最近引起了越来越多的兴趣。虽然可以收集各种感官模态用于训练但并非所有感官模态都始终在开发场景中可用这给推断不完整模态带来了挑战。为了解决这个问题本文提出了一种单阶段模态蒸馏框架该框架通过多任务学习将特权知识转移和模态信息融合统一到单个优化过程中。与独立执行它们的传统模态蒸馏相比这有助于捕获可以直接协助最终模型推理的有价值的表示。具体来说我们提出了用于模态传输任务的联合适应网络来保留特权信息。这通过联合分布自适应解决了由输入差异引起的表示异质性。然后我们引入用于模态融合任务的交叉翻译网络来聚合恢复的和可用的模态特征。它利用参数共享策略来明确捕获跨模式线索。 ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection Authors Zhimeng Xin, Tianxu Wu, Shiming Chen, Yixiong Zou, Ling Shao, Xinge You很少的镜头对象检测 FSOD 从极少数带注释的样本中识别对象。最近大多数现有的 FSOD 方法都应用两阶段学习范式它将从丰富的基类中学到的知识转移到通过学习全局特征来辅助少数镜头检测器。然而现有的 FSOD 方法很少考虑对象从局部到全局的定位。受FSOD训练数据稀缺的限制新类的训练样本通常会捕获部分对象导致此类FSOD方法在测试过程中无法检测到完全不可见的对象。为了解决这个问题我们提出了一个可扩展共存注意力 ECEA 模块使模型能够根据局部部分推断全局对象。本质上所提出的模块不断学习具有丰富样本的基础阶段的可扩展能力并将其转移到新阶段这可以帮助少数镜头模型快速适应将局部区域扩展到共存区域。具体来说我们首先设计一种可扩展的注意力机制该机制从局部区域开始并将注意力扩展到与给定局部区域相似且相邻的共存区域。然后我们在不同的特征尺度上实现可扩展的注意力机制以逐步发现不同感受野中的完整对象。STDG: Semi-Teacher-Student Training Paradigram for Depth-guided One-stage Scene Graph Generation Authors Xukun Zhou, Zhenbo Song, Jun He, Hongyan Liu, Zhaoxin Fan场景图生成是自主机器人系统环境理解的关键推动者。然而大多数现有方法常常受到背景复杂性的复杂动态的阻碍这限制了它们完全解码环境固有拓扑信息的能力。此外深度线索中封装的大量上下文信息通常未被开发导致现有方法效率较低。为了解决这些缺点我们提出了 STDG一种前卫的深度引导单阶段场景图生成方法。 STDG 的创新架构是三个定制模块深度引导 HHA 表示生成模块、深度引导半教学网络学习模块和深度引导场景图生成模块。这三个模块协同利用深度信息涵盖从深度信号生成和深度特征利用到最终场景图预测的各个方面。重要的是这是在推理阶段没有施加额外计算负担的情况下实现的。Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval Authors Rui Deng, Qian Wu, Yuke Li, Haoran Fu随着各领域对视频分析需求的不断增长优化视频推理效率变得越来越重要。一些现有方法通过显式丢弃空间或时间信息来实现高效率这在快速变化和细粒度的场景中提出了挑战。为了解决这些问题我们提出了一种具有可微分分辨率压缩和对齐机制的高效视频表示网络该网络在网络的早期阶段压缩非必要信息以降低计算成本同时保持一致的时间相关性。具体来说我们利用可微上下文感知压缩模块对显着性和非显着性帧特征进行编码将这些特征细化和更新为高低分辨率视频序列。为了处理新序列我们引入了一个新的分辨率对齐变换器层来捕获不同分辨率的帧特征之间的全局时间相关性同时通过在低分辨率非显着性帧中利用更少的空间标记来二次降低空间计算成本。整个网络可以通过集成可微压缩模块进行端到端优化。实验结果表明与最先进的方法相比我们的方法在近重复视频检索的效率和性能以及动态视频分类的竞争结果之间实现了最佳权衡。A Ground Segmentation Method Based on Point Cloud Map for Unstructured Roads Authors Zixuan Li, Haiying Lin, Zhangyu Wang, Huazhi Li, Miao Yu, Jie Wang地面分割作为无人智能感知的基础任务为目标检测任务提供了重要支撑。以露天矿为代表的非结构化道路场景边界线不规则路面凹凸不平导致现有地面分割方法存在分割误差。针对这一问题提出一种基于点云图的地面分割方法该方法包括兴趣区域提取、点云配准和背景减除三部分。首先建立边界语义关联以获得非结构化道路中的兴趣区域。其次通过语义信息建立点云地图与感兴趣区域实时点云之间的位置关联。再次根据位置关联建立基于高斯分布的背景模型并通过背景减法方法对实时点云中的地面进行分割。实验结果表明地面点分割正确率为99.95运行时间为26ms。与最先进的地面分割算法 Patchwork 相比地面点分割的平均精度提高了 7.43运行时间提高了 17ms。AdSEE: Investigating the Impact of Image Style Editing on Advertisement Attractiveness Authors Liyao Jiang, Chenglin Li, Haolan Chen, Xiaodong Gao, Xinwang Zhong, Yang Qiu, Shani Ye, Di Niu在线广告是电子商务网站、社交媒体平台和搜索引擎的重要元素。随着移动浏览的日益普及许多在线广告除了文字描述之外还以封面图像的形式显示视觉信息以吸引用户的注意力。最近的各种研究都集中在预测了解视觉特征的在线广告的点击率或组成最佳广告元素以提高可见性。在本文中我们提出了广告风格编辑和吸引力增强AdSEE探索对广告图像的语义编辑是否会影响或改变在线广告的受欢迎程度。我们将基于 StyleGAN 的面部语义编辑和反演引入到广告图像中并训练点击率预测器将基于 GAN 的面部潜在表示以及传统的视觉和文本特征归因于点击率。通过一个名为 QQ AD 的大型数据集包含 20,527 个在线广告我们进行了广泛的离线测试以研究不同的语义方向及其编辑系数如何影响点击率。我们进一步设计了一个遗传广告编辑器可以在给定输入广告封面图像的情况下有效搜索最佳编辑方向和强度以提高其预计点击率。为期 5 天的在线 A B 测试验证了 AdSEE 编辑后的样本与原始广告对照组相比点击率有所提高验证了图像风格与广告流行度之间的关系。Uncertainty-Aware Multi-View Visual Semantic Embedding Authors Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Xingguang Wang, Huayi Wu图像文本检索的关键挑战是有效利用语义信息来测量视觉和语言数据之间的相似性。然而使用实例级二进制标签其中每个图像与单个文本配对无法捕获不同语义单元之间的多个对应关系导致多模态语义理解的不确定性。尽管最近的研究通过更复杂的模型结构或预训练技术捕获了细粒度的信息但很少有研究直接对对应的不确定性进行建模以充分利用二进制标签。为了解决这个问题我们提出了一种不确定性感知多视图视觉语义嵌入 UAMVSE 框架该框架将整体图像文本匹配分解为多个视图文本匹配。我们的框架引入了不确定性感知损失函数 UALoss通过自适应地建模每个视图文本对应中的不确定性来计算每个视图文本损失的权重。不同的权重引导模型关注不同的语义信息增强模型理解图像和文本对应关系的能力。我们还通过标准化相似度矩阵来设计优化的图像文本匹配策略以提高模型性能。 DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions Authors Minsik Jeon, Junwon Seo, Jihong Min尽管近年来基于深度学习的目标检测方法取得了成功但要使目标检测器在雨雪等恶劣天气条件下可靠仍然具有挑战性。为了实现物体检测器的鲁棒性能无监督域适应已被用来使在清晰天气图像上训练的检测网络适应恶劣天气图像。虽然以前的方法没有明确解决适应过程中的天气损坏问题但晴天和恶劣天气之间的域差距可以分解为两个具有不同特征的因素风格差距和天气差距。在本文中我们提出了一种用于对象检测的无监督域适应框架通过分别解决这两个差距可以更有效地适应具有恶劣天气条件的现实世界环境。我们的方法通过使用注意模块集中于高级特征的风格相关信息来解决风格差距。使用自我监督对比学习我们的框架可以减少天气差距并获得对天气损坏具有鲁棒性的实例特征。Multi-Scale Estimation for Omni-Directional Saliency Maps Using Learnable Equator Bias Authors Takao Yamanaka, Tatsuya Suzuki, Taiki Nobutsune, Chenjunlin Wu全向图像已被广泛应用。对于应用来说使用头戴式显示器估计表示注视点概率分布的显着图以检测全向图像中的重要区域将很有用。本文通过从不同方向和视角的全向图像中提取重叠的二维二维平面图像提出了一种新颖的全向图像显着图估计模型。虽然2D显着图往往在图像中心偏差的中心具有高概率但当头戴式显示器使用赤道偏差时高概率区域出现在全向显着图的水平方向上。因此通过将中心偏置层替换为以仰角为条件的赤道偏置层以提取 2D 平面图像对具有中心偏置层的 2D 显着性模型进行了全向数据集的微调。显着性数据集中全向图像的有限可用性可以通过使用完善的 2D 显着性模型来补偿该模型由大量具有 2D 显着性图的基本事实的训练图像进行预训练。此外本文提出了一种多尺度估计方法通过提取多个视角的2D图像来检测具有可变感受野的各种尺寸的物体。通过使用在集成层中计算的像素级注意权重来集成从多个视角估计的显着性图以对每个对象的最佳尺度进行加权。使用具有全向显着图评估指标的公开数据集对所提出的方法进行了评估。Lets Roll: Synthetic Dataset Analysis for Pedestrian Detection Across Different Shutter Types Authors Yue Hu, Gourav Datta, Kira Beerel, Peter Beerel计算机视觉 CV 管道通常在图像信号处理 ISP 管道处理的数据集上进行评估尽管对于资源受限的应用一个重要的研究目标是避免尽可能多的 ISP 步骤。特别是大多数 CV 数据集由全局快门 GS 图像组成尽管当今大多数相机使用卷帘快门 RS 。本文研究了不同快门机制对我们使用虚幻引擎 5 UE5 的高级模拟功能生成的合成数据集上的机器学习 ML 对象检测模型的影响。特别是我们使用合成生成的配对 GS 和 RS 数据集来训练和评估主流检测模型以确定这两种快门模式之间的检测精度是否存在显着差异特别是在捕获低速物体例如行人时。该仿真框架的结果表明对于 IOU 0.5 的粗粒度检测平均精度 mAP 而言它们之间的性能非常一致但对于 IOU 0.5 0.95 的细粒度检测精度 mAP 测量它们之间的性能存在显着差异。AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with Pretrained ViT Authors Fangbo Qin, Taogang Hou, Shan Lin, Kaiyuan Wang, Michael C. Yip, Shan Yu针对灵活的以对象为中心的视觉感知我们提出了一种一次性实例感知对象关键点 OKP 提取方法 AnyOKP该方法利用预训练视觉转换器 ViT 强大的表示能力并且可以在从支持学习后获得任意类别的多个对象实例上的关键点图像。直接部署现成的经过训练的 ViT 来进行可泛化和可转移的特征提取然后进行免训练的特征增强。基于外观相似性在支持图像和查询图像中搜索最佳原型对BPP以产生实例不知道的候选关键点。然后根据图边上的特征分布将以所有候选关键点为顶点的整个图划分为子图。最后每个子图代表一个对象实例。 MetaF2N: Blind Image Super-Resolution by Learning Efficient Model Adaptation from Faces Authors Zhicun Yin, Ming Liu, Xiaoming Li, Hui Yang, Longan Xiao, Wangmeng Zuo由于其高度结构化的特性人脸比自然场景更容易恢复盲图像超分辨率。因此我们可以从低质量和恢复的人脸对中提取图像的退化表示。使用退化表示可以合成真实的低质量图像以微调现实世界低质量图像的超分辨率模型。然而这样的过程既费时又费力而且恢复的人脸与真实情况之间的差距进一步增加了优化的不确定性。为了促进模型对图像特定退化的有效适应我们提出了一种称为 MetaF2N 的方法该方法利用包含的 Faces 来微调模型参数以适应元学习框架中的整个自然图像。因此我们的 MetaF2N 避免了退化提取和低质量图像合成步骤并且只需要一个微调步骤即可获得不错的性能。考虑到恢复的人脸和真实情况之间的差距我们进一步部署 MaskNet 来自适应预测不同位置的损失权重以减少低置信区域的影响。为了评估我们提出的 MetaF2N我们收集了一个真实世界的低质量数据集每张图像中包含一张或多张面孔并且我们的 MetaF2N 在合成数据集和真实世界数据集上都实现了卓越的性能。Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions Authors Tianxu Wu, Shuo Ye, Shuhuang Chen, Qinmu Peng, Xinge You细粒度视觉分类的挑战在于如何探索不同子类之间的细微差异并实现准确区分。先前的研究依靠大规模注释数据和预训练的深度模型来实现目标。然而当只有有限数量的样本可用时类似的方法可能会变得不太有效。扩散模型由于其数据生成的突出多样性而在数据增强中被广泛采用。然而细粒度图像所需的高细节水平使得直接采用现有方法具有挑战性。为了解决这个问题我们提出了一种称为细节强化扩散模型 DRDM 的新方法它利用大型模型的丰富知识进行细粒度数据增强并包含两个关键组件包括判别语义重组 DSR 和空间知识参考 SKR 。具体来说DSR旨在从标签中提取隐式相似关系并重建标签和实例之间的语义映射从而能够更好地区分不同子类之间的细微差异。此外我们引入了 SKR 模块它将不同数据集的分布作为特征空间中的参考。这使得 SKR 能够在少量 FGVC 任务中聚合子类特征的高维分布从而扩展决策边界。通过这两个关键组件我们有效地利用大型模型的知识来解决数据稀缺问题从而提高细粒度视觉识别任务的性能。hear-your-action: human action recognition by ultrasound active sensing Authors Risako Tanigawa, Yasunori Ishii动作识别是许多工业应用的关键技术。使用图像等视觉信息的方法非常流行。然而由于包含了私人信息例如可见的面孔和场景背景隐私问题阻碍了广泛使用而这些信息对于识别用户操作来说并不是必需的。在本文中我们提出了一种通过超声主动传感来保护隐私的动作识别。由于以非侵入方式进行超声主动传感的动作识别还没有得到很好的研究我们创建了一个新的动作识别数据集并对分类特征进行比较。我们通过关注超声波反射波振幅的时间变化来计算特征值并使用支持向量机和 VGG 对八个基本动作类别进行分类。我们确认当对同一个人和同一环境进行训练和评估时我们的方法达到了 97.9 的准确率。此外即使对不同的人进行训练和评估我们的方法也能达到 89.5 的准确率。Morphologically-Aware Consensus Computation via Heuristics-based IterATive Optimization (MACCHIatO) Authors Dimitri Hamzaoui, Sarah Montagne, Rapha le Renard Penna, Nicholas Ayache, Herv Delingette从多个二进制或概率掩码中提取共识分割对于解决各种任务例如评估者间变异性分析或多个神经网络输出的融合非常重要。获得这种共识分割的最广泛使用的方法之一是 STAPLE 算法。在本文中我们首先证明该算法的输出很大程度上受到图像背景大小和先验选择的影响。然后我们提出了一种新方法来构建基于仔细选择距离的 Fr chet 方法的二元或概率一致性分割这使得它完全独立于图像背景大小。我们提供了一种启发式方法来优化此标准以便体素的类别完全由其与不同掩模的体素距离、其所属的连接组件以及对其进行分段的评估者组来确定。我们在多个数据集上将我们的方法与 STAPLE 方法和朴素分割平均方法进行了广泛比较表明它导致多数投票和 STAPLE 之间的中间大小的二进制一致性掩码以及与掩码平均和 STAPLE 方法不同的后验概率。Padding Aware Neurons Authors Dario Garcia Gasulla, Victor Gimenez Abalos, Pablo Martin Torres卷积层是大多数图像相关模型的基本组成部分。这些层通常默认实现静态填充策略例如零填充以控制内部表示的规模并允许以边界区域为中心的内核激活。在这项工作中我们确定了 Padding Aware Neurons PAN这是一种过滤器在大多数如果不是全部使用静态填充训练的卷积模型中都能找到。 PAN 专注于输入边界位置的表征和识别在模型中引入空间归纳偏差例如模式通常距离输入边界有多近。我们提出了一种通过激活来识别 PAN 的方法并探索它们在几种流行的预训练模型中的存在在所有探索的模型从数十个到数百个上找到 PAN。我们讨论并说明不同类型的 PAN、它们的内核和行为。为了了解它们的相关性我们测试了它们对模型性能的影响并找到填充和 PAN 以在数据中引入强烈的特征偏差。Towards Large-scale Building Attribute Mapping using Crowdsourced Images: Scene Text Recognition on Flickr and Problems to be Solved Authors Yao Sun, Anna Kruspe, Liqiu Meng, Yifan Tian, Eike J Hoffmann, Stefan Auer, Xiao Xiang Zhu众包平台提供大量街景图像其中包含有价值的建筑信息。这项工作解决了在众包街景图像中应用场景文本识别 STR 来构建属性映射的挑战。我们使用 Flickr 图像特别是检查建筑物外墙上的文本。创建 Berlin Flickr 数据集并使用预训练的 STR 模型进行文本检测和识别。对 STR 识别图像的子集进行手动检查显示出较高的准确性。我们检查了 STR 结果与建筑功能之间的相关性并分析了在住宅建筑上但在商业建筑上无法识别文本的实例。进一步的调查揭示了与此任务相关的重大挑战包括街景图像中的小文本区域、缺乏地面实况标签以及 Flickr 图像中的建筑物和 OpenStreetMap OSM 中的建筑物足迹不匹配。为了开发城市热点位置以外的城市范围的地图我们建议区分 STR 证明有效的场景同时开发适当的算法或引入额外的数据来处理其他情况。此外应进行跨学科合作以了解建筑摄影和标签背后的动机。 BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture Authors Syed Sha Qutub, Neslihan Kose, Rafael Rosales, Michael Paulitsch, Korbinian Hagn, Florian Geissler, Yang Peng, Gereon Hinz, Alois Knoll本文介绍了 Budding Ensemble Architecture BEA这是一种用于基于锚的对象检测模型的新型简化集成架构。物体检测模型在基于视觉的任务中至关重要特别是在自主系统中。他们应该提供精确的边界框检测同时校准其预测的置信度分数从而获得更高质量的不确定性估计。然而当前的模型可能会由于误报获得高分而做出错误的决策或者由于真阳性因低分而被丢弃。 BEA 旨在解决这些问题。 BEA 中提出的损失函数改进了置信度得分校准并降低了不确定性误差从而更好地区分真阳性和假阳性并最终提高对象检测模型的准确性。 Base YOLOv3 和 SSD 模型都使用 BEA 方法及其提出的损失函数进行了增强。在 KITTI 数据集上训练的 Base YOLOv3 上的 BEA 导致 mAP 和 AP50 分别增加 6 和 3.7。利用平衡良好的不确定性估计阈值来实时丢弃样本甚至会导致 AP50 比其基本模型高 9.6。这归因于用于衡量置信度分数校准质量的基于 AP50 的保留曲线下面积增加了 40。Interpretability-Aware Vision Transformer Authors Yao Qiang, Chengyin Li, Prashant Khanduri, Dongxiao ZhuVision Transformers ViT 已成为解决各种视觉任务的重要模型。然而ViT 的可解释性并没有跟上其令人鼓舞的表现。虽然人们对开发事后解决方案来解释 ViT 输出的兴趣激增但这些方法并不能推广到不同的下游任务和各种变压器架构。此外如果 ViT 没有使用给定数据进行适当的训练并且没有优先考虑感兴趣的区域则事后方法的效果将会较差。我们没有开发另一种事后方法而是引入了一种新颖的训练程序该程序本质上增强了模型的可解释性。我们的可解释性意识 ViT IA ViT 从新的见解中汲取灵感类补丁和图像补丁始终生成预测分布和注意力图。 IA ViT 由特征提取器、预测器和解释器组成它们与可解释性感知训练目标联合训练。因此解释器模拟预测器的行为并通过其单头自注意力机制提供忠实的解释。我们全面的实验结果证明了 IA ViT 在多个图像分类任务中的有效性并对模型性能和可解释性进行了定性和定量评估。Depth Estimation from a Single Optical Encoded Image using a Learned Colored-Coded Aperture Authors Jhon Lopez, Edwin Vargas, Henry Arguello从传统相机的单个图像进行深度估计是一项具有挑战性的任务因为在采集过程中深度线索会丢失。最先进的方法通过在镜头孔径中引入二进制编码孔径CA来提高不同深度之间的辨别力该二进制编码孔径CA在不同深度处生成不同的编码模糊图案。颜色编码孔径 CCA 还会在捕获的图像中产生颜色失准可用于估计视差。利用深度学习的进步最近的工作探索了衍射光学元件 DOE 的数据驱动设计用于通过色差编码深度信息。然而与二元 CA 或 CCA 相比DOE 的制造成本更高并且需要高精度设备。与之前使用很少基本颜色的基于 CCA 的方法不同在这项工作中我们提出了一种具有更多数量的滤色器和更丰富的光谱信息的 CCA以在单个快照中对相关深度信息进行光学编码。此外我们建议联合学习颜色编码孔径 CCA 模式和卷积神经网络 CNN以通过使用端到端优化方法来检索深度信息。我们通过对三个不同数据集的不同实验证明设计的颜色编码有可能消除深度模糊性并与最先进的方法相比提供更好的深度估计。Empowering Visually Impaired Individuals: A Novel Use of Apple Live Photos and Android Motion Photos Authors Seyedalireza Khoshsirat, Chandra Kambhamettu已经开发了许多应用程序来帮助视障人士使用机器学习单元来处理视觉输入。然而这些应用程序面临的一个关键挑战是用户捕获的图像质量不理想。考虑到视障人士操作相机的复杂性我们提倡使用 Apple Live Photos 和 Android Motion Photos 技术。在这项研究中我们引入了一种简单的方法来评估和对比实时动态照片与传统基于图像的方法的功效。我们的研究结果表明在常见的视觉辅助任务中特别是在对象分类和视频质量检查中实时照片和动态照片都优于单帧图像。我们通过对 ORBIT 数据集进行大量实验来验证我们的结果该数据集由视障人士收集的视频组成。Vision-based Analysis of Driver Activity and Driving Performance Under the Influence of Alcohol Authors Ross Greer, Akshay Gopalkrishnan, Sumega Mandadi, Pujitha Gunaratne, Mohan M. Trivedi, Thomas D. Marcotte在美国约 30 起交通事故死亡事故涉及醉酒驾驶因此在美国和其他酒后驾驶盛行的地区预防醉酒驾驶对于车辆安全至关重要。当驾驶员被要求向车辆仪器提供呼吸样本或被警察拦下时可以通过主动使用传感器来监测驾驶障碍但更被动和更强大的传感机制可能会更广泛地采用和受益。减少醉酒驾驶事故的智能系统。这可以帮助在驾驶前、或者在碰撞或被执法部门发现之前的驾驶过程早期识别出受损的驾驶员。在这项研究中我们介绍了一项研究该研究采用视觉、热、音频和化学传感器的多模态集合来 1 在驾驶模拟器中检查急性饮酒对驾驶表现的影响2 确定用于检测驾驶的数据驱动方法在酒精的影响下。我们描述了用于分析热图像中驾驶员面部的计算机视觉和机器学习模型并引入了一个管道用于根据从具有一系列呼吸酒精含量水平的驾驶员收集的数据来训练模型包括对相关机器学习现象的讨论这可以帮助Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation Authors Zhaochong An, Guolei Sun, Zongwei Wu, Hao Tang, Luc Van Gool现代方法已经证明了将语义分割作为广泛应用于实例级分割的掩模分类任务的巨大潜力。该范例通过传统的一对一匹配将部分对象查询分配给基本事实来训练模型。然而我们观察到流行的视频语义分割 VSS 数据集每个视频的类别有限这意味着在 VSS 训练期间可以匹配不到 10 个查询来接收有意义的梯度更新。这种低效率限制了所有查询的全部表达潜力。因此我们提出了一种新颖的解决方案 THE Mask for VSS它首次引入了时间感知分层对象查询。具体来说我们建议使用简单的两轮匹配机制以在训练期间以最小成本参与更多查询匹配同时在推理期间无需任何额外成本。为了支持我们的多对一任务在匹配结果方面我们进一步设计了一种分层损失来训练查询及其相应的主要或次要层次结构。此外为了有效地捕获跨帧的时间信息我们提出了一种时间聚合解码器它可以无缝地融入 VSS 的掩模分类范例。Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset Authors Iya Chivileva, Philip Lynch, Tomas E. Ward, Alan F. Smeaton如果要生成可信的输出让观看者相信其真实性评估从文本到视频 T2V 模型生成的视频的质量非常重要。我们研究了该领域使用的一些指标并强调了它们的局限性。该论文提供了一个由 5 个最新 T2V 模型生成的 1,000 多个视频的数据集其中应用了一些常用的质量指标。我们还对这些视频进行了广泛的人类质量评估从而可以比较指标包括人类评估的相对优势和劣势。该贡献是对常用质量指标的评估以及它们的性能与人类在 T2V 视频开放数据集上的评估性能的比较。Kinship Verification from rPPG using 1DCNN Attention networks Authors Xiaoting Wu, Xiaoyi Feng, Lili Liu, Constantino lvarez Casado, Miguel Bordallo L pez人脸亲属关系验证旨在自动判断两个主体是否存在亲属关系。它已从不同的形态被广泛研究如面孔、声音、步态和微笑表情。然而生物信号的潜力例如从面部视频中提取的远程光电体积描记法 rPPG在亲属关系验证问题中仍然很大程度上未被开发。在本文中我们首次研究了 rPPG 信号在亲属关系验证中的使用。具体来说我们提出了一种带有 1DCNN 注意力模块和对比损失的一维卷积神经网络 1DCNN以从 rPPG 中学习亲属关系相似度。该网络将从各种面部感兴趣区域 ROI 中提取的多个 rPPG 信号作为输入。此外1DCNN 注意力模块旨在从特征嵌入中学习和捕获有区别的亲属特征。Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models Authors James Burgess, Kuan Chieh Wang, Serena Yeung文本到图像扩散模型理解对象之间的空间关系但它们是否仅从 2D 监督中代表世界的真实 3D 结构我们证明是的3D 知识被编码在 2D 图像扩散模型如稳定扩散中并且我们表明这种结构可用于 3D 视觉任务。我们的方法 Viewpoint Neural Textual Inversion ViewNeTI 控制从冻结扩散模型生成的图像中对象的 3D 视点。Text-to-Image Models for Counterfactual Explanations: a Black-Box Approach Authors Guillaume Jeanneret, Lo c Simon, Fr d ric Jurie本文解决了生成反事实解释 CE 的挑战涉及识别和修改最少的必要特征以改变分类器对给定图像的预测。我们提出的方法用于反事实解释的文本到图像模型 TIME 是一种基于蒸馏的黑盒反事实技术。与以前的方法不同这种方法仅需要图像及其预测而无需分类器的结构、参数或梯度。在生成反事实之前TIME 以文本嵌入的形式将两种不同的偏差引入稳定扩散与图像结构相关的上下文偏差和与目标分类器学习的类特定特征相关的类偏差。了解这些偏差后我们找到应用分类器预测的类别标记的最佳潜在代码并使用目标嵌入作为条件重新生成图像从而产生反事实解释。Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer Authors Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu, Xi Li从未同时看到一个物体并听到它的声音模型是否仍然可以根据输入音频准确地定位其视觉位置。在这项工作中我们专注于视听定位和分割任务但在零镜头和少镜头场景下。为了实现这一目标与大多数采用编码器融合解码器范式从融合的视听特征中解码定位信息的现有方法不同我们引入了编码器提示解码器范式旨在更好地适应数据稀缺和变化的数据分布困境。来自预先训练的模型的丰富知识的帮助。具体来说我们首先提出构建语义感知音频提示 SAP以帮助视觉基础模型专注于发声对象同时也鼓励缩小视觉和音频模态之间的语义差距。然后我们开发了一个 Correlation Adapter ColA以最小化训练工作量并保持对视觉基础模型的足够了解。通过配备这些手段大量的实验表明这种新范式在看不见的类和跨数据集设置中都优于其他基于融合的方法。Generalised Probabilistic Diffusion Scale-Spaces Authors Pascal Peter概率扩散模型擅长从学习的分布中采样新图像。最初受到物理学中的漂移扩散概念的启发他们在前向过程中应用噪声和模糊等图像扰动从而产生易于处理的概率分布。相应的学习逆过程会生成图像并可以以辅助信息为条件从而产生广泛的实际应用。目前大部分研究重点都集中在面向实践的扩展上。相比之下理论背景在很大程度上仍未被探索特别是与漂移扩散的关系。为了阐明这些与经典图像滤波的联系我们提出了概率扩散模型的广义尺度空间理论。OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection Authors Yupeng Jia, Jie He, Runze Chen, Fang Zhao, Haiyong Luo基于视觉的 3D 语义占用感知也称为 3D 语义场景完成是自动驾驶等机器人应用的新感知范例。与鸟瞰BEV感知相比它扩展了垂直维度显着增强了机器人了解周围环境的能力。然而正是由于这个原因当前3D语义占用感知方法的计算需求普遍超过了BEV感知方法和2D感知方法。我们提出了一种新颖的 3D 语义占用感知方法 OccupancyDETR它由类似 DETR 的对象检测模块和 3D 占用解码器模块组成。对象检测的集成在结构上简化了我们的方法而不是预测每个体素的语义它识别场景中的对象及其各自的 3D 占用网格。这加快了我们的方法减少了所需的资源并利用了对象检测算法使我们的方法在小对象上具有显着的性能。Segment Anything Model for Brain Tumor Segmentation Authors Peng Zhang, Yaping Wang神经胶质瘤是一种常见的脑肿瘤对个人构成重大健康风险。脑肿瘤的准确分割对于临床诊断和治疗至关重要。 Meta AI 发布的 Segment Anything Model SAM 是图像分割的基础模型具有出色的零样本泛化能力。因此将 SAM 应用于脑肿瘤分割任务是很有趣的。MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems Authors Khayrul Islam, Ratul Paul, Shen Wang, Yaling Liu无标记细胞分类有利于提供原始细胞以供进一步使用或检查但现有技术在特异性和速度方面经常存在不足。在本研究中我们通过开发一种新颖的机器学习框架——多重图像机器学习 MIML 来解决这些限制。该架构独特地将无标记细胞图像与生物力学属性数据相结合利用每个细胞固有的大量且经常未充分利用的形态信息。通过整合这两种类型的数据我们的模型利用传统机器学习模型中通常丢弃的形态信息提供了对细胞特性的更全面的理解。这种方法使细胞分类的准确度达到了 98.3比仅考虑单一数据类型的模型有了很大的改进。 MIML 已被证明可以有效地对白细胞和肿瘤细胞进行分类由于其固有的灵活性和迁移学习能力具有更广泛应用的潜力。它对于形态相似但生物力学特性不同的细胞特别有效。3D SA-UNet: 3D Spatial Attention UNet with 3D ASPP for White Matter Hyperintensities Segmentation Authors Changlu Guo白质高信号 WMH 是一种与痴呆和中风等多种疾病相关的影像学特征。利用计算机技术准确分割WMH对于早期疾病诊断至关重要。然而由于图像中对比度低、不连续性高的小病灶包含有限的上下文和空间信息这项任务仍然具有挑战性。为了应对这一挑战我们提出了一种名为 3D Spatial Attention U Net 3D SA UNet 的深度学习模型用于仅使用流体衰减反转恢复 FLAIR 扫描进行自动 WMH 分割。 3D SA UNet 引入了 3D 空间注意力模块可突出显示重要的病变特征例如 WMH同时抑制不重要的区域。此外为了捕获不同尺度的特征我们将Atrous Spatial Pyramid Pooling ASPP模块扩展到3D版本增强了网络的分割性能。我们在公开数据集上评估我们的方法并证明 3D 空间注意模块和 3D ASPP 在 WMH 分割中的有效性。Efficient Graphics Representation with Differentiable Indirection Authors Sayantan Datta, Carl Marshall, Zhao Dong, Zhengqin Li, Derek Nowrouzezahrai我们引入了可微间接一种新颖的学习原语它采用可微分多尺度查找表作为跨图形管道的传统计算和数据操作的有效替代品。我们展示了它在许多图形任务上的灵活性即几何和图像表示、纹理映射、着色和辐射场表示。Reconsidering evaluation practices in modular systems: On the propagation of errors in MRI prostate cancer detection Authors Erlend Sortland Rolfsnes, Philip Thangngat, Trygve Eftest l, Tobias Nordstr m, Fredrik J derling, Martin Eklund, Alvaro Fernandez Quilez磁共振成像已发展成为前列腺癌 PCa 检测的关键组成部分大大增加了放射科医生的工作量。人工智能 AI 系统可以通过对有临床意义的 csPCa 和无临床意义的 ncsPCa 中的病变进行分割和分类来支持放射学评估。通常用于 PCa 检测的人工智能系统涉及自动前列腺分割然后使用提取的前列腺进行病变检测。然而评估报告通常是在假设高度准确的分割和理想场景的情况下以检测的形式呈现忽略了模块之间的错误传播。为此我们评估了在检测阶段具有异构性能的两个不同分割网络 s1 和 s2 的效果并将其与理想设置 s1 89.90 2.23 vs 88.97 3.06 ncsPCa, P .001、89.30 4.07 和 88.12 2.71 csPCa, P .001.A Real-Time Active Speaker Detection System Integrating an Audio-Visual Signal with a Spatial Querying Mechanism Authors Ilya Gurvich, Ido Leichter, Dharmendar Reddy Palle, Yossi Asher, Alon Vinnikov, Igor Abramovski, Vishak Gopal, Ross Cutler, Eyal Krupka我们推出了一种独特的实时、因果、基于神经网络的主动说话人检测系统该系统针对低功耗边缘计算进行了优化。该系统驱动虚拟电影摄影模块并部署在商业设备上。该系统使用来自麦克风阵列和 360 度摄像头的数据。对于有 14 名参与者的会议我们的网络只需要每个参与者 127 MFLOP。与之前的工作不同我们检查了计算预算耗尽时网络的错误率发现它表现出优雅的退化即使在这种情况下系统也能运行得相当好。与传统的 DOA 估计方法不同我们的网络学习查询可用的声学数据考虑检测到的头部位置。Efficient Polyp Segmentation Via Integrity Learning Authors Ziqiang Chen, Kang Wang, Yun Liu结肠镜检查中准确勾勒息肉对于协助诊断、指导干预和治疗至关重要。然而当前的深度学习方法由于完整性缺陷而存在不足这通常表现为缺失病变部分。本文从宏观和微观两个层面介绍了息肉分割中的完整性概念旨在缓解完整性缺陷。具体来说该模型应在宏观层面区分整个息肉并在微观层面识别息肉内的所有组成部分。我们的完整性捕获 Polyp 分割 IC PolypSeg 网络利用轻量级主干和 3 个关键组件来改善完整性 1 像素级特征重新分布 PFR 模块在最终语义丰富的编码器特征中捕获跨通道的全局空间相关性。 2 跨阶段像素级特征重新分配 CPFR 模块动态融合高级语义和低级空间特征以捕获上下文信息。 3 粗到精校准模块结合PFR和CPFR模块实现精确的边界检测。对 5 个公共数据集的广泛实验表明所提出的 IC PolypSeg 在精度更高、计算效率显着提高和计算消耗更低方面优于 8 种最先进的方法。 IC PolypSeg EF0 使用的参数比 PraNet 少 300 倍同时实现 235 FPS 的实时处理速度。VERSE: Virtual-Gradient Aware Streaming Lifelong Learning with Anytime Inference Authors Soumya Banerjee, Vinay K. Verma, Avideep Mukherjee, Deepak Gupta, Vinay P. Namboodiri, Piyush Rai终身学习也称为持续学习是指持续训练人工智能代理同时防止其忘记之前获得的知识的问题。大多数现有方法主要关注静态环境中的终身学习缺乏在快速变化的动态环境中减轻遗忘的能力。流式终身学习是一种具有挑战性的终身学习环境其目标是在动态的非固定环境中持续学习而不忘记。我们引入了一种新颖的终身学习方法它是流式的需要单次传递数据可以以类增量方式学习并且可以随时进行即时评估推理。为了实现这些目标我们提出了用于持续表示学习的虚拟梯度以防止灾难性遗忘并利用基于指数移动平均的语义记忆来进一步提高性能。Hyperspectral Image Denoising via Self-Modulating Convolutional Neural Networks Authors Orhan Torun, Seniha Esen Yuksel, Erkut Erdem, Nevrez Imamoglu, Aykut Erdem与自然图像相比高光谱图像 HSI 由大量波段组成每个波段捕获特定波长的不同光谱信息甚至有些超出可见光谱。 HSI 的这些特性使其对于遥感应用非常有效。也就是说现有的高光谱成像设备会导致 HSI 严重退化。因此高光谱图像去噪最近引起了社会的广泛关注。虽然最近的深度 HSI 去噪方法提供了有效的解决方案但它们在现实生活中复杂噪声下的性能仍然不理想因为它们缺乏对新数据的适应性。为了克服这些限制在我们的工作中我们引入了一种自调制卷积神经网络我们称之为 SM CNN它利用相关的光谱和空间信息。该模型的核心是一个新颖的块我们将其称为光谱自调制残差块 SSMRB它允许网络基于相邻光谱数据以自适应方式转换特征从而增强网络处理复杂噪声的能力。特别是SSMRB 的引入将我们的​​去噪网络转变为动态网络该网络可以适应其预测特征同时根据每个输入 HSI 的空间光谱特征对其进行去噪。Cross-Modal Synthesis of Structural MRI and Functional Connectivity Networks via Conditional ViT-GANs Authors Yuda Bi, Anees Abrol, Jing Sui, Vince Calhoun结构磁共振成像 sMRI 和功能网络连接 FNC 之间的跨模式综合是医学成像中相对未经探索的领域特别是在精神分裂症方面。本研究采用条件 Vision Transformer 生成对抗网络 cViT GAN 根据 sMRI 输入生成 FNC 数据。在包含精神分裂症患者和健康对照受试者的综合数据集上进行训练后我们的 cViT GAN 模型有效地合成了每个受试者的 FNC 矩阵然后形成了组间差异 FNC 矩阵与实际 FNC 矩阵的皮尔逊相关性为 0.73 。此外我们的 FNC 可视化结果显示了特定皮层下大脑区域的显着相关性突出了模型捕获详细结构功能关联的能力。这种性能将我们的模型与基于条件 CNN 的 GAN 替代品例如 Pix2Pix区分开来。Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown Multi-Class Ensemble of CNNs Authors Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Shaikh Anowarul Fattah, Mohammad Saquib随着深度学习在音频语音处理中引入的巨大技术进步许多新颖的合成语音技术取得了令人难以置信的现实结果。由于这些方法会生成逼真的假人声因此可用于模仿、假新闻、传播、欺骗、媒体操纵等恶意行为。因此检测合成或自然语音的能力已成为迫切需要的。此外能够判断使用哪种算法来生成合成语音轨道对于追查罪魁祸首非常重要。在本文中提出了一种新颖的策略将合成语音轨道归因于用于合成它的生成器。所提出的检测器将音频转换为对数梅尔频谱图使用 CNN 提取特征并将其在五种已知和未知算法之间进行分类利用半监督和集成显着提高其鲁棒性和泛化性。所提出的检测器在两个评估数据集上进行了验证该数据集由总共 18,000 个弱扰动的 Eval 1 和 10,000 个强扰动的 Eval 2 合成语音组成。Increasing diversity of omni-directional images generated from single image using cGAN based on MLPMixer Authors Atsuya Nakata, Ryuto Miyazaki, Takao Yamanaka本文提出了一种从单个快照图片生成全方位图像的新方法。之前的方法依赖于基于卷积神经网络CNN的生成对抗网络。尽管该方法已成功生成全向图像但 CNN 对于此任务有两个缺点。首先由于卷积层仅处理局部区域因此很难将嵌入全向图像中心的输入快照图片的信息传播到图像的边缘。因此基于 CNN 的生成器创建的全向图像往往在生成的图像边缘具有较少的多样性从而创建相似的场景图像。其次由于 CNN 深层结构的性质基于 CNN 的模型需要图形处理单元中的大量视频内存因为浅层网络仅接收来自有限范围的感受野的信号。为了解决这些问题本文提出了基于MLPMixer的方法。 MLPMixer 被提议作为 Transformer 中自注意力的替代方案它捕获长范围依赖性和上下文信息。这使得能够在全向图像生成任务中有效地传播信息。Data-Driven Goal Recognition in Transhumeral Prostheses Using Process Mining Techniques Authors Zihang Su, Tianshi Yu, Nir Lipovetzky, Alireza Mohammadi, Denny Oetomo, Artem Polyvyanyy, Sebastian Sardina, Ying Tan, Nick van Beest经肱骨假体可以修复肩部以下缺失的解剖部位包括手。主动假肢利用真实的、连续的传感器数据来识别患者的目标姿势或目标并主动移动假肢。先前的研究已经检验了在不考虑时间步长的情况下以静止姿势收集的数据如何帮助区分目标。在本案例研究论文中我们重点关注使用来自表面肌电图电极和运动传感器的时间序列数据来顺序识别患者目标。我们的方法包括将数据转换为离散事件并训练现有的基于流程挖掘的目标识别系统。在虚拟现实环境中收集的 10 个受试者的数据结果证明了我们提出的目标识别方法的有效性该方法比最先进的机器学习技术实现了明显更好的精度和召回率并且在错误时信心不足这在近似时是有益的Fast and Accurate Deep Loop Closing and Relocalization for Reliable LiDAR SLAM Authors Chenghao Shi, Xieyuanli Chen, Junhao Xiao, Bin Dai, Huimin Lu闭环和重定位是通过解决姿态估计漂移和退化问题建立可靠且稳健的长期 SLAM 的关键技术。本文首先在统一框架内制定循环闭合和重定位。然后我们提出了一种新颖的多头网络 LCR Net 来有效地解决这两个任务。它利用新颖的特征提取和姿势感知注意机制来精确估计 LiDAR 扫描对之间的相似性和 6 DoF 姿势。最后我们将 LCR Net 集成到 SLAM 系统中并在户外驾驶环境中实现稳健且准确的在线 LiDAR SLAM。我们通过循环闭合和重定位派生的三种设置彻底评估我们的 LCR 网络包括候选检索、闭环点云配准和使用多个数据集的连续重定位。结果表明LCR Net 在所有三项任务中都表现出色超越了最先进的方法并表现出了卓越的泛化能力。值得注意的是我们的 LCR Net 在不使用耗时的鲁棒姿态估计器的情况下优于基线方法使其适合在线 SLAM 应用。据我们所知LCR Net 的集成产生了第一个具有深度闭环和重定位能力的 LiDAR SLAM。M3Dsynth: A dataset of medical 3D images with AI-generated local manipulations Authors Giada Zingarini, Davide Cozzolino, Riccardo Corvi, Giovanni Poggi, Luisa Verdoliva鉴于图像合成方法的快速发展检测受操纵的视觉内容的能力在许多应用领域变得越来越重要。特别值得关注的是修改医学图像内容、改变诊断结果的可能性。尽管具有相关性但这个问题受到研究界的关注有限。原因之一是缺乏用于开发和基准测试目的的大型且精选的数据集。在这里我们研究了这个问题并提出了 M3Dsynth这是一个操纵计算机断层扫描 CT 肺部图像的大型数据集。我们使用基于生成对抗网络 GAN 或扩散模型 DM 的三种不同方法通过在真实 CT 扫描中注入或去除肺癌结节来创建操纵图像总共 8,577 个操纵样本。实验表明这些图像很容易欺骗自动诊断工具。我们还测试了几种最先进的取证探测器并证明一旦对所提出的数据集进行训练它们就能够准确地检测和定位被操纵的合成内容包括当训练集和测试集不对齐时显示出良好的泛化能力。Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping Authors Adam Rashid, Satvik Sharma, Chung Min Kim, Justin Kerr, Lawrence Chen, Angjoo Kanazawa, Ken Goldberg通过特定部分抓取物体通常对于安全和执行下游任务至关重要。然而基于学习的抓取规划器缺乏这种行为除非他们接受特定对象部分数据的训练这使得扩展对象多样性成为一个重大挑战。相反我们提出了 LERF TOGO用于面向任务的对象抓取的语言嵌入式辐射场它使用视觉语言模型零镜头在给定自然语言查询的情况下输出对象上的抓取分布。为了实现这一目标我们首先重建场景的 LERF它将 CLIP 嵌入提炼成可通过文本查询的多尺度 3D 语言字段。然而LERF 没有对象性意识这意味着它的相关性输出通常会返回对象上不完整的激活这不足以用于后续部分查询。 LERF TOGO 通过通过 DINO 特征提取 3D 对象掩码然后有条件地查询该掩码上的 LERF以获得对象的语义分布并利用该语义分布对来自现成抓握规划器的抓握进行排名从而缓解了空间分组不足的问题。我们评估了 LERF TOGO 在 31 个不同物理对象上抓取面向任务的对象部分的能力发现它在 81 次尝试中选择了正确的部分并在 69 次中成功抓取。COMPASS: High-Efficiency Deep Image Compression with Arbitrary-scale Spatial Scalability Authors Jongmin Park, Jooyoung Lee, Munchurl Kim最近基于神经网络 NN 的图像压缩研究已被积极开展并且与传统方法相比显示出令人印象深刻的性能。然而大多数工作都集中在不可伸缩图像压缩单层编码上而空间可伸缩图像压缩虽然有很多应用但很少受到关注。在本文中我们提出了一种新颖的基于神经网络的空间可扩展图像压缩方法称为COMPASS它支持任意尺度的空间可扩展性。我们提出的 COMPASS 具有非常灵活的结​​构其中层数及其各自的比例因子可以在推理过程中任意确定。为了减少任意尺度因子的相邻层之间的空间冗余我们的 COMPASS 采用了一种基于隐式神经表示的层间任意尺度预测方法称为 LIFF。我们提出了一个组合的 RD 损失函数来有效地训练多个层。实验结果表明对于各种比例因子的组合与 SHVC 和最先进的基于 NN 的空间可扩展图像压缩方法相比我们的 COMPASS 的 BD 速率增益最大分别为 58.33 和 47.17。 Chinese Abs From Machine Translation Papers from arxiv.org 更多精彩请移步主页 pic from pexels.com
http://www.tj-hxxt.cn/news/142437.html

相关文章:

  • 2019一个网站开发要多少钱制作网站什么制作
  • 网站工程前端白银区住房和城乡建设局网站
  • 四川省建设注册中心网站淘宝官方网
  • 网站建设与设计致谢重庆地区专业做网站的公司
  • 苏州新港建设集团有限公司网站wordpress 后台 插件
  • o2o手机网站源码建设网站群的意义
  • 成都房地产网站开发兰州优秀网站推广
  • 建设企业网站就等于开展网络营销WordPress有什么作用
  • 删除wordpress主体杭州百度推广优化排名
  • 建设网站的服务宗旨霸气业务网站源码
  • 设计网站多少钱培训网站欣赏
  • 足球网站界面设计网站运行费用预算
  • 北京有哪些网站制作公司备案空壳网站通知
  • 男女做那个网站外包公司能不能去
  • 做医疗护具网站做企业网站收费价格
  • 凤冈县住房和城乡建设局网站杭州有什么互联网大厂
  • 响应式网站建设策划wordpress登录wp-admin
  • 佛山网站建设找方维网络工信部网站备案怎么查询
  • 毕业设计网站开发类题目惠东县住房和城乡规划建设局网站
  • 长沙网站seo费用成都网站制
  • 做泌尿科网站价格wordpress 文章 标题
  • 汽车网站开发的需求分析长沙做详情页的公司
  • 天津 网站设计公司百度百家号怎么赚钱
  • 未备案的网站 访问 hots中国诚乡建设部网站
  • 摄影网站都有什么wordpress html5插件下载
  • 网站新闻对百度优化有用吗深圳网站建设制作厂家
  • 太原网站推广只选中联传媒wordpress常规无备案号
  • 建设网站如何盈利北京网站制作建设公司
  • 做视频网站可行吗深圳工厂网站建设公司
  • 自己开公司 自己做网站wordpress图片站教程