当前位置: 首页 > news >正文

主机屋 建网站教程哪个网站可以找人做清洁

主机屋 建网站教程,哪个网站可以找人做清洁,北京网站设计网站公司,个人网站建设规划实践报告定义 开放词汇目标检测#xff08;Open-Vocabulary Object Detection, OVOD#xff09;是一种目标检测任务#xff0c;旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别#xff0c;而OVOD模型则具有识别“开放词汇…定义 开放词汇目标检测Open-Vocabulary Object Detection, OVOD是一种目标检测任务旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别而OVOD模型则具有识别“开放词汇”类别的能力即在测试时可以识别和定位那些未曾在训练集中见过的类别。与开放词汇目标检测相对应的另一个重要概念是开集目标检测Open-Set Object Detection, OSOD。OSOD的目标是检测那些未在训练集中出现的未知类别并将其标记为“未知”。与OVOD的不同之处在于OSOD并不试图去识别这些未知类别是什么而是关注于准确地检测它们的存在。本质上开放词汇目标检测任务Open-Vocabulary Object Detection与零样本目标检测Zero Shot Object Detection、弱监督目标检测Weakly supervised Object Detection非常类似核心思想都是在可见类base class的数据上进行训练然后完成对不可见类unseen/ target数据的识别和检测。 参考链接 https://blog.csdn.net/mieshizhishou/article/details/141216656 https://zhuanlan.zhihu.com/p/610639148 相关工作 OVR-CNN 2021年发表在CVPR的open-vocabulary object detection using captions是开放词汇对象检测领域第一篇重要工作利用大规模image-caption数据改善对未知类的检测能力。本文提出了新的目标检测范式用 image-caption 数据预训练视觉编码器。 论文https://arxiv.org/pdf/2011.10678 源码https://github.com/alirezazareian/ovr-cnn 解读https://blog.csdn.net/jiaoyangwm/article/details/132000797 CLIP 于2021年由OpenAI发布。CLIP是一种图文多模态预训练神经网络。 基于视觉模型图像编码基于nlp模型文本编码相似度对比学习 论文https://arxiv.org/pdf/2103.00020 源码https://github.com/openai/CLIP 解读https://blog.csdn.net/weixin_38252409/article/details/133828294 应用图像分类、文本到图像检索、图像生成结合GAN、视觉问答结合nlp ViLD 于2021 年由 Google Research 的Xiuye Gu等人提出。 以类似于Mask R-CNN 的两阶段检测器作为基础框架第一阶段通过骨干网络backbone和区域提议网络RPN生成候选区域提议proposals第二阶段对这些提议进行分类和边界框回归以确定目标的类别和位置。使用预训练的 CLIP 模型中的图像编码器和文本编码器图像特征文本特征匹配关系等多模态信息融合共同优化损失函数。 论文https://arxiv.org/pdf/2104.13921 源码https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild 解读https://hub.baai.ac.cn/view/12691 GLIP 于2021 年 12 月 7 日由微软团队首次发布提出。CLIP适用于分类任务而GLIP尝试将这一技术应用于目标检测等复杂任务。视觉编码器文本编码器词-区域对齐边界框回归 论文https://arxiv.org/pdf/2112.03857.pdf 源码https://github.com/microsoft/GLIP 解读https://zhuanlan.zhihu.com/p/690342065 应用开放词汇物体检测、视觉问答VQA、图像描述生成与检索 RegionCLIP 于2021年12月由微软团队提出。 基于预训练好的 CLIP 模型构建了一个 R-CNN 形式的目标检测器。 论文https://arxiv.org/pdf/2112.09106.pdf 源码https://github.com/microsoft/RegionCLIP 解读https://blog.csdn.net/jiaoyangwm/article/details/131960703 Detic 于2022年1月由 Meta AI 和德克萨斯大学奥斯汀分校提出。 本质使用图像分类的数据集来对目标检测器的分类头进行训练。 为了使得分类的分支具备检测出novel class的能力基于image-supervised loss 的Detic其将分类与定位解耦成两个问题在分类时不再那么依赖标注数据。同样是两阶段范式。 论文https://arxiv.org/pdf/2201.02605v3 源码https://github.com/facebookresearch/Detic 解读https://developer.aliyun.com/article/1277234 OWLViT 于2022 年由 Google Research 的 Matthias Minderer 等人提出。 OWL-ViT同样是以CLIP为多模态主干创新之处在于其用于目标检测的微调阶段。在微调阶段采用每个输出 token 的线性投影来获取每个对象的图像嵌入而不是 CLIP 中使用的 token 池化和最终投影层。这些嵌入随后用于分类而边界框坐标则是通过一个小型的 MLP 从 token 表示中推导出来的。支持基于图像嵌入做查询允许检测难以通过文本描述的图像。 现在已经更新OWLViTv2。 论文https://arxiv.org/pdf/2205.06230 源码https://github.com/google-research/scenic/tree/main/scenic/projects/owl_vit 解读https://zhuanlan.zhihu.com/p/613249723 VLDet VLDet网络包括三个部分视觉目标检测器文本编码器和区域-词语之间的对齐。本文选择了Faster R-CNN作为目标检测模型。 目标检测的第一阶段与Faster R-CNN相同通过RPN预测前景目标。为了适应开放词汇的设置VLDet在两个方面修改了检测器的第二阶段1使用所有类共享的定位分支定位分支预测边界框而不考虑它们的类别。 (2) 使用文本特征替换可训练分类器权重将检测器转换为开放词汇式检测器。 本文使用固定的预训练语言模型CLIP作为文本编码器。 论文https://arxiv.org/pdf/2211.14843 源码https://github.com/clin1223/VLDet 解读https://blog.csdn.net/hanseywho/article/details/129143747 BARON 于2023年由Wu Size等人提出。首次提出了对齐 bag of regions 的 embedding之前的方法都是对齐单个 region 的 embedding。基于 Faster R-CNN为了让 Faster RNN 能够检测出任意词汇概念的目标作者使用了一个线性映射层代替原本的分类器将区域特征映射为伪词。 论文https://arxiv.org/pdf/2302.13996 源码https://github.com/wusize/ovdet 解读https://blog.csdn.net/wzk4869/article/details/129713529 视觉-DINO 于2021年由 Facebook AI Research提出。 DINO学生网络和教师网络两者具有相同的架构但参数不同输入不同的图像视图学生网络的输出通过与教师网络输出计算交叉熵损失来进行学习教师网络使用学生网络的指数移动平均EMA进行更新。使用对比学习方法及全局自注意力机制放弃负采样对的做法。 自监督的ViT可以呈现图像的语义分割信息且在图像类间有良好的区分度。通过一个KNN就可以达到很高的分类准确率所以用于算图像相似度、以图搜图的话应该是个好的选择。 论文https://arxiv.org/pdf/2104.14294 代码https://github.com/facebookresearch/dino 解读https://zhuanlan.zhihu.com/p/635104575 视觉-DINOv2 于2023年由Meta AI Research提出。增强版DINO、大规模数据集LVD-142M DINOv2包含两个完全相同的 ResNet 网络其中一个作为学生网络另一个作为教师网络输入不同的图像输出通过动量更新机制交互学习这种结构有助于更好地学习图像的局部特征与全局特征。采用FlashAttention 机制在同一前向传递中全局裁剪和局部裁剪跳过了丢弃残差的计算。训练时采用全分片数据并行FSDP。 论文https://arxiv.org/pdf/2304.07193 代码https://github.com/facebookresearch/dinov2 解读https://blog.csdn.net/CVHub/article/details/130304078 GroundingDINO 于2023年由清华大学、IDEA 研究院联合提出。GLIP是基于传统的one-stage detector结构而Grounding DINO是一个双encoder单decoder结构它包含了1个image backboneSwin Transformer用于提取多尺度图像特征1个text backbone用于提取文本特征1个feature enhancer用于融合图像和文本特征1个language-guide query selection模块用于query初始化1个cross-modality decoder用于bbox预测。 论文https://arxiv.org/pdf/2303.05499 源码https://github.com/IDEA-Research/GroundingDINO 解读https://zhuanlan.zhihu.com/p/627646794 OV-DINO 于2024年由中山大学和美团联合提出。使用Swin Transformer作为图像编码器和BERT-base作为文本编码器的模型架构。统一的数据整合UniDI管道实现端到端训练语言感知选择性融合LASF模块来优化跨模态的语义对齐。 论文https://arxiv.org/pdf/2407.07844 源码https://github.com/wanghao9610/OV-DINO 解读https://blog.csdn.net/amusi1994/article/details/140836256 YOLO-World 于2024年由腾讯 AI 实验室提出。基于yolov8开发采用CLIP预训练的Transformer文本编码器提取相应的文本嵌入通过视觉语言建模和大规模数据集的预训练提出一种新的可重新参数化的视觉-语言路径聚合网络RepVL-PAN和区域-文本对比损失以促进视觉和语言信息之间的交互增强了 YOLO 的开放词汇检测功能。 论文https://arxiv.org/pdf/2401.17270v3 源码https://github.com/AILAB-CVC/YOLO-World 解读https://blog.csdn.net/weixin_47151388/article/details/137424184 其他最新工作2024-CVPR-Open-Vocabulary: https://blog.csdn.net/m0_74163093/article/details/143247918 总结 综上大多数工作均基于CLIP预训练的图像编码器和文本编码器。GlIP为解决目标检测任务提供了先例后续很多工作常与目前较为广泛使用的目标检测网络结构相结合从而构建新的开放词汇目标检测器。如ViLD基于Mask R-CNN、RegionCLIP基于R-CNN、VLDet和BARON基于Faster R-CNN。更具有创新性的工作是Detic提出了使用图像分类的数据集来对目标检测器的分类头进行训练。OWL-ViT在目标检测微调阶段做创新最有意思的是其支持基于图像嵌入做查询允许检测难以通过文本描述的图像。这部分优势可能会使这个项目更能应用到实际任务中。另外的基于DINO的工作中GroundingDINO更偏向于开集目标检测OSOD任务。与GLIP和G-DINO等其他方法相比OV-DINO的预测更加精确并且能够检测到标签中未标记的额外对象。而YOLO-World则主要是对yolov8的改进目的在于为yolo架构赋予开放词汇检测能力。从开放词汇检测方案的发展历程上来看YOLO-World的目标检测部分依然是单阶段范式的目标检测器虽然效率更高速度更快但一般不如两阶段范式的目标检测模型精度高。 开放词汇目标检测的核心思想是利用视觉-语言联合建模方法将视觉特征和语言特征进行关联从而实现对未见物体类别的检测。一般地这类方法的关键组成有 1.视觉特征提取包括大规模图-文数据预训练、知识蒸馏、生成伪标签等 2.文本嵌入基于transformer 3.视觉-语言匹配基于referring 或grounding 4.多模态融合 至于为何能做到开放词汇检测关键在于利用了大规模预训练语言模型和视觉-语言联合表示学习。语言模型能够理解未见词语的语义通过将目标类别名称编码为文本向量然后与图像中的物体特征向量进行相似度计算。比如对于一个新的类别 “独角兽”语言模型能够理解这个词的语义并且帮助检测器在图像中寻找具有相似语义特征的物体。
http://www.tj-hxxt.cn/news/224470.html

相关文章:

  • 胶州市经济技术开发区建设局网站上海企业官网
  • 网站前台架构施工程找工程做哪个网站好
  • 深圳福田网站设计适合团购报名的网站开发
  • 台州网站建设公司哪个好在别人网站挂黑链
  • 网站建设厘金手指排名十九国外做免费网站的
  • 在线修图网站玖玖建筑网
  • 郑州网站建设维护公司建设网站是公司资产
  • 怎样创建网站以及建站流程是什么wordpress首页标题修改
  • 网络推广建议网络优化的内容包括哪些方面
  • 全网推广公司成都百度网站排名优化
  • 营销网站建设哪家好网站制作小常识
  • 网站建设策划书是有谁编写的wordpress分站点
  • 邯郸网站设计怎么用商标网官方查询官网
  • 站群管理系统wordpress中文标签云
  • 做logo好的网站小榄网站建设
  • 柳城网站开发企业网站功能模块
  • 温州微网站制作多少钱做网站的一些好处
  • 宝塔网站做301重定向自学考试
  • 买了一个域名如何做网站wordpress 更改数据库密码
  • 用织梦做的网站下载地址wordpress 身份认证
  • 英语培训学校网站建设多少钱wordpress 邮件写文章
  • 做视频网站赚钱嘛南京整站优化
  • 廊坊网站制作策划网站嵌入百度地图
  • 浑南区建设局网站win2012 网站建设
  • 额尔古纳网站建设手机上怎么做网站创业
  • 招聘网站内容建设加强网络舆情监测
  • 做海报的网站类似于创客贴网站怎么做下载网页代码吗
  • 权威数据统计网站餐饮培训
  • 深圳手机网站开发wordpress安装使用教程
  • 一个网站费用wordpress炫酷网页