当前位置: 首页 > news >正文

win7局域网网站开发哪些人是建网站的

win7局域网网站开发,哪些人是建网站的,套用别人产品图片做网站,app界面设计尺寸RSGPT: A Remote Sensing Vision Language Model and Benchmark 贡献#xff1a;构建了一个高质量的遥感图像描述数据集#xff08;RSICap#xff09;和一个名为RSIEval的基准评估数据集#xff0c;并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练…RSGPT: A Remote Sensing Vision Language Model and Benchmark 贡献构建了一个高质量的遥感图像描述数据集RSICap和一个名为RSIEval的基准评估数据集并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练模型RSGPT。通过仅微调Q-Former网络和InstructBLIP的线性层模型可以快速学习以数据高效的方式将遥感图像的视觉特征与LLM对齐。 引言 VLM是指集成计算机视觉和自然语言处理技术以实现对视觉和文本数据的整体理解的一类人工智能模型。通过同时分析视觉和语义模式VLM 具有辨别视觉元素和语言信息之间复杂关系的能力并提供更全面、更接近人类的视觉内容理解能力。 VLM 在遥感领域发展的一个具有挑战性的问题是缺乏大规模对齐的图像文本数据集。现有的RSI数据集大多专注于视觉识别任务不提供语言注释。只有少数尝试构建图像文本RSI数据集但数据规模和质量远未达到预期。 构建了一个高质量的遥感图像描述数据集RSICap以促进遥感领域大型 VLM 的开发。与之前采用模型生成的说明文字或简短描述的遥感数据集不同RSICap 包含 2,585 个人工注释的说明文字具有丰富且高质量的信息。该数据集提供每张图像的详细描述包括场景描述例如住宅区、机场或农田以及物体信息例如颜色、形状、数量、绝对位置等。为了方便遥感领域VLM的评估我们还提供了一个名为RSIEval的基准评估数据集。该数据集由人工注释的标题和视觉问答对组成允许在遥感背景下对 VLM 进行全面评估。RSIEval由100个人工注释的标题和936个视觉问答对组成包含丰富的信息和开放式的问题和答案。我们的目标是建立一个标准基准涵盖各种遥感图像理解任务包括图像字幕视觉问题回答视觉接地等。 在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练模型RSGPT。通过仅微调Q-Former网络和InstructBLIP的线性层模型可以快速学习以数据高效的方式将遥感图像的视觉特征与LLM对齐。 数据集介绍 UCM-Captions 和Sydney-Captions是最早的遥感图像字幕数据集分别基于UCM数据集和Sydney数据集构建。 UCM-Captions包含2100个图像和10500个字幕 Sydney-Captions包含613个图像和3065个字幕 RSICD包括10921张图像和54605个字幕其中只有24333个不同的字幕 NWPUCaptions包含31500张图片和157500个字幕。 这些数据集中的每幅图像都用五个简短的字幕进行了注释但它们之间的差异相对较小细节程度仅限于对主要场景的粗略描述。 RS5M包含500万个对齐的图像文本对平均标题长度为40个词汇。RS5M数据集是通过从公开可用的数据集包括LAION400M和CC3 中仔细过滤RS相关图像并利用BLIP2模型自动生成图像标题来创建的。 DOTA来自不同卫星和航空传感器的图像如GF-2JL-1和Google Earth卫星图像以及不同分辨率的航空图像。DOTA包括彩色和全色图像; DOTA数据集包含不同的场景。本文使用的DOTA-v1.5覆盖了16个对象类别; DOTA提供了类别和边界框标签方便了感兴趣对象的统计计数。DOTA中图像的原始尺寸从800×800到4000 × 4000不等。 RSICaps本文提出的数据集是基于DOTA目标检测数据集构建RSICap。标题细节方面超过了RS5M数据集平均长度为60个词汇。构建过程将训练集中的图像分成大小为512×512的块然后随机选择总共2585块。五位遥感专家对图像作了注释。说明注记过程遵循以下原则1描述图像属性包括卫星/航空图像、彩色/全色图像和高/低分辨率;2描述对象属性包括对象数量、颜色、形状、大小和空间位置包括图像中的绝对位置和对象之间的相对位置;3一般而言注释过程涉及首先描述图像的整体场景然后描述特定对象。根据这些原则我们生成了2,585个高质量的RS图像-文本对。 RSIEval将DOTA-v1.5验证集中的图像分成大小为512×512的块然后从这些块中选择100幅图像进行进一步的人工标注。5名遥感专家参加了注释。RSIEval由100个高质量的图像-标题对每个图像一个标题和936个不同的图像-问题-答案三元组每个图像平均9个问题组成。 方法 Image EncoderEVA-G  LLMvicuna7b, vicuna13b 线性层把Q-Former输出映射到LLM输入特征空间 训练将InstructBLIP的预训练权重集成到RSGPT中用RSICap数据集微调RSGPT中的Q-Former和线性层。 实验 从细节描述、位置描述和幻觉描述三个维度对生成的遥感图像字幕质量进行四级评分。 RSICap数据集的分辨率多样性场景多样性和合理推测的可视化。(a)RSICap涵盖不同分辨率的航空图像、全色卫星图像和彩色卫星图像。(b)RSICap覆盖机场、港口、网球场、居民区等多种场景。(c)注释器可以在标题生成期间添加合理推测的描述。 BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval图像字幕测试集上的定性比较。详细描述、位置描述和幻觉描述的分数在括号中用粗体字表示。预测字幕中的幻觉描述以蓝色突出显示。 BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval RSVQA测试集上的定性比较。问题类型在括号内以粗体显示。评分结果用对勾和叉号表示。
http://www.tj-hxxt.cn/news/222066.html

相关文章:

  • 网站域名空间一年费用是多少钱制作h5网页流程及详细步骤
  • 网页设计作业个人网站全国建设部网站官网
  • 自己建设的网站怎么赚钱h5制作页面
  • 上海找工作网站网络推广网络营销软件
  • 上海网站建设网页制作免费网站友情链接
  • 做网站优化的好处专业3合1网站建设电话
  • 网站开发费怎么做会计分录东道设计一个logo多少钱
  • 携程网站的会计工作怎么做wordpress pc客户端
  • 自助下单网站直播间人气互动平台
  • 创建网站首页软件开发的一般流程
  • 学校网站群建设方案自己做网站导航页
  • 广州网站建设gzqiyiwordpress 客户
  • 皂君庙网站建设微软网站开发技术
  • wordpress+andriod新站优化
  • 建设网站不会写代码上海做网站建设
  • 有域名 如何免费建设网站茶叶建设网站市场分析
  • 网站建设项目总结网站建设合同标的怎么写
  • 做影视网站需要的软件南通制作公司网站
  • 莆田网站建设模板做国外网站衣服码数要怎么写
  • 怎么免费做一个网站域名商的网站
  • 西安商城网站制作威县做网站哪儿好
  • 卡片式设计网站制作建设网站的服务费是指什么
  • 网站开发vs设计报告wordpress添加磁力下载
  • 万网建站流程电子商务平台在家能干吗
  • 昆明学校网站设计公司百度图片查找
  • 广州seo网站推广优化半厘米wordpress
  • 全栈网站开发流行框架网站制作公司制作网站
  • 网站案例上海百度广告推广费用
  • 建网站后如何运营一加官网
  • 娄底建设网站电商网站建设的内容