当前位置: 首页 > news >正文

教做家常菜的视频网站淄博网站快照优化公司

教做家常菜的视频网站,淄博网站快照优化公司,枣庄手机网站制作,企业网站建设流程图24年5月MIT的论文“Probing Multimodal LLMs as World Models for Driving”。 主要对多模态大语言模型#xff08;MLLM#xff09;在自动驾驶领域的应用进行了审视#xff0c;并挑战/验证了一些常见的假设#xff0c;重点关注它们通过图像/帧序列推理和解释在闭环控制环境…24年5月MIT的论文“Probing Multimodal LLMs as World Models for Driving”。 主要对多模态大语言模型MLLM在自动驾驶领域的应用进行了审视并挑战/验证了一些常见的假设重点关注它们通过图像/帧序列推理和解释在闭环控制环境中动态驾驶场景的能力。 尽管 GPT-4V 等 MLLM 取得了显着进步但它们在复杂、动态驾驶环境中的性能在很大程度上仍未经过测试并且存在广泛的探索领域。 作者进行了一项全面的实验研究从固定车载摄像头的角度评估各种 MLLM 作为世界驾驶模型的能力。 研究结果表明虽然这些模型能够熟练地解释单个图像但在为描述动态行为合成的连贯叙述或逻辑图像序列方面存在很大困难。 实验表明预测 (i) 基本车辆动力学前进/后退、加速/减速、右转或左转、(ii) 与其他道路参与者的交互例如识别超速车或交通拥堵、(iii) 轨迹规划以及iv开放集动态场景推理表明模型训练数据存在偏差。 为了进行这项实验研究引入了一个模拟器DRIVESIM旨在生成不同的驾驶场景为评估驾驶领域的 MLLM 提供一个平台。 此外还有完整的开源代码和新数据集“EVAL-LLM-DRIVE”用于评估驾驶中的 MLLM。 其结果凸显最先进的 MLLM 当前能力的关键差距强调需要增强基础模型以提高其在现实世界动态环境中的适用性。 ​如图所示实验结果发现MLLM 很难从动态场景中创建连贯的序列或叙述因此无法推理汽车运动/动力学、超速汽车、交通等。 为此用 DRIVESIM 模拟器生成驾驶数据集并将其与数据一起开源以供未来探索。 研究结果强调 MLLM 当前能力的关键差距表明需要改进模型以增强其现实世界的适用性。 为了满足实验设置的要求需要受控环境和反事实测试例如生成与原始数据集不同的反事实数据而不是 MLLM 的反事实推理作者在 nuScenes 数据集之上开发了一个数据驱动的模拟器 [45]。 这种方法有效地平衡了传感器合成真实性[46]、[47]、闭环仿真[48]、[44]和场景设置可控性[49]、[50]使其成为用例的理想匹配。 实验方法的基石涉及决策的闭环执行探索 MLLM 的推理特别是提出以下问题 “如果汽车采取的操作与数据集中的动作不同怎么办” 解决这个问题需要实施传感器合成来适应假设的“假设”场景。 从自车的初始位置开始采用车辆动力学进行闭环控制将输入空间表征如下i使用自行车模型的加速度和转向速度ii通过自行车模型集成版的速度和转向角以及iii相对于局部坐标系的直接姿态调整用于无动力学运动规划。 为了促进传感器数据合成用实际传感器测量与重模拟技术[44]相结合结合地图信息对于后续部分中的目标/角色合成和行为建模也至关重要。 在较高层面上地图信息包括互连的车道段和描绘各种道路组成部分的其他几何元素例如停车线和交通标志。 沿着每个车道段都有样本点每个样本点都与传感器测量结果相关联例如相机图像。 该姿态源自车辆动力学与地图上最近的样本点相匹配与传感器的方向一起为渲染和行为建模提供局部坐标系。 对于渲染最初通过应用于 RGB 图像和稀疏 LiDAR 点的深度补全技术 [51] 来获取深度信息。 随后用针孔相机模型将 RGB 像素投影到 3D 空间中创建可以从不同视点渲染的 3D 网格。 利用基于重模拟的相关 RGB 图像的本地坐标系计算的外部参数以及用户定义的相机内部参数可以对最终图像执行渲染。 “假设”实验设置的另一个方面涉及解决诸如 “如果路边突然出现一只鹿怎么办” 这就需要能够模拟场景中的合成目标或角色。 基于所描述的 3D 重建流程将所需目标和角色的 3D 网格无缝集成到场景中。 通过利用LLM对其注释的文本理解能力可以从 Objaverse 数据集 [52] 有效地获取这些网格。 例如可以识别表明相应网格代表动物的注释。 利用地图的几何和语义信息战略性地将网格放置在合理的位置和方向。 例如在与自车相同的车道旁边、交通灯下方、停车线上方等。 在添加合成交通参与者的基础上这些参与者的行为或运动对于 MLLM 的推理过程变得至关重要。 这就引入了探索诸如以下场景的必要性“如果飞机从上空飞过或降落在路上怎么办”或 “如果汽车因交通堵塞而减速怎么办” 对于地面车辆的行为用PID控制器[53]进行转向控制跟踪从地图或运动规划导出的参考路径 对于加速控制用IDM[54]专注于自车前方最近的参与者该参与者正在朝着可能导致与自车发生碰撞的方向移动。 对于运动规划部署一个五次多项式轨迹生成功能的状态格规划器lattice planner[55]其中目标状态格被确定为在当前车道或相邻车道局部坐标系中本车前方的特定距离。 为了对其他角色行为进行建模在预定义的开始和结束姿势之间执行样条插值来创建轨迹。 重点是模拟合成角色对自车、它们自己以及场景中其他预先存在的角色或目标的反应而不是对那些已经存在的实体行为进行建模。 MLLM 作为世界模型在 DRIVESIM 提出的关键场景中的性能主要是如图 所示的类别(i) 自车动力学、(ii) 其他道路参与者、(iii) 轨迹规划以及iv开放集动态场景推理。 具体来说对于驾驶测试MLLM作为世界模型确定自车运动的能力汽车是向前还是向后行驶 加速还是减速 是左转还是右转 一切都以明确的方式进行。 然后评估街道上其他因素的推理能力以确定是否检测到超速车是否有超速车或交通拥堵是否有交通拥堵。 此外还基于开放集甚至奇怪的环境测试 MLLM 的决策例如提供突然出现的动物或静态目标甚至飞机着陆的图像自车能否继续移动 同一条车道。 最终可以测试 MLLM 的能力选择绕过障碍物导航的最佳轨迹同时尝试保持在车道上哪条轨迹最好遵循。 下表 展示 Claude3、GPT-4V、LLaVA-1.6、InstructBLIP 和 MiniGPT4-v2 在这些情况下的表现。 如图是一些DRIVESIM提供的合成例子
http://www.tj-hxxt.cn/news/225670.html

相关文章:

  • 成都网页设计与网站建设成都企业品牌网站建设
  • 校园网站建设促进教学沧州营销软件
  • 最贵网站建设网页制作的目的和意义
  • 做美食介绍的网站员工管理网站模板
  • 网站对图片优化门户网站建站多少钱
  • 重庆专业建网站wordpress修改 id
  • 网站 注册模块怎么做正规网站备案信息表
  • 扬州外贸网站建设wordpress 古风主题
  • 网站建设论文答辩自述网站开发需要兼容到ie几
  • 展厅设计制作网站如何是网站排名上升
  • 化州网站建设公司网站推广策划书目录
  • 怎么查网站是谁建的30天网站建设实录 pdf
  • 网站建设主动型电话销售话术一个网站两个空间
  • 门户网站系统有哪些平台玉溪做网站
  • 海外营销网站建设中天建设集团有限公司第九建设公司
  • 如何攻克房地产网站西地那非最佳吃法
  • 商务局网站建设方案酒店网站html
  • 网站js下载网站建设 推广信息
  • 怎么在网站文本框内做超连接做食品研发都有哪些网站
  • 上海安全建设协会网站freenom申请域名
  • 个人网站域名取名辽宁省工程造价网
  • 潍坊淘宝网站建设google seo怎么优化
  • 做旅游攻略比较好的网站wordpress淘客优惠券
  • 注册网站用什么邮箱广州做网站开发
  • 小型手机网站建设如何优化关键词搜索排名
  • 网站开发招投标书群晖wordpress慢
  • 织梦网站添加搜索功能中山网站建设文化机构
  • 做的网站 为什么百度搜不到制作网站公司价格
  • 不收费的企业查询网站专业的vi设计企业
  • 濮阳做网站公司团购网站做摄影