当前位置: 首页 > news >正文 制作一个链接网站鞍山网络推广 news 2025/11/5 13:58:29 制作一个链接网站,鞍山网络推广,具有价值的建网站,最安全的域名注册商引言 简介 方法 Agent 框架 Agent 交互 探索阶段 部署阶段 文档生成 高级功能 实验结果 总结 局限性 未来工作 1. 引言 大语言模型#xff08;LLM#xff09;如 ChatGPT 和 GPT-4 显著提升了自然语言处理能力#xff0c;并且推动了智能体在自主决策中的应用。… 引言 简介 方法 Agent 框架 Agent 交互 探索阶段 部署阶段 文档生成 高级功能 实验结果 总结 局限性 未来工作 1. 引言 大语言模型LLM如 ChatGPT 和 GPT-4 显著提升了自然语言处理能力并且推动了智能体在自主决策中的应用。最初这些智能体专为基于文本的交互方式设计展现了卓越的表现包括记忆自适应性和多任务处理能力。然而现实世界的应用程序不仅仅局限于文本输入还涉及视觉和其他模态数据的处理这对传统智能体提出了挑战。 为应对这一需求近年来涌现了多模态智能体如 AssistGPT、Vipergpt 和 Visual ChatGPT 等它们能够在复杂环境中执行多步骤推理、信息提取和集成并根据用户输入作出适应性响应。此前的工作如 AppAgent v1 和 MobileAgent 通过模拟人类的交互方式已经在智能手机应用程序中展示了较大的潜力。 尽管如此准确识别图形用户界面仍然是多模态智能体面临的关键挑战。依赖视觉特征的传统方法往往因识别模型的局限性而不够准确。而移动环境的动态特性和频繁的应用更新也进一步加剧了这一挑战。即便是如 GPT-4 这样的先进模型在处理不熟悉的视觉元素时仍显不足尤其是在应对小众应用时。 为了解决这些问题AppAgent v1 通过自动化探索和观看演示的方式增强了智能体的决策能力但其过于依赖现成的解析器限制了智能体在处理不标准界面元素时的灵活性。为此AppAgent v2 提出了一种新的多模态智能体框架扩展了动作空间使其能够更广泛地适应不同类型的应用程序和界面元素。 1. 简介 随着多模态大语言模型MLLM的发展视觉智能体Agent正逐渐在软件界面中尤其是图形用户界面GUI中发挥重要作用。本文设计了一个专为移动设备打造的智能体框架 AppAgent v2该框架基于大语言模型能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间增强了其在不同应用程序中的适应性支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段探索Exploration和部署Deployment。 在探索阶段智能体通过自动或手动的方式记录用户界面各元素的功能并将其存储在结构化的知识库中。部署阶段智能体通过 RAG检索增强生成技术从知识库中检索信息并实时更新使其能够准确高效地完成任务包括跨多个应用程序执行复杂的多步骤操作。实验结果表明AppAgent v2 在各种基准测试中的表现优异验证了其在实际场景中的有效性。AppAgent v2官方表示代码将很快开源。更多关于端侧大模型、Agent及其实践欢迎关注微信公众号《小窗幽记机器学习》 2. 方法 AppAgent v2 的多模态智能体框架分为两个阶段探索和部署。在探索阶段智能体通过自主或手动方式分析用户界面记录 UI 元素及其功能形成知识库。在部署阶段智能体利用知识库中的信息根据任务要求进行操作。 图1appAgent 流程。探索模块采用Agent驱动或手动探索将元素信息收集到文档中。部署阶段使用RAG实时检索和更新文档从而快速准备执行任务 2.1 Agent 框架 AppAgent v2 在 Android 15 环境下使用 Android Studio 模拟器实现。智能体通过调用 AndroidController 发送指令与手机交互结合 OCR 和检测模型从屏幕截图中提取 UI 元素的信息如 Android ID、文本、坐标等并将其用于任务推断和决策。 2.2 Agent 交互 智能体通过一套标准化的指令与 Android 系统交互指令包括点击、输入文本、滑动、返回、长按等操作。这些指令被转换为 Android 系统可执行的命令确保与界面的交互精确无误。 2.3 探索阶段 在探索阶段智能体通过两种方式分析用户界面智能体驱动的探索和手动探索。 智能体驱动的探索智能体自动识别需要交互的 UI 元素并执行操作记录交互前后的变化并根据结果反思操作的有效性。 手动探索当智能体对某些界面的理解有限时引入手动探索GPT-4 通过观察人类的操作 记录 UI 元素的变化和任务流程帮助智能体在未来的任务中更好地理解和应对复杂的界面和操作。 2.4 部署阶段 在部署阶段智能体利用自查检索器Self-query Retriever从知识库中检索相关文档结合当前的 GUI 信息和任务要求执行操作。智能体可以根据任务的需要动态更新知识库确保在不同应用场景中快速适应。通过不断更新历史信息和操作结果智能体能够优化其决策过程直到任务完成。 2.5 文档生成 探索阶段收集的 UI 元素信息被存储在结构化的知识库中。该知识库包括元素的 Android ID、可见标签、文本内容、视觉特征如颜色、形状及其屏幕坐标等。知识库支持实时更新和动态检索确保智能体可以随着任务的变化不断调整其操作策略。 2.6 高级功能 AppAgent v2 还具有以下增强功能 视觉特征决策当无法通过标准解析器识别 UI 元素时智能体会转向基于视觉特征的决策利用 OCR 技术识别界面中的文本和图标确保在面对全新界面时仍能有效操作。 安全检查智能体在执行涉及敏感信息的操作如账户密码或支付时会自动切换到手动模式确保用户隐私不受侵犯。 跨应用任务管理智能体能够在多个应用程序之间切换执行复杂的跨应用任务如从一个应用中提取信息并在另一个应用中执行操作。 3. 实验 为了评估 AppAgent v2 的性能本文在 Android 平台上进行了一系列实验涵盖多个基准测试和用户研究。 3.1 定量结果 AppAgent v2 在三个基准测试中进行了评估DroidTask、AppAgent v1 基准和 Mobile-Eval。 DroidTask在 13 个流行应用程序衍生出的 158 个任务中AppAgent v2 在完成率上表现优异显著超过了 GPT-4 和带有记忆组件的 AutoDroid证明了其强大的任务执行能力。 AppAgent v1 基准在 Twitter、Telegram 和其他常用应用的测试中AppAgent v2 通过探索和部署阶段的结合展示了其在多种任务和界面中的适应能力成功率大幅提升。 Mobile-Eval在 10 个常用移动应用程序中AppAgent v2 在成功率、过程分数、相对效率和完成率四个指标上均表现出色验证了其高效、准确地执行复杂任务的能力。 表2: MobileAgent和appAgent在Mobile-Eval上的指标对比结果 3.2 用户研究 为了进一步展示 AppAgent v2 的实际应用效果本文进行了用户研究模拟了复杂的跨应用任务。结果表明AppAgent v2 能够准确执行长时间、多步骤的任务展现了其在实际场景中处理复杂任务的能力和灵活性。 图3跨app应用上的定性结果 3.3 UI 界面解析分析 AppAgent v2 结合了结构化数据和视觉特征两种方法解析 UI 界面。对于常规应用智能体依赖从 Android 系统解析的 XML 数据而对于自定义开发的应用智能体则通过 OCR 和视觉特征识别图标和文本。该双重策略显著提高了智能体的适应性和任务执行的可靠性。 4. 总结 本文提出了一个多模态智能体框架 AppAgent v2显著提升了智能体在移动设备上的交互能力。通过整合解析器和视觉特征AppAgent v2 构建了一个灵活的动作空间能够适应不同类型的应用程序界面并通过探索和部署两个阶段有效管理移动设备的动态环境。实验证明了该框架在图形用户界面识别和复杂任务执行方面的优越性尤其是在跨应用任务和新环境中的适应能力。 AppAgent v2 的主要贡献包括 多模态智能体框架的引入结合解析器和视觉特征构建了灵活的动作空间增强了智能体与图形用户界面的交互能力提高了其在新环境中的适应性。 结构化存储格式的开发结合 RAG 技术实现了对知识库的实时更新和访问增强了智能体的决策精度和任务执行效率。 广泛的实验证明通过多个基准测试和用户研究验证了智能体在各种移动应用程序中的有效性展示了其适应性、用户友好性和操作效率。 AppAgent v2 在现有技术基础上进一步提升了智能体在复杂移动环境中的表现为未来的多模态智能体研究提供了重要的参考和改进方向。 5. 局限性 尽管 AppAgent v2 在多个应用场景中表现优异但仍存在一些局限性 数字标签识别的局限性AppAgent v2 依赖智能体识别 UI 上的数字标签来确定特定元素。当 UI 元素本身包含数字时可能会导致混淆。这种问题可以通过预先的手动探索和记录来缓解。 隐藏 UI 元素的交互难题智能体在处理一些隐藏 UI 元素如加速视频播放的按钮时由于缺乏先验知识可能无法检测到相关元素进而限制了其执行某些操作的能力。未来的工作将侧重于增强 UI 识别能力并结合先验知识来解决这些问题。 6. 未来工作 未来的研究工作将集中在以下几个方面 增强跨应用任务处理能力进一步优化智能体在多个应用程序之间切换时的决策流程提升其处理复杂跨应用任务的效率。 优化视觉特征识别改进视觉特征的识别与操作特别是在面对复杂或定制化的应用界面时确保智能体始终能够做出正确的交互决策。 提高智能体的用户体验通过优化智能体的反馈机制和任务执行过程进一步提升用户体验使其更加直观和高效。 总之AppAgent v2 为多模态智能体的发展提供了坚实的基础并为未来的移动设备智能体研究指明了方向。 文章转载自: http://www.morning.pjbhk.cn.gov.cn.pjbhk.cn http://www.morning.twwzk.cn.gov.cn.twwzk.cn http://www.morning.bkkgt.cn.gov.cn.bkkgt.cn http://www.morning.wjxtq.cn.gov.cn.wjxtq.cn http://www.morning.fjfjm.cn.gov.cn.fjfjm.cn http://www.morning.dwncg.cn.gov.cn.dwncg.cn http://www.morning.rwwdp.cn.gov.cn.rwwdp.cn http://www.morning.cdrzw.cn.gov.cn.cdrzw.cn http://www.morning.mbrbk.cn.gov.cn.mbrbk.cn http://www.morning.sftpg.cn.gov.cn.sftpg.cn http://www.morning.mslhq.cn.gov.cn.mslhq.cn http://www.morning.kwksj.cn.gov.cn.kwksj.cn http://www.morning.mlwpr.cn.gov.cn.mlwpr.cn http://www.morning.gynls.cn.gov.cn.gynls.cn http://www.morning.xdlwm.cn.gov.cn.xdlwm.cn http://www.morning.ndcf.cn.gov.cn.ndcf.cn http://www.morning.blzrj.cn.gov.cn.blzrj.cn http://www.morning.mwnch.cn.gov.cn.mwnch.cn http://www.morning.cnhgc.cn.gov.cn.cnhgc.cn http://www.morning.lqjlg.cn.gov.cn.lqjlg.cn http://www.morning.ngmjn.cn.gov.cn.ngmjn.cn http://www.morning.rhnn.cn.gov.cn.rhnn.cn http://www.morning.yfrbn.cn.gov.cn.yfrbn.cn http://www.morning.nhzps.cn.gov.cn.nhzps.cn http://www.morning.xqltq.cn.gov.cn.xqltq.cn http://www.morning.wfyqn.cn.gov.cn.wfyqn.cn http://www.morning.qzmnr.cn.gov.cn.qzmnr.cn http://www.morning.rfhwc.cn.gov.cn.rfhwc.cn http://www.morning.kflpf.cn.gov.cn.kflpf.cn http://www.morning.fbrshjf.com.gov.cn.fbrshjf.com http://www.morning.kpxky.cn.gov.cn.kpxky.cn http://www.morning.gqhgl.cn.gov.cn.gqhgl.cn http://www.morning.ptlwt.cn.gov.cn.ptlwt.cn http://www.morning.hfytgp.cn.gov.cn.hfytgp.cn http://www.morning.rrwft.cn.gov.cn.rrwft.cn http://www.morning.hmhdn.cn.gov.cn.hmhdn.cn http://www.morning.fdfdz.cn.gov.cn.fdfdz.cn http://www.morning.lrwsk.cn.gov.cn.lrwsk.cn http://www.morning.qwhbk.cn.gov.cn.qwhbk.cn http://www.morning.qqxmj.cn.gov.cn.qqxmj.cn http://www.morning.pgggs.cn.gov.cn.pgggs.cn http://www.morning.zydr.cn.gov.cn.zydr.cn http://www.morning.qdrrh.cn.gov.cn.qdrrh.cn http://www.morning.ckcjq.cn.gov.cn.ckcjq.cn http://www.morning.lkbyj.cn.gov.cn.lkbyj.cn http://www.morning.rgwrl.cn.gov.cn.rgwrl.cn http://www.morning.gxtfk.cn.gov.cn.gxtfk.cn http://www.morning.rkxdp.cn.gov.cn.rkxdp.cn http://www.morning.clwhf.cn.gov.cn.clwhf.cn http://www.morning.sfcfy.cn.gov.cn.sfcfy.cn http://www.morning.fxzlg.cn.gov.cn.fxzlg.cn http://www.morning.lxhgj.cn.gov.cn.lxhgj.cn http://www.morning.a3e2r.com.gov.cn.a3e2r.com http://www.morning.mpflb.cn.gov.cn.mpflb.cn http://www.morning.grpbt.cn.gov.cn.grpbt.cn http://www.morning.xgmf.cn.gov.cn.xgmf.cn http://www.morning.lkrmp.cn.gov.cn.lkrmp.cn http://www.morning.ylph.cn.gov.cn.ylph.cn http://www.morning.vjwkb.cn.gov.cn.vjwkb.cn http://www.morning.yrjhr.cn.gov.cn.yrjhr.cn http://www.morning.kztpn.cn.gov.cn.kztpn.cn http://www.morning.qineryuyin.com.gov.cn.qineryuyin.com http://www.morning.bhqlj.cn.gov.cn.bhqlj.cn http://www.morning.gbsfs.com.gov.cn.gbsfs.com http://www.morning.qxlgt.cn.gov.cn.qxlgt.cn http://www.morning.wnbqy.cn.gov.cn.wnbqy.cn http://www.morning.rszyf.cn.gov.cn.rszyf.cn http://www.morning.nggbf.cn.gov.cn.nggbf.cn http://www.morning.wwjft.cn.gov.cn.wwjft.cn http://www.morning.kehejia.com.gov.cn.kehejia.com http://www.morning.rwls.cn.gov.cn.rwls.cn http://www.morning.nnpwg.cn.gov.cn.nnpwg.cn http://www.morning.jwtjf.cn.gov.cn.jwtjf.cn http://www.morning.ckhyj.cn.gov.cn.ckhyj.cn http://www.morning.xrrjb.cn.gov.cn.xrrjb.cn http://www.morning.bflws.cn.gov.cn.bflws.cn http://www.morning.gnjkn.cn.gov.cn.gnjkn.cn http://www.morning.gqddl.cn.gov.cn.gqddl.cn http://www.morning.hhfqk.cn.gov.cn.hhfqk.cn http://www.morning.fllfz.cn.gov.cn.fllfz.cn 查看全文 http://www.tj-hxxt.cn/news/279587.html 相关文章: 学校网站建设小组及分工网络开发与维护是做什么的 切削工具东莞网站建设网站开发目录过多的缺点 泰州网站建设定制门户网站的区别 0797 网站制作网站开发女生 达州住房和城乡建设部网站专业彩票网站开发 网站管理系统安装 -一般网站建设费用 建筑设计网站素材深圳专业网站建设公 徐州建设安全监督网站淘宝网的网站建设 教育网站建站需求南昌优秀网站建设 学院网站建设需求分析目录《网站开发与应用》试题 网站icp备案信息如何查询网站地址做图标 建设网站的需求分析报告郑州营销型网站制作教程 酒店品牌网站建设推广wordpress 屏蔽国内ip 中国网站开发用盗版犯法企业网站的建立不能缺少哪些细节 中山顺德网站建设自己开发网站需要什么技术 做房产网站能赚钱吗“哈尔滨企业服务平台”公众号 idea建设完整的网站荣成网站开发 大型html5浅蓝色网站设计公司dede模板哪些专业要学网页制作 校园二手用品网站建设的项目章程怎么做淘宝客导购网站推广 做网站jsp好还是wordpress文章图片自动下载 淘客返利网站建设建设厅安全员证 网站开发质量控制计划做网站 用什么空间 青岛网站建设定制开发建设汽车行业网站 1688网站特点家具建设企业网站 营销网站建设推广seo tdk 泌阳网站建设化妆品的网站设计方案 网站转移九江做网站开发需要多少钱 手机版企页网站案例教育网站 php c2c网站是什么合肥网络公司 网站建设 杭州商城网站建设怎么自己做网站服务器linux