当前位置: 首页 > news >正文

手机网站展示品牌网站建设维护

手机网站展示,品牌网站建设维护,网络架构1788,网站的基础知识【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱#xff1a;通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧 目录 文章目录 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱#xff1a;通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧目…【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧 目录 文章目录 【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧目录文章摘要研究背景问题与挑战如何解决创新点算法模型GradSafe-ZeroGradSafe-Adapt 实验效果重要数据与结论 推荐阅读指数★★★★☆ 后记 文章 Johnny 如何说服大型语言模型越狱通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧 https://arxiv.org/pdf/2401.06373 摘要 大型语言模型LLMs在常识任务上表现出色但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察不安全提示与遵从响应如“Sure”配对时LLM 的损失梯度在某些安全关键参数上表现出相似的模式而安全提示则导致明显不同的梯度模式。基于这一观察GradSafe 分析提示与遵从响应配对的梯度以准确检测不安全提示。我们在 Llama-2 和 GPT-3.5/GPT-4 上评估了 GradSafe结果表明 GradSafe 在检测不安全提示方面优于经过大量数据集微调的 Llama Guard。这一优越性能在零样本和适应性场景下是一致的我们的评估基于 ToxicChat 和 XSTest 数据集。 研究背景 随着大型语言模型LLMs在各个领域的应用越来越广泛非专家用户在日常交互中也可能对 LLMs 的安全性构成威胁。尽管 LLMs 通常经过与人类价值观对齐的训练但它们仍然容易受到各种攻击以及安全风险的高估。此外对于 LLM 定制服务如果训练集中的不安全提示未被检测和过滤模型可以被微调以表现出不安全的行为并遵从不安全的提示。因此开发精确检测不安全提示的方法变得尤为重要。 问题与挑战 现有的不安全提示检测方法主要依赖在线内容审核 API 或微调过的 LLMs这些方法需要大量的数据收集和资源密集型的训练过程。此外这些方法可能无法准确识别不安全提示导致 LLMs 被滥用或恶意微调。 如何解决 GradSafe 通过分析 LLMs 中安全关键参数的梯度来检测不安全提示无需额外的数据收集和 LLMs 的微调。GradSafe 的核心观察是不安全提示与遵从响应配对时LLM 的损失梯度在某些安全关键参数上表现出相似的模式而安全提示则导致明显不同的梯度模式。基于这一观察GradSafe 分析提示与遵从响应配对的梯度以准确检测不安全提示。 创新点 提出了一种新的方法通过分析 LLMs 中安全关键参数的梯度来检测不安全提示无需额外的数据收集和 LLMs 的微调。GradSafe 基于关键观察不安全提示与遵从响应配对时LLM 的损失梯度在某些安全关键参数上表现出相似的模式。GradSafe 提供了两种变体GradSafe-Zero零样本基于阈值的分类方法和 GradSafe-Adapt适应性变体使用逻辑回归模型进行领域特定调整。 算法模型 GradSafe-Zero GradSafe-Zero 依赖于跨所有安全关键参数的平均余弦相似度来确定提示是否不安全。对于待检测的提示GradSafe-Zero 将提示与遵从响应“Sure”配对计算 LLM 的损失梯度并与不安全梯度参考进行比较。如果得分超过预定义的阈值则将提示识别为不安全。 GradSafe-Adapt GradSafe-Adapt 通过训练一个简单的逻辑回归模型并使用余弦相似度作为特征利用训练集进行领域适应。GradSafe-Adapt 首先获得所有提示的余弦相似度然后使用这些相似度作为输入特征来训练逻辑回归分类器该分类器作为检测器。 实验效果 重要数据与结论 在 ToxicChat 和 XSTest 数据集上GradSafe-Zero 在无需进一步训练的情况下超过了专门微调的 Llama Guard 以及领先的在线内容审核 APIs 的检测能力。GradSafe-Adapt 在 ToxicChat 数据集上展示了出色的适应性超过了 Llama Guard 和原始 Llama-2 模型强调了其在领域特定适应性方面的优越性能。 推荐阅读指数★★★★☆ 后记 如果您对我的博客内容感兴趣欢迎三连击(点赞关注和评论)我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型深度学习计算机视觉相关方向)最新学术论文及工程实践方面的内容分享助力您更快更准更系统地了解 AI前沿技术。
http://www.tj-hxxt.cn/news/221738.html

相关文章:

  • 全国网站打开速度wordpress免费采集器
  • 证券投资网站建设免费大数据分析网站
  • p2p金融网站开发php mysql的网站开发
  • 小而美企业网站建设学建站论坛
  • 网站付费功能描述描述对于营销型网站建设很重要飘红效果更佳
  • 购物网站主页模板软件下载站网站源码免费
  • 怎样做视频上网站赚钱wordpress apache版本号
  • 敦煌做网站的公司电话网站建设怎么选择
  • 企业网站建设的常见流程中文域名注册 .网站
  • 网站开发实战作业答案移动端网站开发与网页开发区别
  • 网络营销有哪些功能?百度app优化
  • 网页效果制作外贸网站怎么做seo
  • 济南著名网站建设wordpress获取分类下所有文章
  • 旅游网站建设问题百度域名多少钱
  • 网站设计团队有哪些职业任经理 徐州网站建设
  • 网站有可能搜不到吗wordpress注册完成请检查电子邮件
  • 做网站需要硬件设施网站设计基础知识
  • 佛山行业网站建设邯郸网站建设行情
  • 有没有什么排版的网站做seo网站地图重要吗
  • 华为官方网站进入海口网站建设公司哪家好
  • 网站的网络推广方案摄影网站免费
  • 企业多语言网站开源免费网站域名注册个人
  • 做电影网站用什么软件叫什么名字建筑公司网站设计思路
  • 网站开发会用到定时器功能文化馆门户网站建设的作用及意义
  • 网站开发电脑设置网站建设微信官网开发
  • 用开源源码做淘宝客网站泰安做网站网络公司
  • 手机网站 多html网站正能量下载直接进入主页可以吗安全吗
  • 北京网站设计公司有哪些商城类网站怎么优化
  • 公众号 商城 网站开发吉林市网站制作
  • 中鼎国际建设集团网站个人开发微信平台