个人做淘宝客网站要备案吗,wordpress 本地搭建,品牌logo设计制作,1.0钓鱼网站开发--站点说明我自己的原文哦~ https://blog.51cto.com/whaosoft/11547799
#Llama 3.1
美国太平洋时间 7 月 23 日#xff0c;Meta 公司发布了其最新的 AI 模型 Llama 3.1#xff0c;这是一个里程碑时刻。Llama 3.1 的发布让我们看到了开源 LLM 有与闭源 LLM 一较高下的能力。
Meta 表… 我自己的原文哦~ https://blog.51cto.com/whaosoft/11547799
#Llama 3.1
美国太平洋时间 7 月 23 日Meta 公司发布了其最新的 AI 模型 Llama 3.1这是一个里程碑时刻。Llama 3.1 的发布让我们看到了开源 LLM 有与闭源 LLM 一较高下的能力。
Meta 表示“到目前为止开源 LLM 在功能和性能方面大多落后于闭源模型。现在我们正迎来一个由开源引领的新时代。”
Meta 称 Llama 3.1 是目前最强的生成式 AI 产品。4 月份Meta 已经发布了 Llama 3被称为是 “我们最先进的开源 LLM 的下一代产品”。
此次 Llama 3.1 发布的产品有 8B、70B 和 405B 三个尺寸。
其中最受关注的是 Llama 3.1 405B。Meta 表示 Llama 3.1 405B 是目前全球最大、功能最强的公共基础模型可与 OpenAI 和 Google 开发的顶级模型一争高下。
Meta 在官方博客中表示“Llama 3.1 405B 是首个公开可用的模型在通用常识、可引导性、数学、工具使用和多语言翻译方面可与顶级 AI 模型相媲美。405B 模型的发布将带来前所未有的创新和探索机会。”
Meta 称他们在超过 150 个基准数据集上进行了性能评估并将 Llama 3.1 与竞品进行了比较结果显示 Llama 3.1 405B 在各项任务中都有能力与当前最先进的闭源模型一较高下。
8B 和 70B 在与同级别的小参数模型对比中也表现优异。
Llama 3 的推出以及 Meta 向生成式 AI 的全面转型使得这一产品被广泛应用于 Meta 的大多数产品线包括 Instagram、Messenger 和 WhatsApp。
此外Meta CEO 扎克伯格表示将 AI 作为开源工具向所有人开放也非常重要。
扎克伯格在一篇文章中写道“开源将确保世界上更多的人能享受到 AI 带来的红利和机会。这种权利不应该集中在少数公司手中而且这项技术可以更均衡、更安全地部署到整个社会。”
Meta 开发开源 AI 模型的努力也促使其他 AI 开发者包括去中心化 AI 公司 Venice AI、Brave 浏览器开发者 Brave 和 Perplexity AI将 Llama 3 添加到他们的平台上。
Venice AI 创始人 Erik Voorhees 在 5 月的一次 Twitter Space 中表示“Meta 值得高度赞扬因为他们花费了数亿美元来训练一个最先进的模型并免费向全世界开放。”
Meta 表示在提供更多功能的过程中开发 Llama 3.1 405B 面临的最大挑战是模型规模的整体增长支持更大的 12800,0-token 上下文窗口并提供多语言支持。根据该公司表示其 Meta AI 现在可以用法语、德语、印地语、意大利语、葡萄牙语和西班牙语进行响应。
关于 AI 安全性方面扎克伯格强调 AI 应避免所有类型的伤害。
扎克伯格表示“非故意伤害是指即使操作人员无意AI 系统也可能造成伤害。故意伤害是指不法分子使用 AI 模型故意造成伤害。”
在故意滥用的情况下主要的 AI 开发者 —— 包括 Meta、Anthropic、OpenAI、Google 和 Microsoft—— 对与选举相关的提示施加了限制以遏制使用其模型传播错误信息。
扎克伯格指出非故意伤害涵盖了人们对 AI 的大部分担忧并表示开源软件的透明性也有助于缓解这些担忧。Llama 3 的发布还包括 Llama Guard 3一款旨在监控和执行模型道德使用的工具。
扎克伯格表示“从历史角度看开源软件因此更加安全。同样使用 Llama 及其安全系统如 Llama Guard 可能比闭源模型更安全。”
扎克伯格接着表示他相信 Llama 3.1 的发布将成为 AI 行业的一个拐点。
扎克伯格说“归根结底开源 AI 代表了世界上最好的一次利用这项技术创造最大经济机会和安全性的机会。” #Llama成大模型顶流
扎克伯格掀论战玩开源时代变了 开源与闭源的纷争已久现在或许已经达到了一个新的高潮。 说到开源大模型Llama 系列自诞生以来就是典型代表其优秀的性能与开源特点让人工智能技术的应用性和可访问性大大提升。任何研究人员和开发者都能够从中获益让研究和应用变得更加广泛。
现在Meta Llama 3.1 405B 正式发布。在官方博客中Meta 表示「直到今天开源大语言模型在功能和性能方面大多落后于封闭模型。现在我们正在迎来一个开源引领的新时代。」
与此同时Meta 创始人、CEO 扎克伯格亲自撰写长文阐述开源对所有开发者、对 Meta、对世界的意义。他表示开源是 AI 积极发展的必要条件。以 Unix 和 Linux 的发展为例开源 AI 将更有利于创新、数据保护和成本效益。
他还认为开源 Llama 模型能够建立一个完整的生态系统确保技术进步并且不会因为竞争而失去优势。Meta 有着成功的开源历史通过开源 AI 模型扎克伯格希望促进全球技术的平等和安全应用。
原文链接https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/
以下是原文内容
扎克伯克为 Meta 注入开源基因
在高性能计算的早期各大主流科技公司都投入大量资金开发各自的闭源 Unix 版本。当时很难想象会有其他方法能开发出如此先进的软件。
然而开源的 Linux 逐渐流行起来最初是因为它允许开发人员自由修改代码且价格更实惠而后来它变得更先进、更安全并且拥有比任何闭源 Unix 更广泛的生态系统支持更多的功能。今天Linux 已成为云计算和运行大多数移动设备的操作系统的行业标准基础 大家都因其卓越的产品受益。
我相信人工智能的发展也与其发展轨迹类似。今天一些科技公司正在开发领先的闭源模型但开源正在迅速缩小差距。
去年Llama 2 仅能与一代旧型号相媲美。而在今年Llama 3 在某些领域已经可以与行业中领先的模型竞争甚至领先。明年开始我们预计未来的 Llama 模型将成为行业中最先进的大模型。在此之前Llama 也已经在开放性、可修改性和成本效益方面领先。
今天我们正迈出下一步 —— 使开源 AI 成为行业标准。我们发布了首个前沿级开源 AI 模型 Llama 3.1 405B以及改进版的 Llama 3.1 70B 和 8B 模型。较于闭源模型这些开源模型在成本效益上显著提升特别是 405B 模型的开源特性使其成为微调和蒸馏小型模型的最佳选择。
除了发布这些模型我们还与多家公司合作拓展更广泛的生态系统。亚马逊、Databricks 和英伟达正在推出全套服务支持开发者微调和蒸馏他们自己的模型。像 Groq 这样的创新者已经为所有新模型构建了低延迟、低成本的推理服务。
这些模型将在包括 AWS、Azure、Google、Oracle 等所有主要云平台上可用。Scale.AI、戴尔、德勤等公司已经准备好帮助企业采用 Llama 并使用他们自己的数据训练定制模型。随着社区的成长和更多公司开发新服务我们可以共同使 Llama 成为行业标准并将 AI 的益处带给每个人。
Meta 致力于开源 AI以下是我认为开源是最佳开发平台的原因为什么开源 Llama 对 Meta 有利以及为什么开源 AI 对世界有益并由此将长期存在。
开源 AI 之于开发者
当我与全球的开发者、CEO 和政府官员交谈时通常听到几个主题
我们需要训练、微调和蒸馏自己的模型。每个组织都有不同的需求这些需求最好通过使用不同规模并使用特定数据训练或微调的模型来满足。设备上的任务和分类任务需要小型模型而更复杂的任务则需要大型模型。现在你可以使用最先进的 Llama 模型继续用自己的数据训练它们然后将它们蒸馏成最适合你需求的模型规模 —— 无需我们或任何其他人看到你的数据。我们需要掌控自己的命运而不是被闭源供应商「锁死」。许多组织不希望依赖他们无法自己运行和控制的模型。他们不希望闭源模型供应商能够更改模型、改变使用条款甚至完全停止服务。他们也不希望被锁定在拥有模型专有权的单一云平台上。开源使得兼容工具链的广泛生态系统成为可能你可以轻松地在这些工具之间切换。我们需要保护我们的数据。许多组织处理需要保护的敏感数据无法通过云 API 发送到闭源模型。一些组织则根本不信任闭源模型供应商对其数据的处理。开源解决了这些问题因为它使你可以在任何你想要的地方运行模型。众所周知开源软件会因为开发过程更加透明而更安全。我们需要一个高效且经济的模型。开发者可以在自己的基础设施上运行 Llama 3.1 405B进行推理成本大约是使用闭源模型如 GPT-4的 50%适用于用户端和离线推理任务。我们希望投资于将成为长期标准的生态系统。许多人看到开源的发展速度快于封闭模型他们希望在能够长期提供最大优势的架构上构建自己的系统。
开源 AI 之于 Meta
Meta 的商业模式是为人们构建最佳体验和服务。为了实现这一目标我们必须确保始终能够获取最佳技术而不是被锁定在竞争对手的封闭生态系统中这样他们就不能限制我们所开发的内容。
我想分享一个重要经历虽然苹果公司允许我们在其平台上构建内容但是当我们构建服务时仍受到了限制。无论是他们对开发者的税收、他们施加的任意规则还是他们阻止的所有产品创新显而易见如果我们能够构建产品的最佳版本并且竞争对手无法限制我们构建的内容Meta 和许多其他公司将能够为人们提供更好的服务。从哲学层面上讲这也是我如此坚信在 AI 和 AR/VR 领域为下一代计算机建立开放生态系统的一个重要原因。
人们常常问我是否担心因为开源 Llama 而失去技术优势但我认为这忽略了大局原因有以下几点
首先为了确保我们能够长期保持技术领先并且不被锁定在闭源生态系统中Llama 需要发展成一个完整的生态系统包括工具、效率改进、硬件优化和其他集成。如果只有我们公司使用 Llama这个生态系统将不会发展我们的境况也不会比 Unix 的闭源变种好多少。
其次我预计 AI 开发将继续保持高度竞争这意味着在任何给定时刻开源某个模型不会使我们在与下一个最佳模型的竞争中失去巨大优势。Llama 成为行业标准的途径是通过一代又一代地保持竞争力、高效性和开放性。
第三Meta 与闭源模型提供商的一个关键区别在于销售 AI 模型的访问权限并不是我们的商业模式。这意味着公开发布 Llama 不会削弱我们的收入、可持续性或投资研究的能力而闭源提供商则会受到影响。这也是为什么一些闭源提供商一直在游说公共管理者反对开源的原因之一。
最后Meta 在开源项目上有着丰富的成功经验。通过与开放计算项目分享我们的服务器、网络和数据中心设计并使供应链标准化我们节省了数十亿美元。通过开源 PyTorch、React 等领先工具我们从生态系统的创新中受益匪浅。这种方法长期以来一直极具效果。
开源 AI 之于世界
我相信开源对于 AI 的未来是有必要的。AI 比任何其他现代技术都更有潜力提高人类的生产力、创造力和生活质量并且能够在加速经济增长的同时推动医学和科学研究的进步。开源将确保全球更多的人能够从 AI 的发展中获得利益和机会权力不会集中在少数几家公司手中并且技术能够更均匀和安全地在社会中部署。
关于开源 AI 模型的安全性存在着持续的争论。我的观点是开源 AI 将比替代方案更安全。我认为各国政府最终会得出支持开源的结论因为这将使世界更加繁荣和安全。
在我理解的安全性框架中我们需要防范两类危害无意和故意。
无意的危害是指 AI 系统可能在运行时非故意地造成伤害。例如现代 AI 模型可能在无意中给出错误的健康建议。或者在未来场景中有人担心模型可能会无意中自我复制或过度优化目标从而对人类造成损害。故意的危害是指不良行为者使用 AI 模型以造成伤害为目的。
值得注意的是无意的危害涵盖了人们对 AI 的多数担忧 —— 从 AI 系统对数十亿用户的影响到大多数真正灾难性的科幻场景。在这方面开源所带来的安全性更加显著因为系统更透明可以被广泛审查。
历史上开源软件由于这一原因一直更安全。同样使用 Llama 及其安全系统如 Llama Guard可能会比闭源模型更安全和更可靠。因此大多数关于开源 AI 安全性的讨论集中在故意的危害上。
我们的安全流程包括严格的测试和红队评估以检验我们的模型是否有可能造成实质性伤害此目标是在发布前减轻风险。由于这些模型是开源的任何人都可以自行进行测试。我们必须牢记这些模型是通过互联网上已有的信息训练的所以在考虑危害时起点应该是模型是否能比从 Google 或其他搜索结果快速获取的信息造成更多的危害。
通过区分个体或小规模行为者与拥有大量资源的大规模行为者如国家所能做的事情将会有益于推理故意伤害。
在未来的某个时候个别恶意行为者可能会利用 AI 模型的智能从互联网上现有的信息中制造出新型危害。在这一点上力量的均衡对 AI 安全至关重要。
我认为生活在一个 AI 广泛部署的世界中会更好因为这样可以使大型行为者制衡小型恶意行为者。这也是我们在社交网络上管理安全的方式凭借更强大的 AI 系统识别并阻止那些经常使用小规模 AI 系统的不太复杂的行为者。
更广泛地说大型机构在大规模部署 AI 时将促进社会的安全和稳定。只要每个人都能访问类似代际的模型那么拥有更多算力资源的政府和机构将能够制衡拥有较少计算资源的恶意行为者。
在考虑未来的机遇时请记住今天的大多数领先科技公司和科学研究都是建立在开源软件之上的。如果我们共同投资于开源 AI下一代公司和研究就会获得使用的机会。这包括刚刚起步的初创企业以及那些可能没有资源从头开发 SOTA AI 的大学和国家的人们。
总而言之开源 AI 代表了在全球范围内我们可以利用这项技术为所有人创造最大的经济机会和安全保障。
合作行稳开源致远
在过去的 Llama 模型中Meta 为自身开发发布了这些模型但并未重点关注建立更广泛的生态系统。这次发布我们采取了不同的方式。我们正在内部组建团队使尽可能多的开发者和合作伙伴能够使用 Llama并且积极建立合作伙伴关系以便生态系统中的更多公司能够为他们的客户提供独特的功能。
我相信 Llama 3.1 的发布将成为行业的一个转折点大多数开发者将开始使用开源技术我预计这种方式将会以我们的开源为起点。
我希望我们可以共同努力将 AI 的益处带给全世界。
你现在可以在 llama.meta.com 上访问这些模型。
马克·扎克伯格 #击败GPT-4o的开源模型如何炼成
经历了提前两天的「意外泄露」之后Llama 3.1 终于在昨夜由官方正式发布了。
Llama 3.1 将上下文长度扩展到了 128K拥有 8B、70B 和 405B 三个版本再次以一已之力抬高了大模型赛道的竞争标准。
对 AI 社区来说Llama 3.1 405B 最重要的意义是刷新了开源基础模型的能力上限Meta 官方称在一系列任务中其性能可与最好的闭源模型相媲美。
下表展示了当前 Llama 3 系列模型在关键基准测试上的性能。可以看出405B 模型的性能与 GPT-4o 十分接近。
与此同时Meta 公布了《The Llama 3 Herd of Models》论文揭示了 Llama 3 系列模型迄今为止的研究细节。
论文地址https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
接下来让我们看一下论文内容。
Llama3 论文亮点
1、在使用 8K 上下文长度进行预训练后Llama 3.1 405B 使用 128K 上下文长度进行连续训练且支持多语言和工具使用。
2、与以前的 Llama 模型相比Meta 加强了预处理和预训练数据的 Curation pipelines以及后训练数据的质量保证和过滤方法。
Meta 认为高质量基础模型的开发有三个关键杠杆数据、规模和复杂性管理。
首先与 Llama 的早期版本相比Meta 在数量和质量两方面改进了用于预训练和后训练的数据。Meta 在大约 15 万亿的多语言 Token 语料库上对 Llama 3 进行了预训练相比之下Llama 2 只使用了 1.8 万亿 Token。
此次训练的模型规模远大于以前的 Llama 模型旗舰语言模型使用了 3.8 × 10²⁵ 次浮点运算FLOPs进行预训练超过 Llama 2 的最大版本近 50 倍。
基于 Scaling law在 Meta 的训练预算下当前的旗舰模型已是近似计算最优的规模但 Meta 对较小模型进行的训练时间已经远超计算最优的时长。结果表明这些较小模型在相同推理预算下的表现优于计算最优模型。在后训练阶段Meta 使用了 405B 的旗舰模型进一步提高了 70B 和 8B 模型这些较小模型的质量。
3、为了支持 405B 模型的大规模生产推理Meta 将 16 位 (BF16) 量化为 8 位 (FP8)从而降低了计算要求并使模型能够在单个服务器节点上运行。
4、在 15.6T token3.8x10²⁵ FLOPs上预训练 405B 是一项重大挑战Meta 优化了整个训练堆栈并使用了超过 16K H100 GPU。
正如 PyTorch 创始人、Meta 杰出工程师 Soumith Chintala 所说Llama3 论文揭示了许多很酷的细节其中之一就是基础设施的构建。
5、在后训练中Meta 通过多轮对齐来完善 Chat 模型其中包括监督微调SFT、拒绝采样和直接偏好优化。大多数 SFT 样本由合成数据生成。
研究者在设计中做出了一些选择以最大化模型开发过程的可扩展性。例如选择标准的密集 Transformer 模型架构只进行了少量调整而不是采用专家混合模型以最大限度地提高训练的稳定性。同样采用相对简单的后训练程序基于监督微调SFT、拒绝采样RS和直接偏好优化DPO而不是更复杂的强化学习算法 因为后者往往稳定性较差且更难扩展。
6、作为 Llama 3 开发过程的一部分Meta 团队还开发了模型的多模态扩展使其具备图像识别、视频识别和语音理解的能力。这些模型仍在积极开发中尚未准备好发布但论文展示了对这些多模态模型进行初步实验的结果。
7、Meta 更新了许可证允许开发者使用 Llama 模型的输出结果来增强其他模型。
在这篇论文的最后我们还看到了长长的贡献者名单
这一系列因素最终造就了今天的 Llama 3 系列。
当然对于普通开发者来说如何利用 405B 规模的模型是一项挑战需要大量的计算资源和专业知识。
发布之后Llama 3.1 的生态系统已准备就绪超过 25 个合作伙伴提供了可与最新模型搭配使用的服务包括亚马逊云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake 等。 #数学大统一理论里程碑进展
几何朗兰兹猜想获证明
历经三十年的努力数学家已经成功证明了一个名为「朗兰兹纲领Langlands program」的宏大数学愿景的主要部分。
一个由 9 位数学家组成的团队成功证明了几何朗兰兹猜想Geometric Langlands Conjecture这是现代数学领域涉及范围最广的范式之一。
马克斯・普朗克数学研究所的著名数学家 Peter Scholze他并未参与此证明说这项证明是三十年辛苦研究所到达的顶点。「看到它得到解决真是太好了。」
朗兰兹纲领是由罗伯特・朗兰兹Robert Langlands在 1960 年代提出的。其是对傅里叶分析的广泛泛化而傅里叶分析是一个影响深远的框架可将复杂的波表示成多个平滑震荡的正弦波。朗兰兹纲领在三个不同的数学领域都有重要地位数论、几何和所谓的函数域function field。这三个领域通过一个类比网络连接在了一起而这个网络也被称为数学的「罗塞塔石碑Rosetta stone」。
现在一系列论文证明了这个罗塞塔石碑的几何栏位的朗兰兹猜想https://people.mpim-bonn.mpg.de/gaitsgde/GLC/
德克萨斯州大学奥斯汀分校的 David Ben-Zvi 说「其它领域还没有得到过如此全面和有力的证明。」
朗兰兹纲领的几何版本的主要先驱之一 Alexander Beilinson 说「这是美丽的数学最美的那一类。」
该证明包含 5 篇论文加起来超过 800 页。它们来自 Dennis Gaitsgory马克斯・普朗克研究所和 Sam Raskin耶鲁大学领导的一个团队。
Gaitsgory 过去 30 年来一直致力于证明几何朗兰兹猜想。这几十年来他及其合作者获得了大量研究成果并在这些基础上完成了这项证明。格勒诺布尔 - 阿尔卑斯大学的 Vincent Lafforgue 将这些进步比作是「不断升高的海」他说这就像是 20 世纪杰出数学家亚历山大・格罗滕迪克Alexander Grothendieck的研究精神 —— 通过创造一个不断升高的思想之海来解决困难问题。
Dennis Gaitsgory左图和 Sam Raskin右图他们领导的一个九人团队证明了几何朗兰兹猜想。
要验证他们的新证明成果还需要些时日但很多数学家都表示相信其核心思想是正确的。Lafforgue 说「该理论的内部一致性很好所以很难相信它错了。」
在证明之前的几年里该研究团队创建了不止一条通往问题核心的路径。「他们得到的理解是如此的丰富和广泛以至于他们从所有方向包围了这个问题。」他说「它已无路可逃。」
大统一理论
1967 年时年 30 岁的普林斯顿大学教授罗伯特・朗兰兹在他手写给安德烈・韦伊André Weil这个罗塞塔石碑的创立者的一份 17 页信件中阐述了他的愿景。朗兰兹写到在这个罗塞塔石碑的数论和函数域栏位上有可能创造出一种广义版的傅里叶分析并且其将具有惊人的范围和力量。
在经典的傅里叶分析中对于两种不同的思考波图比如声波的方式会使用一种名为傅立叶变换的过程来创造的它们之间的对应关系。在这对应关系的一侧是这些波本身。我们称之为波侧 /wave side。这包括简单的正弦波在声学中就是纯音以及由多个正弦波组成的复杂波。在这对应关系的另一侧是余弦波的频谱 —— 声学中的音高。数学家称之为谱侧 /spectral side。
傅立叶变换就是在这两侧之间来回。在一个方向上其可将波分解成一组频率在另一个方向上则可根据其组成频率重建出波。这种双向变换的能力造就了数不清的应用 —— 没有它我们就不会拥有现代电信、信号处理、磁共振成像或现代生活的许多其它必需品。
朗兰兹提出罗塞塔石碑的数论和函数域栏位也有类似的变换只是这里的波和频率都更加复杂。
在下面的视频中罗格斯大学的数学家 Alex Kontorovich 将带我们穿过这片数学大陆了解朗兰兹纲领核心的令人惊叹的对称性。
视频来源https://www.youtube.com/watch?v_bJeKUosqoY
在这些栏位中的每一个都有一个由一组特殊函数组成的波侧这些特殊函数类似于重复的波。这些特殊函数中最纯粹的被称为特征函数eigenfunction其作用就类似于正弦波。每个特征函数都有一个特征频率。不过虽然正弦波的频率是一个数值但特征函数的频率则是一个无限的数值列表。
还有谱侧。这由数论中的对象组成朗兰兹认为这些对象标记了特征函数的频谱。他提出存在一种类似于傅立叶变换的处理机制可将这里的波侧与谱侧连接起来。「这件事有点神奇。」Ben-Zvi 说「这不是我们没有任何理由时就能事先预计的东西。」
波与其频率标签来自大不相同的数据领域因此如果能证明它们之间的对应关系必定能带来丰厚的回报。举个例子在 1990 年代时一个相对较小的函数集的数论朗兰兹对应的证明就让 Andrew Wiles 和 Richard Taylor 证明了费马大定理 —— 这个问题曾是数学领域最著名的待证明问题之一数学界已经为此努力了三个世纪。
加州大学伯克利分校的 Edward Frenkel 表示朗兰兹纲领被视为「数学的大统一理论」。然而即便数学家已经努力证明了朗兰兹愿景中越来越大的部分但他们也很清楚这个愿景并不完备。在这块罗塞塔石碑的几何学栏位波与频率标签的关系似乎无法体现出来。
一粒沙
正是从朗兰兹的研究工作开始数学家对几何朗兰兹对应geometric Langlands correspondence的谱侧的样子有了一个想法。韦伊设定的罗塞塔石碑的第三个栏位几何涉及紧黎曼曲面compact Riemann surface包括球面、甜甜圈形曲面以及多孔甜甜圈形曲面。一个给定的黎曼曲面都有一个对应的对象称为基本群fundamental group其跟踪的是环绕曲面的环线的不同形式。
数学家猜想几何朗兰兹对应的谱侧应当由基本群的特定蒸馏形式构成这些特定的蒸馏形式也被称为基本群的表征representation。
如果要在罗塞塔石碑的几何栏位体现出朗兰兹对应那么黎曼曲面基本群的每个表征都应该是一个频率标签 —— 但是什么的频率标签呢
对于频率似乎标记了基本群表征的特征函数数学家找不到任何集合。然后到了 1980 年代如今就职于芝加哥大学的 Vladimir Drinfeld 意识到通过将特征函数替换成名为特征层eigensheaf的更复杂对象有可能创建起几何朗兰兹对应 —— 不过那时候他只知道少数特征叠层的构建方式。
层sheaf比函数深奥很多因此数论学家那时候不知道该如何理解这个朗兰兹对应的几何表亲。但几何朗兰兹纲领尽管其波侧玄奥难懂相较于数论版本的朗兰兹纲领有着一个大优势。在几何朗兰兹中特征层的频率由黎曼曲面上的点控制球体或甜甜圈上的每个点在近距离看起来非常相似。但在数论朗兰兹中频率由素数控制并且每个素数都有其特有的性质。伦敦帝国学院的数论学家 Ana Caraiani 说数学家不知道「如何以一种很好的方式从一个素数到另一个素数。」
黎曼曲面在物理学领域具有重要作用尤其是在共形场论中其控制着亚原子粒子在某些力场中行为。在 1990 年代早期Beilinson 和 Drinfeld 展示了可以如何使用共形场论来构建某些特别好的特征层。
与共形场论这种连接关系让 Beilinson 和 Drinfeld 开始思考如何为层sheaf构建一种傅里叶分析。Ben-Zvi 说「这就像是引发结晶的一粒沙子。」
Beilinson 和 Drinfeld 提出了一个丰富的愿景阐述了几何朗兰兹对应理应的工作方式。这不仅是基本群的每个表征都应该标记一个特征层的频率。他们认为这种对应关系也应当尊重两侧的重要关系Beilinson 和 Drinfeld 称这种展望是「最好的希望」。
1990 年代中期Beilinson 在特拉维夫大学通过一系列讲座介绍了这一发展中的研究图景。Gaitsgory 那时在此读研究生努力吸收其中每句话。他回忆说「我就像一只刚孵化的小鸭子获得了一种印随行为。」
此后的 30 年里几何朗兰兹猜想一直是 Gaitsgory 数学生涯的主要驱动力。他说「这些年都在不停地工作离目标越来越近开发不同的工具。」
上升之海
Beilinson 和 Drinfeld 只是松散地陈述了他们的猜想事实证明他们有点过于简化「最好的希望」中的关系理应的工作方式了。2012 年时Gaitsgory 与威斯康星大学麦迪逊分校的 Dima Arinkin 搞清楚了如何将这「最好的希望」变成一个精确的猜想。
之后一年Gaitsgory 写了一份大纲阐述了证明几何朗兰兹猜想的可能方式。该大纲依赖大量中间陈述其中很多当时都尚未得到证明。Gaitsgory 及其合作者开始着手证明它们。
接下来的几年时间里Gaitsgory 和多伦多大学的 Nick Rozenblyum 写了两本关于层的书加起来接近 1000 页。在这套两卷本中几何朗兰兹纲领只被提及了一次。Gaitsgory 说「但其目的是奠定基础后来我们也大量使用到了这些基础。」
2020 年Gaitsgory 突然发现他没什么日程安排了。他说「我花了三个月时间躺在床上只是思考。」这些思考最终促成了一篇论文有 6 位作者。虽然这篇论文专注于朗兰兹纲领的函数域栏位但其中也包含「一粒种子」—— 这粒种子后来变成了证明几何朗兰兹猜想的关键组件一种用于理解特征层如何促进所谓的「白噪声」的方法。
其他七位研究者的照片。左起顺时针方向Dario Beraldo、Lin Chen陈麟、Kevin Lin、Nick Rozenblyum、Joakim Færgeman、Justin Campbell 和 Dima Arinkin。
在经典的信号处理领域可由正弦波构建声波其频率对应于声音中的音高。仅仅知道声音包含哪些音高是不够的 —— 还需要知道每个音高的响度有多大。这些信息让你可将声音写成正弦波的组合形式只需从幅度为 1 的正弦波开始然后让正弦波乘以适当的响度因子再将这些正弦波加在一起。所有不同的幅度为 1 的正弦波之和就是我们常说的「白噪声」。
在几何朗兰兹纲领的世界里特征层的作用就类似于正弦波。Gaitsgory 及其合作者识别出了一种名为庞加莱层Poincaré sheaf的东西其作用似乎就类似于白噪声。但这些研究者并不清楚能否将每个特征层都表示在庞加莱层中更不用说它们是否都具有相同的幅度了。
2022 年春Raskin 与他的研究生 Joakim Færgeman 展示了如何使用那篇六作者论文中的思想来证明每个特征层都确实可表示在庞加莱层中。Gaitsgory 在谈到对几何朗兰兹猜想的证明时说「在 Sam 的和 Joakim 的论文之后我很确信我们能在短时间内做到。」
研究者需要证明所有特征层对庞加莱层都有同等的贡献并且基本群表征标记了这些特征层的频率。他们认识到最难的部分是处理这种基本群的表征不可约表征。
这些不可约表征的解决方案出现之时Raskin 的个人生活正一片混乱。在他与 Færgeman 在网上发布了他们的论文几周后的某天Raskin 不得不匆忙地将他怀孕的妻子送往医院然后再回家送儿子第一次去幼儿园。Raskin 的妻子在医院住了六周直到他们的第二个孩子降生。在这段时间里Raskin 的生活一直在轮轴转 —— 为了保证儿子的正常生活他无休止地在家、儿子的学校和医院之间来回奔忙。他说「我那时的全部生活就是车和照顾人。」
他在驾驶途中与 Gaitsgory 打电话探讨数学。在那几周的第一周快结束时Raskin 意识到他可以将这个不可约表征问题简化成证明三个当时已经触手可及的事实。「对我来说那段时间很神奇。」他说他的个人生活「充满了对未来的焦虑和恐惧。对我来说数学是一种需要根植grounding和冥想的东西可以让我摆脱那种焦虑。」
到 2023 年初Gaitsgory 和 Raskin 以及 Arinkin、Rozenblyum、Færgeman 和其他四名研究人员一起对 Beilinson 和 Drinfeld 的「最好的希望」进行了完整的证明并由 Gaitsgory 和 Arinkin 进行了修订。其他研究者为伦敦大学学院的 Dario Beraldo、清华大学的 Lin Chen陈麟、芝加哥大学的 Justin Campbell 和 Kevin Lin。该团队又用了一年时间将该证明写下来。他们在今年二月份在网上发布了该证明。尽管这些论文遵循 Gaitsgory 在 2013 年制定的大纲但其中简化了 Gaitsgory 的方法并在很多方面做出了改进。Lafforgue 说「对于这个无与伦比的成就很多聪明人为此贡献了很多新想法。」
「他们不仅仅是证明了它」Ben-Zvi 说「他们围绕它开发了整个世界。」
更远的海岸
对 Gaitsgory 来说这个数十年梦想的实现远非故事的结束。还有许多进一步的难题有待数学家解决 —— 更深入地探索其与量子物理学的联系、将该结果扩展到带穿孔的黎曼曲面、搞清楚其对罗塞塔石碑的其它栏位的影响。Gaitsgory 在一封电子邮件中写到「这感觉至少对我来说更像是凿下了一块大石头但我们离核心依然还很远。」
研究其它两个栏位的研究者现在急切地想要将这个证明转译过去。Ben-Zvi 说「其中一个主要碎片得到解决这一事实应该会对朗兰兹对应的整体研究产生重大影响。」
但并非所有东西都能带过去 —— 举个例子在数论和函数域设置中并没有与共形场论思想相对应的东西而共形场论能让研究者在几何设置中构建起特殊的特征层。在将该证明中的很多东西用于其它栏位之前还需要一些费力的调整。伯克利的 Tony Feng 说我们还不清楚是否能「将这些思想转移到一个原本没想过能使用它们的不同环境中。」
但很多研究者都乐观地相信这个上升的思想之海最终会漫延到其它领域。Ben-Zvi 说「它将渗透穿过学科之间的所有障碍。」
过去十年中研究者已经开始发现几何栏位与另外两个栏位之间的联系。「如果几何朗兰兹猜想在 10 年前就被成功证明那么结果会大不相同。」Feng 说「人们就不会认识到它的影响可能会拓展到几何朗兰兹社区之外。」
在将几何朗兰兹证明转译到函数域栏位方面Gaitsgory、Raskin 及其合作者已经取得了一些进展。Raskin 暗示说Gaitsgory 和 Raskin 在后者的长期驾驶途中得到的一些发现「还有待揭示」。如果转译成功则可能得到一个比数学家之前知道或甚至猜测的还要远远更加精准的函数域朗兰兹版本。
而从几何栏位到数论栏位的大多数转译都会经过函数域。但在 2021 年巴黎 Jussieu 数学研究所的 Laurent Fargues 和 Scholze 设计了一个所谓的虫洞wormhole可将几何栏位的思想直接带到数论朗兰兹纲领的某一部分。
Scholze 说「我肯定是一个想要转译这些几何朗兰兹证明的人。」考虑到这片上升之海包含上千页文本这绝非易事。「我目前落后几篇论文」Scholze 说「正在努力研读他们在 2010 年左右的成果。」
现在几何朗兰兹研究者终于将他们的长篇论证述诸论文Caraiani 希望他们能有更多时间与数论方向的研究者讨论。她说「人们有着非常不同的思考问题的方式。如果他们能够放慢脚步彼此交谈了解对方的观点那总会有好处的。」她预测说这项新成果的思路必定会传播到数论领域这只是个时间问题。
正如 Ben-Zvi 说得那样「这些结果是如此的稳健以至于你一旦开始就很难再停下来。」
原文链接https://www.quantamagazine.org/monumental-proof-settles-geometric-langlands-conjecture-20240719/ #让机器人拥有人一样「潜意识」
英伟达1.5M小模型就能实现通用控制了 当机器人也有潜意识。 大模型固然性能强大但限制也颇多。如果想在端侧塞进 405B 这种级别的大模型那真是小庙供不起大菩萨。近段时间小模型正在逐渐赢得人们更多关注。这一趋势不仅出现在语言模型领域也出现在了机器人领域。
昨天晚上朱玉可和 Jim Fan 团队英伟达 GEAR 团队新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络但它足以控制人形机器人执行多种机体运动。
先来看看效果将 HOVER 在不同模式下控制的机器人放到一起组成阵列其中每一台机器人都有自己的控制模式。还挺壮观的这也佐证了 HOVER 的通用性。你能看出它们的不同之处吗 无论是 H2O 模式、OmniH2O Mode 模式、还是 ExBody 模式 、HumanPlus 模式左手和右手的慢动作都直接被 HOVER 大一统了。 实际上HOVER 就是一个通用型的人形机器人控制器。
HOVER 一作 Tairan He何泰然的推文他是 CMU 机器人研究所的二年级博士生还是个有 38 万多粉丝的 B 站 up 主WhynotTV
据介绍HOVER 的设计灵感来自人类的潜意识。人类在行走、保持平衡和调整四肢位置时都需要大量潜意识的计算HOVER 将这种「潜意识」能力融合进了机器人。这个单一模型可以学习协调人形机器人的电机从而实现运动和操控。
Jim Fan 的推文
论文标题HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots论文地址https://arxiv.org/pdf/2410.21229项目地址https://hover-versatile-humanoid.github.io/
HOVER 的训练使用了 NVIDIA Isaac这是一个由 GPU 驱动的模拟套件可将物理加速到实时的 1 万倍。按 Jim Fan 的比喻就是说只需在一张 GPU 卡上运算大概 50 分钟机器人就像是在虚拟「道场」中经历了一整年的密集训练。
然后无需微调就可以将这个神经网络以零样本方式迁移到真实世界。
HOVER 可以接收多种高级运动指令即所谓的「控制模式control mode」比如
头部和手部姿势可通过 Apple Vision Pro 等增强现实设备捕捉全身姿势可通过 MoCap 或 RGB 相机全身关节角度外骨骼根速度命令操纵杆。 这项研究的贡献包括
一个统一的界面可让控制者使用任何方便的输入设备来控制机器人一种更简单的全身远程操作数据收集方法一个上游的视觉 - 语言 - 动作模型可用于提供运动指令之后 HOVER 会将其转换为高频的低级运动信号。
HOVER 是如何炼成的
用于人形机器人的基于目标的强化学习
该团队将所研究的问题表述成了一个基于目标的强化学习任务其中策略 π 的训练目标是跟踪实时的人类运动。其状态 s_t 包含智能体的本体感受 s^p 和目标状态 s^g。其中目标状态 s^g 会为目标运动提供一个统一的表征。基于此可将策略优化的奖励定义成 。
动作 表示目标关节位置这些位置会被输入到 PD 控制器中以驱动机器人他们使用了近端策略优化 (PPO) 算法来最大化累积折扣奖励 该设置被表述为一个命令跟踪任务其中人形机器人会学习在每个时间步骤遵从目标命令。
用户人形机器人控制的命令空间设计
对于腿部运动根速度或位置跟踪是常用的命令空间。然而仅仅关注根跟踪会限制人形机器人的全部能力尤其是对于涉及全身运动的任务。
该团队研究了之前的工作发现它们提出了一些各不一样的控制模式并且每种模式通常都是针对某些特定的任务因此缺乏通用人形机器人控制所需的灵活性。
而该团队的目标是设计一个全面的控制框架以适应多种多样的场景和各种不同的人形机器人任务。为此在构建命令空间时必须满足以下关键标准
通用性命令空间应包含大多数现有配置允许通用控制器替换针对特定任务的控制器同时还不会牺牲性能或多功能性。并且该空间应具有足够的表现力以便与现实世界的控制设备交互包括操纵杆、键盘、动作捕捉系统、外骨骼和虚拟现实 (VR) 头设如图 1 所示。原子性命令空间应由独立的维度组成从而能够任意组合控制选项以支持各种模式。 基于这些标准该团队定义了一个用于人形机器人全身控制的统一命令空间。该空间由两个主要控制区域组成 —— 上身和下身控制 —— 并包含三种不同的控制模式
运动位置跟踪机器人上关键刚体点的目标 3D 位置局部关节角度跟踪每个机器人电机的目标关节角度根跟踪目标根速度、高度和方向由滚动、俯仰和偏航角指定。
在如图 1 所示的框架中该团队引入了一个 one-hot 掩码向量来指定激活命令空间的哪些组件以便后面跟踪。
如表 1 所示可以将其它基于学习的人形全身控制的最新研究看作是新提出的统一命令空间的子集其中每项研究都代表特定的配置。 运动重定向
近期有研究表明如果学习的运动数据集很大学习到的人形机器人全身运动控制策略就会更加稳健。
为了获得大型数据集可将人类运动数据集重定向成人形机器人运动数据集这个过程分为三步
1. 使用正向运动学forward kinematics计算人形机器人的关键点位置将其关节配置映射成工作空间坐标。
2. 拟合 SMPL 模型以匹配人形机器人的运动学做法是优化 SMPL 参数以与正向运动学计算得到的关键点对齐。
3. 使用梯度下降来匹配已经拟合的 SMPL 模型和人形机器人之间的对应关键点重定向 AMASS 数据集。
状态空间设计
他们训练了一个 oracle 运动模拟器 其中 p_t 是人形机器人刚体位置 、θ_t 是方向、p_t 是线速度、 ω_t 是角速度、a_{t−1} 是前一个动作。本体感觉定义为 目标状态的定义是 其中包含参考姿态以及人形机器人所有刚体的参考状态与当前状态之间的一帧差异。他们使用的策略网络结构为层尺寸为 [512, 256, 128] 的三层 MLP。
奖励设计和域随机化
这里奖励 r_t 是三个分量之和1) 惩罚、2) 正则化和 3) 任务奖励详见表 2。域随机化是将模拟环境和人形机器人的物理参数随机化以实现模拟到现实成功迁移。 通过蒸馏实现多模式多功能控制器
本体感受
对于从 oracle 教师 π^oracle 中蒸馏得到的学生策略 π^student本体感受定义为 其中 q 是关节位置 是关节速度ω^base 是基准角速度g 是重力向量a 是动作历史。
他们将最新的 25 个步骤的这些项堆叠起来作为学生的本体感受输入。 命令掩码
如图 2 所示学生策略的任务命令输入是使用基于模式和基于稀疏性的掩码定义的。具体来说学生的任务命令输入是这样表示的 模式掩码 M_mode 会为上半身和下半身分别选择特定的任务命令模式。例如上半身可以跟踪运动位置而下半身则专注于关节角度和根部跟踪如图 2 所示。在模式特定的掩码之后应用稀疏掩码 M_sparsity。
例如在某些情况下上半身可能只跟踪手的运动位置而下半身只跟踪躯干的关节角度。模式和稀疏二元掩码的每一比特都来自伯努利分布 (0.5)。模式和稀疏掩码在事件情节episode开始时是随机的并保持固定直到该情节结束。
策略蒸馏
该团队执行策略蒸馏的框架是 DAgger。对于每个事件情节都先在模拟中 roll out 学生策略 从而得到 的轨迹。
另外在每个时间步骤还会计算相应的 oracle 状态 使用这些 oracle 状态可以查询 oracle 教师策略 以获得参考动作 然后通过最小化损失函数 来更新学生策略 π^student。
实验
研究团队针对以下问题在 IsaacGym 和 Unitree H1 机器人上开展了广泛的实验
Q1: HOVER 这个通用策略能比那些只针对特定指令训练的策略表现得更好吗Q2: HOVER 能比其他训练方法更有效地训练多模态仿人机器人控制器吗Q3: HOVER 能否在真实世界的硬件上实现多功能多模态控制
与专家策略的对比
该团队在不同控制模式下比较了 HOVER 和相应专家策略的表现。以 ExBody 模式为例研究团队加入了固定的掩码让 HOVER 和整个数据集 Q 中的 ExBody 模式可比。 如表 III 和图 3 所示HOVER 展现出了优越的泛化能力。在每一种指令模式中HOVER 在至少 7 个指标上超越了之前的专家控制器表 III 中用粗体值突出显示。同时这也意味着即使只关注单一控制模式从专家策略中提取的策略也比通过强化学习训练出的专家更强。 与通用训练方法的对比
研究团队在八种不同的模式下测量了 HOVER 在跟踪局部和全身位置方面的表现。他们用最大误差Emax减去当前误差E (.)再除以最大误差Emax和最小误差Emin之间的差值来计算误差。雷达网图更大代表模型的跟踪性能更好。实验结果显示HOVER 在所有 32 个指标和模式中的误差都很低。 在真实世界中的测评
为了测试 HOVER 策略在真实世界中的表现研究团队设计了定量的跟踪实验和定性的多模态控制实验。
站立时的动作评估
该团队通过跟踪 20 种不同的站立动作来评估 HOVER 的性能表 V 中的定量指标显示HOVER 在 12 个指标中的 11 个上超越了专家策略。HOVER 成功跟踪了关节俯仰运动与全身运动特别是高度动态的跑步动作也能搞定。 机器人的关节可以在 - 0.5 到 0.5 的俯仰角度之间变化 多模态评估
该团队还模拟了真实的生活场景测试了在突然切换命令时 HOVER 对运动的泛化能力。HOVER 成功地让机器人从 ExBody 模式切换到 H2O 模式同时在向前行走。 从 ExBody 切换到 H2O 模式
从 HumanPlus 模式切换到 OmniH2O 模式机器人也能同时执行转弯和向后行走。 从 HumanPlus 切换到 OmniH2O 模式
此外他们还使用 Vision Pro 随机掩盖头部和手部的位置进行了远程操作演示可以看出机器人的动作非常地丝滑流畅。 有时它也会出错比如只追踪了测试者的头部位置忽略了挥手的动作。 结果表明HOVER 能够平滑地在不同模式之间追踪动作展示了其在真实世界场景中的鲁棒性。 #MimicTalk
3D大模型助力15分钟即可训练高质量、个性化的数字人模型代码已开放
本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉导师为赵洲教授主要研究方向是说话人视频合成并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。
个性化精品数字人Personalized Talking Face Generation强调合成的数字人视频在感官上与真人具有极高的相似性不管是说话人的外表还是神态。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型虽然这种小模型能够有效地学到说话人的外表和说话风格这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下近年来许多工作专注于单图驱动的通用数字人大模型这些模型仅需单张图片输入即可完成数字人制作但仍存在外表相似度较低、无法模仿目标人说话风格等问题。
为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白浙江大学与字节跳动提出了 MimicTalk 算法。通过1将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和2具有上下文学习能力的人脸动作生成模型MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外单个数字人模型的训练时间可以被压缩到 15 分钟以内相比现有最高效的同类方法快了 47 倍。
MimicTalk 算法被人工智能顶级会议 NeurIPS 2024 录用目前已开放源代码和预训练权重。
论文标题MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes论文链接https://arxiv.org/pdf/2410.06734项目主页https://mimictalk.github.io/代码链接https://github.com/yerfor/MimicTalk
话不多说直接看效果以下视频中的数字人模型都通过从 3D 数字人大模型进行 1000 步微调5 分钟训练时间得到。
时长00:24
模型技术原理
深悉 MimicTalk 模型的内在原理还要回到开头提到的个性化数字人两个核心目标1外表上与真人相似2说话风格上与真人相似。
MimicTalk 分别使用1基于通用 3D 数字人大模型微调的高质量人脸渲染器和2一个具有上下文学习能力的人脸动作生成模型来实现它们。 图 2. MimicTalk 包含一个高质量人脸渲染器紫色和一个能够模仿说话风格的动作生成器蓝色
对于第一个问题传统方法通常从头训练一个小规模的 NeRF 模型来记忆目标人的外表特征但这种做法通常导致较长的训练时间数个小时、较高的数据量要求数分钟、较低的鲁棒性对极端条件无法输出正确的结果。针对这一问题团队首次提出采用一个单图驱动的通用 3D 数字人大模型作为基础模型并提出了一个「动静结合」的高效率微调方案。
他们发现通用大模型的输出通常存在牙齿、头发等静态细节不足且肌肉运动等动态细节不真实的问题。因此针对静态细节和动态细节的特性设计了动静结合的微调方案。
具体来说研究者发现现有的 3D 数字人通用模型通常会将 3D 人脸的静态细节储存在一个 3D 人脸表征tri-plane中作为模型的输入而 3D 人脸的动态细节则通过模型内部的参数进行储存。因此MimicTalk 在个性化数字人渲染器的训练过程中不仅会更新储存静态细节的 3D 人脸表征还通过 LoRA 技术对通用模型的参数进行了可拆卸的高效微调。 图 2. 将通用 3D 数字人大模型适应到单个目标人动静结合的高效微调方案
在实现图像上与真人的高度相似后下一个问题是如何生成与真人说话风格相似的面部动作。传统方法通常会额外训练一个说话风格编码器但是由于模型内部信息瓶颈的存在通常会性能损失。与之相比受启发大语言模型、语音合成等领域的启发MimicTalk 首次提出从上下文中学习目标人说话风格的训练范式。在训练阶段Flow Matching 模型通过语音轨道和部分未被遮挡的人脸动作轨道的信息对被遮挡的人脸动作进行去噪。在推理阶段给定任意音频 - 视频对作为说话人风格提示模型都能生成模仿该说话风格的人脸动作。 图 3. 能在上下文中学习目标人说话风格的人脸动作生成模型
模型的应用前景
总体来看MimicTalk 模型首次实现了高效率的个性化精品数字人视频合成。可以预见的是随着技术的不断迭代、普及在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 MimicTalk 算法个性化高质量数字人的训练成本被「打了下去」人们将会享受到更真实、更舒适的交互体验。随着各个领域的大模型技术的兴起拥抱大模型的超强能力并与垂直领域中的特殊场景、需求相结合已经成为了技术演进的大势所趋。而 MimicTalk 模型为后续基于数字人通用模型的个性化数字人算法研究工作提供了参考。但现阶段 MimicTalk 也并不是完美无缺的由于依赖通用大模型的结果作为初始化对基础模型的质量有较高的要求此外从推理效率上看与现有小模型还存在一定差距。
总而言之过去几年随着个性化数字人技术的不断进步口型精度、图像质量已然不断提高而 MimicTalk 模型的提出进一步解决了制约个性化数字人的训练成本问题。让我们一同期待虚拟人技术的加速发展用户也将获得更加极致的视觉体验和生活便利。
#Moirai-MoE
新视角设计下一代时序基础模型Salesforce推出Moirai-MoE
本文由 Salesforce、新加坡国立大学、香港科技大学广州共同完成。其中第一作者柳旭是 Salesforce 亚洲研究院实习生、新加坡国立大学计算机学院四年级博士生。通讯作者刘成昊是 Salesforce 亚洲研究院高级科学家。该工作的短文版本已被 NeurIPS 2024 Workshop on Time Series in the Age of Large Models 接收。
时间序列预测是人类理解物理世界变化的重要一环。自去年底以来时序预测领域正在经历重大转型从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。目前虽然有不少基础模型已经提出但如何有效地在高度多样化的时序数据上训练基础模型仍是一个开放问题。
近期来自 Salesforce、新加坡国立大学、香港科技大学广州的研究者以模型专家化这一全新视角作为抓手设计并提出了下一代时序预测基础模型 Moirai-MoE。该模型将模型专业化设计在 token 这一细粒度运行并且以完全自动的数据驱动模式对其赋能。模型性能方面不同于仅在少量数据集上进行评估的已有时序基础模型Moirai-MoE 在一共 39 个数据集上进行了广泛评估充分验证了其优越性。
论文标题Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts论文地址https://arxiv.org/abs/2410.10469代码仓库https://github.com/SalesforceAIResearch/uni2ts
研究动机
训练通用基础模型的一大挑战在于适应时间序列数据的高度异质性这种时序数据的独特特性凸显了设计专业化模块的必要性。现有的解决方案主要分为两种。第一种是通过基于语言的提示来识别数据源从而实现非常粗粒度的数据集级别模型专业化。第二种方案利用了时序数据的频率这一元特征实现了更细粒度的专业化该方法为特定频率设计单独的输入 / 输出投影层从而实现特定频率的模型专业化。
作者认为这种人为强加的频率级专业化缺乏普适性并引入了一些局限性。1频率并不总是一个可靠的指标无法有效地捕捉时序数据的真实结构。如下图所示具有不同频率的时间序列可以表现出相似的模式而具有相同频率的时间序列可能显示出多样且不相关的模式。这种人为强加的频率和模式之间的不匹配削弱了模型专业化的有效性从而导致性能下降。2现实世界的时间序列本质上是非平稳的即使在单个时间序列的短窗口内也会显示出不同的分布。显然频率级专业化的粒度无法捕捉这种程度的多样性这凸显了对更细粒度的建模方法的需求。 为了解决上述问题作者提出了全新的时间序列统一训练解决方案 Moirai-MoE其核心思想是利用单个输入 / 输出投影层同时将各种时间序列模式的建模委托给 Transformer 层中的稀疏混合专家。通过这些设计Moirai-MoE 的专业化以数据驱动的方式实现并在 token 级别运行。
基于稀疏混合专家的时序基础模型
Moirai-MoE 构建在它的前序工作 Moirai 之上。虽然 Moirai-MoE 继承了 Moirai 的许多优点但其主要改进在于Moirai-MoE 不使用多个启发式定义的输入 / 输出投影层来对具有不同频率的时间序列进行建模而是使用单个输入 / 输出投影层同时将捕获不同时间序列模式的任务委托给 Transformer 中的稀疏混合专家。此外Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块。 1. 时序 Token 构造
Moirai-MoE 采用切块patching技术将时间序列输入切成没有重叠的小块而后对小块进行标准化来缓解分布迁移的问题。为了在自回归模型中获取准确、鲁棒的标准化统计值作者引入掩蔽率 r 作为超参数它指定整个序列中专门用于正则化器计算的部分不对这些 patch 计算预测损失。最后一个输入投影层来负责把 patch 投影到和 Transformer 一样的维度生成时序 token。
2. 稀疏混合专家 Transformer
通过用 MoE 层替换 Transformer 的每个 FFN 来建立专家混合层。该 MoE 层由 M 个专家网络和一个门控函数 G 组成。每个 token 只激活一个专家子集从而允许专家专注于不同模式的时间序列数据并确保计算效率。在 Moirai-MoE 中作者探索了不同的门控函数。首先使用的是最流行的线性投影门控函数它通过一个线性层来生成专家子集的分配结果。此外作者提出了一种新的门控机制利用从预训练模型的 token 表示中得出的聚类中心来指导专家分配。这一方法的动机是与随机初始化的线性投影层相比预训练 token 表示的聚类更接近数据的真实分布可以更有效地实现模型专业化。
3. 训练目标
为了同时支持点预测和概率预测两种预测模式Moirai-MoE 的训练目标设定为优化未来混合分布的对数似然函数。
实验效果
作者在 39 个数据集上的进行了广泛测试评估来验证 Moirai-MoE 的有效性。 上图展示了在 Monash 基准中 29 个数据集上进行的分布内预测评估。结果表明Moirai-MoE 击败了所有竞争对手。相比前序工作 MoiraiMoirai-MoE 的提升幅度达到了 19%。与 Moirai 无法超越的基础模型 Chronos 相比Moirai-MoE 成功弥补了差距并相比它少 65 倍激活参数这带来了巨大的推理速度的优势。 上表展示了在零样本预测设定时Moirai-MoE 在 10 个数据集上的点预测和概率预测的表现。Moirai-MoE-Base 取得了最佳的零样本性能甚至超越了 Google 的 TimesFM 和 Amazon 的 Chronos他们在预训练语料库中已包含了部分评估数据因此存在数据泄露。与所有规模的 Moirai 相比Moirai-MoE-Small 在 CRPS 方面提高了 3%-14%在 MASE 方面提高了 8%-16%。考虑到 Moirai-MoE-Small 只有 11M 激活参数比 Moirai-Large 少 28 倍这些进步是非常显著的。 在这篇研究中作者还对时序 MoE 基础模型的内部工作机制进行了首次探索。上图是对 Moirai-MoE 的专家分配分布进行的可视化。基于此作者总结了以下观点
1. 在浅层中不同频率的数据在专家选择的分布上呈现多样化。随着层数的加深模型将重点转移到更通用的时间依赖性例如更广泛的趋势和长期模式这些依赖性可以在不同频率之间共享。到最后一层第 6 层专家分配在所有频率上变得几乎相同表明模型已将时间序列抽象为与频率基本无关的高级表示。这一证据表明 Moirai-MoE 学习到了频率不变的隐层表示这对于模型泛化至关重要。
2. 随着层数增加专家选择逐渐收敛的行为与 Large Language Models 中观察到的模式完全相反。这种分歧可能源于时间序列 token 的动态和噪声特性它们是由小时间窗口生成的不像从固定词汇表中派生的语言 token。研究结果表明随着层数增加模型实际上是在进行逐步去噪过程。这一观察结果与 GPT4TS 的结论一致随着层深度增加token 会被投影到输入的低维顶部特征向量空间中。
更多实验结果可参考原论文。 #ChatGPT正式成为AI搜索
免费可用 时代变了最强 AI 加持搜索引擎问世没有广告。 终于等来这一天。
自今天起ChatGPT 正式成为一款 AI 搜索引擎了 北京时间 11 月 1 日凌晨在 ChatGPT 两岁生日之际OpenAI 宣布为 ChatGPT 推出了最新的人工智能搜索体验。
ChatGPT search 的推出正式宣告 ChatGPT 消除了即时信息这一最后短板。现在人们与全球最先进 AI 大模型聊天时也可以通过网络资源链接快速、及时地获取答案了。
即日起付费订阅者以及 SearchGPT 候补名单上的用户将获得可联网的实时对话信息能力免费用户、企业用户和教育用户也将在未来几周内陆续获得访问权限。 该功能覆盖 ChatGPT 的网页版以及手机、桌面应用。在正常的对话时ChatGPT 可以根据具体需求决定何时利用网络中的搜索结果当然用户也可以主动触发网络搜索。
显然新功能已经测试已久上线是一瞬间的很多人已经用起来了。可以看到ChatGPT 搜索的天气、股市、地图等小组件齐全是个完整版搜索引擎的样子 当然搜索结果中引用的网络链接也一个都不会少 你也可以根据 AI 搜索结果里的一堆链接直接让 ChatGPT 直接生成一份详细的摘要。或是顺着搜索结果继续追问总而言之ChatGPT 和搜索功能是完全一体化的。
看起来很美好的样子网友们一致表示欢迎同时为谷歌和 Perplexity 担忧一秒钟。 在 HackerNews 上有人则表示传统搜索引擎如今的问题在于输出很多不相关结果大量垃圾信息 SEO 操纵的标题党内容大模型也面临着幻觉问题。
但如果用大模型的智力来尝试过滤网络中的无用信息或许搜索引擎的体验就会变得焕然一新。
为给出更好的答案而设计
从 OpenAI 对 ChatGPT 搜索的介绍中我们看到了 AI 技术朝着这个方向努力的一点端倪。
在网上找到有用的答案并非易事。往往需要多次搜索并沿着链接挖掘以找到高质量信息源和正确信息。
现在聊天就能得到更好的答案用更自然的对话式方式提问ChatGPT 可以选择使用网络上的信息进行回复。如果更深入地追问则 ChatGPT 还能根据聊天的完整上下文来提供更好的答案。 为了补充最新的信息OpenAI 表示已经与一些新闻和数据提供商达成了合作关系并且还会为天气、股票、体育运动、新闻和地图等不同类别使用新的视觉设计。 Vox Media 总裁 Pam Wasserstein 表示「ChatGPT 搜索有望更好地突显和归因来自可靠新闻来源的信息使用户受益同时扩大像我们这样的优质新闻发行商的影响力。」
ChatGPT 的聊天现在包含新闻文章和博客文章等来源的链接方便用户了解更多信息。单击搜索答案下方的「来源」按钮可打开包含参考文献的侧边栏。 OpenAI 表示ChatGPT 搜索让网络上原创、高质量的内容成为与人类对话的一部分。通过将搜索与聊天界面集成用户可以以新的方式接触信息而内容所有者则获得了接触更广泛受众的新机会。
从人们初步的使用效果看来确实是相当的方便比如搜个最近的 AI 新闻结果会是这样的 为什么我要用 ChatGPT 代替谷歌、Bing一个重要的理由可能是没有广告。OpenAI 明确表示目前没有计划在 ChatGPT 中投放广告。
奥特曼说了你一用就回不去了。 不过人工智能搜索的运营成本比传统搜索显然更高目前还不清楚 OpenAI 将如何在巨量的免费搜索上实现收支平衡。可以确定的是免费用户「使用最新搜索模型的频率将受到一些限制」。
如何运作
搜索能力更新之前ChatGPT 拥有的知识局限于大模型的训练数据仅限于 2021 年至 2023 年之间。
OpenAI 表示该搜索模型是 GPT-4o 的微调版本使用新颖的合成数据生成技术进行后训练包括从 o1-preview 中提取输出。ChatGPT 搜索利用第三方搜索提供商以及 OpenAI 的合作伙伴直接提供的内容来提供用户正在寻找的信息。
据外媒报道为了构建 AI 搜索引擎OpenAI 还在积极挖走谷歌员工加入自己的搜索团队。
得益于 SearchGPT 原型的反馈OpenAI 将 SearchGPT 的最佳体验引入 ChatGPT。OpenAI 表示还将不断改进搜索特别是在购物和旅行等领域并利用 OpenAI o1 系列的推理能力进行更深入的研究。OpenAI 还计划在未来将新的搜索体验引入高级语音和 canvas。
OpenAI 发言人 Niko Felix 表示即使实时搜索已经大幅提升了使用体验但公司仍将继续更新大模型的数据以「确保用户始终能够获得最新的进展」但这又与模型的训练「不同」。
OpenAI AMA 精选
在宣布发布 ChatGPT 搜索后不久OpenAI 还在 Reddit 上进行了 AMA 问答下面是我们精选的一些问答可帮助读者了解官方公告中没有的细节。 问ChatGPT-5 或其等价 AI 何时发布
Sam AltmanOpenAI CEO今年晚些时候我们会发布一些非常好的产品不过我们不会称之为 gpt-5。
问你们何时发布新的文生图模型Dalle 3 有点过时了。
Sam Altman下一次更新值得等待但我们还没有发布计划。
问你会使用 ChatGPT 回答这些问题吗
Sam Altman有时候会你能分辨吗
问AGI 是否可用已知的硬件实现还是需要一些完全不同的东西
Sam Altman我们相信使用当前的硬件就能实现。
问近年来OpenAI 从更加开源的方式转向了更加封闭的模式。你能详细解释一下这种变化背后的原因吗你如何权衡开放性与广泛使用的先进 AI 技术带来的潜在风险之间的利弊从长远来看强大的模型最终落入坏人之手是不可避免的吗
Sam Altman我认为开源在生态系统中发挥着重要作用世界上有很多很棒的开源模型。我们还认为强大且易于使用的 API 和服务也在世界上发挥着重要作用并且考虑到我们的优势我们发现了一种更简单的方法来达到我们想要达到的安全阈值。我们非常自豪人们能从我们的服务中获得价值。我希望我们将来能开源更多的东西。
问o1 完整版何时发布
Kevin WeilOpenAI CPO / 首席产品官 问ChatGPT 最终能独立执行任务吗比如先给你发消息
Kevin Weil我觉得这将是 2025 年的热门主题。
问我的问题是 SearchGPT 与流行搜索引擎相比的价值。SearchGPT 有哪些独特优势或关键差异化因素值得普通搜索引擎用户选择
Sam Altman对于许多查询我发现为了获取我正在寻找的信息它是一种更快 / 更容易的方式。我认为我们会看到这一点特别是对于需要更复杂研究的查询。我也期待未来搜索查询可以在响应中动态地呈现自定义网页
问对那些有志为 AI 革命做出贡献的年轻人你们有什么建议吗
Kevin Weil首先每天开始使用 AI。用它来学习东西学习你想学的任何东西 —— 编程、写作、产品、设计任何东西。如果你能比别人学得更快那么你就能做任何事情。
Srinivas NarayananOpenAI 工程开发副总裁使用 AI 工具来提高你日常工作的生产力 —— 这将带来有趣的想法。然后构建一些有趣的东西并与他人分享。
问Sora 推迟的原因是推理所需的计算量 / 时间还是安全原因
Kevin Weil需要完善模型需要正确处理安全性 / 假冒他人问题 / 其他事项也需要扩大计算规模
问什么时候发布 AVM高级语音模式的视觉版为什么 GPT-5 花了这么长时间完整的 o1 如何了
Sam Altman我们正在优先考虑推出 o1 及其后续产品。所有这些模型都变得相当复杂我们无法像我们希望的那样同时推出那么多产品。关于将计算分配给哪些好想法我们还面临许多限制和艰难的决定。尚未确定 AVM 视觉版的日期。
问你们是否计划降低高级语音的 API 成本
Kevin Weil两年来我们一直在降低 API 成本 —— 我认为 GPT 4o-mini 的成本大约只有原始 GPT-3 的 2%。预计语音和其他功能将继续保持这种趋势
问你们的模型名字能起好一点吗
Kevin Weilno
问你们将何时为 ChatGPT 发布相机模式
Srinivas Narayanan正在研究。目前没有确切日期。
问o1 何时支持图片输入
Kevin Weil我们关注的重心是先向世界发布而不是等待其功能齐全。o1 将会支持图像输入总体而言o 系列模型将在未来几个月内获得诸如多模态、工具使用等功能。
问为了实现思维链或多层思维树OpenAI 认为降低推理成本的速度有多快
Srinivas Narayanan我们预计推理成本将继续下降。如果你看看去年的趋势就会发现它下降了大约 10 倍。
问到目前为止你见过的 ChatGPT 的最佳用例是什么你认为它和它的未来版本未来几年可能特别适用于哪些领域
Sam Altman有很多好用例但有一个用例很棒人们找出使人衰弱的疾病的病因然后完全治愈了它。适用的领域也有很多但 AI 作为一名真正优秀的软件工程师的能力仍然被人低估。更普遍地说帮助科学家更快地发现新知识的能力将会非常棒。
问会支持 NSFW 内容吗
Sam Altman我们完全相信要像对待成年人一样对待成年用户。但要做到这一点需要做大量的工作而且现在我们有更紧迫的任务。希望有一天能做到这一点
问给 Sam Altman 的问题你是草莓人吗
Sam Altman
问GPT 产品线的下一个突破是什么有预期时间线吗
Sam Altman我们将会拥有越来越好的模型但我认为下一个巨大突破将会是智能体。
问相比于 o1-preview完整版 o1 有明显提升吗
Srinivas Narayananyes
问对 2025 年有什么大胆预测
Sam Altman填满所有基准。 谷歌五分钟就反击了
OpenAI 推出 AI 搜索业务显然触及到了搜索巨头谷歌的核心利益。
不知是否是出于巧合几乎就在 OpenAI 宣布推出 ChatGPT 搜索的同时谷歌也宣布了自家的 AI 搜索功能。 谷歌搜索新推出的 Grounding 功能已向 Gemini API 和 Google AI Studio 用户提供让他们可以在使用 Gemini 时从谷歌搜索获取实时、新鲜、最新的信息。
这场 AI 搜索大战才刚刚开始。
参考内容
https://openai.com/index/introducing-chatgpt-search/
https://www.theverge.com/2024/10/31/24283906/openai-chatgpt-live-web-search-searchgpt
https://www.reddit.com/r/ChatGPT/comments/1ggixzy/ama_with_openais_sam_altman_kevin_weil_srinivas/
https://news.ycombinator.com/item?id42008569
https://x.com/OfficialLoganK/status/1852032947714510860 #新研究揭示LLM特征的惊人几何结构
AI自己「长出」了类似大脑的「脑叶」 大型语言模型在学习概念时竟然会形成令人惊讶的几何结构比如代码和数学特征会形成一个「叶lobe」类似于我们在做磁共振功能成像时看到的大脑功能性脑叶。这说明什么呢 论文通讯作者、MIT 物理学教授 Max Tegmark 的推文。值得注意的是Max Tegmark 也是著名的 KAN 论文的作者之一是 KAN 论文一作 ZimingLiu 的导师。
在过去的一年学术界在理解大型语言模型如何工作方面取得了突破性进展稀疏自编码器SAE在其激活空间中发现了大量可解释为概念的点「特征」。最近此类 SAE 点云已公开发布因此研究其在不同尺度上的结构正当其时。
最近来自 MIT 的一个团队公布了他们的研究成果。 论文标题The Geometry of Concepts: Sparse Autoencoder Feature Structure论文链接https://arxiv.org/pdf/2410.19750
具体来说他们发现 SAE 特征的概念宇宙在三个层面上具有有趣的结构
第一个是「原子」小尺度层面。在这个层面上作者发现 SAE 特征的概念宇宙包含「晶体」结构这些晶体的面是平行四边形或梯形这泛化了众所周知的例子如 (man:woman::king:queen)。他们还发现当排除全局干扰方向如单词长度时这类平行四边形和相关功能向量的质量大大提高这可以通过线性判别分析有效地完成。 第二个是「大脑」中等尺度层面。在这个层面作者发现 SAE 特征的概念宇宙具有显著的空间模块性。例如数学和代码特征会形成一个「叶lobe」类似于我们在做神经磁共振功能成像时看到的大脑功能性叶如听觉皮层。作者用多个度量来量化这些叶的空间局部性并发现在足够粗略的尺度上共现特征co-occurring feature的聚类在空间上也聚集在一起远远超过了特征几何是随机的情况下的预期。 第三个是「星系」大尺度层面。在这个层面上作者发现 SAE 特征点云的结构不是各向同性的而是呈现出一种特征值的幂律分布并且在中间层的斜率最陡。此外他们还量化了聚类熵如何随层数的变化而变化。 这项研究吸引了不少研究者的注意。有人评论说AI 系统在处理信息时自然地发展出几何和分形结构而这些结构与生物大脑中的结构相似。这一现象表明数学上的组织模式可能是自然界的基本特性而不仅仅是人类的认知构造。 也有人提出了一些不同观点认为这种结构可能更多是源于 AI 模型从人类数据中学习的结果而不是一种完全独立的自然特性。反驳者认为由于人类也是一种生物神经网络当大规模 AI 系统基于小规模神经网络的输入数据进行训练时它们自然而然地会接近这种结构模式因此 AI 模型的结构并非完全出乎意料。反驳者还提出了一个有趣的设想如果 AI 模型在完全不包含人类数据的「外星」数据集上进行训练那么模型的组织结构可能会有很大的不同 —— 尽管模型仍然可能会产生聚类和分组的结构以有效处理复杂信息但实际的概念和结构可能会和人类的完全不同。 论文作者表示他们希望这些发现有助于大家深入理解 SAE 特征和大型语言模型的工作原理。他们也会在未来继续研究以了解为什么其中一些结构会出现。 以下是论文的详细信息。
「原子」尺度晶体结构
在这一部分中作者寻找他们所说的 SAE 特征点云中的晶体结构。这里的结构指的是反映概念之间语义关系的几何结构它泛化了a, b, c, dman,woman,king,queen形成近似平行四边形的经典例子其中 b − a ≈ d − c。这可以用两个功能向量 b − a 和 c − a 来解释分别将男性实体转为女性将普通人转为皇室成员。他们还寻找只有一对平行边 b - a ∝ d - c 的梯形只对应一个功能向量图 1右展示了这样一个例子其中a, b, c, dAustria, Vienna, Switzerland, Bern这里的功能向量可以被解释为将国家映射到它们的首都。 作者通过计算所有成对差分向量并对其进行聚类来寻找晶体这应该会产生一个对应于每个功能向量的聚类。一个聚类中的任意一对差分向量应该形成一个梯形或平行四边形这取决于差分向量在聚类前是否被归一化或者是否通过欧氏距离或余弦相似性来量化两个差分向量之间的相似性。
作者最初搜索 SAE 晶体时发现的大多是噪声。为了探究原因他们将注意力集中在第 0 层token 嵌入和第 1 层那里许多 SAE 特征对应于单个词汇。然后他们研究了 Gemma2-2b 残差流激活这些激活是针对之前报告的来自 Todd 等人 (Todd et al., 2023) 数据集中的 word-word 功能向量这澄清了问题。图 1 说明了候选晶体四元组通常远非平行四边形或梯形。这与多篇论文指出的man, woman, king, queen也不是一个准确的平行四边形是一致的。
作者发现导致这一问题的原因是存在他们所说的干扰特征。例如他们发现图 1右中的水平轴主要对应于单词长度图 10这在语义上是不相关的并且对梯形左造成了破坏因为「Switzerland」比其他单词长得多。 为了消除这些语义上不相关的干扰向量他们希望将数据投影到一个与它们正交的低维子空间上。对于 (Todd et al., 2023) 数据集他们使用线性判别分析LDA来实现这一点它将数据投影到信号 - 噪声的特征模式上其中「信号」和「噪声」分别定义为聚类间变化和聚类内变化的协方差矩阵。图 1 显示这极大地提高了聚类和梯形图 / 平行四边形的质量突出表明干扰特征可能会隐藏现有的晶体。
「大脑」尺度中尺度模块性结构
现在放大视野寻找更大规模的结构。具体来说作者研究了功能相似的 SAE 特征组倾向于一起激活是否在几何上也是相似的从而在激活空间中形成「叶」。
在动物大脑中这些功能组是众所周知的神经元所在 3D 空间中的聚类。例如布洛卡区参与语言产生听觉皮层处理声音而杏仁体主要与情绪处理相关。作者好奇是否能在 SAE 特征空间中找到类似的功能模块性。
作者测试了多种自动发现此类功能「叶」以及量化它们是否具有空间模块性的方法。他们将叶分区定义为将点云分割为 k 个子集「叶」这些子集的计算不依赖于位置信息。相反他们识别这些叶的依据是它们在功能上的相关性具体来说就是在一个文档中趋向于共同激活。
为了自动识别功能叶作者首先计算 SAE 特征共现的直方图。他们使用 gemma-2-2b并将 The Pile Gao et al. (2020) 中的文档传递给它。在这一部分他们将报告第 12 层残差流 SAE 的结果该层有 16k 个特征平均 L0 为 41。
对于这个 SAE他们记录了激活的特征如果其隐藏激活 1他们认为一个特征被激活。如果两个特征在 256 个 token 组成的同一个块内被激活则它们就被视为共现 —— 这个长度提供了一个粗略的「时间分辨率」使他们能够找到在同一文档中倾向于一起激活的 token。他们使用 1024 的最大上下文长度并且每个文档只使用一个这样的上下文因此每篇 The Pile 文档最多只能有 4 个块和直方图更新。他们计算了 50k 个文档的直方图。给定这个直方图他们基于它们的共现统计计算每对 SAE 特征之间的亲和度affinity并对得到的亲和度矩阵进行谱聚类。
作者尝试了以下基于共现的亲和概念简单匹配系数、Jaccard 相似性、Dice 系数、重叠系数和 Phi 系数所有这些都可以仅从共现直方图计算得出。
作者的 null 假设是功能相似的点通常共现的 SAE 特征在激活空间中均匀分布没有空间模块性。相反图 2 显示了看起来相当空间局部化的叶。为了量化这一点在统计上的重要性作者使用两种方法来排除 null 假设。 1、虽然我们可以根据它们是否共现来聚类特征但也可以根据 SAE 特征解码向量之间的余弦相似度执行谱聚类。给定一个使用余弦相似度的 SAE 特征聚类和一个使用共现的聚类计算这两组标签之间的互信息。从某种意义上说这直接衡量了人们从了解功能结构中获得的几何结构的信息量。
2、另一个概念上简单的方法是训练模型从其几何形状预测一个特征所在的功能叶。为此作者从基于共现的聚类中获取一组给定的叶标签并训练一个 logistic 回归模型直接从点位置预测这些标签采用 80-20 的训练 - 测试比例并报告该分类器的平衡测试准确率。
图 3 显示在这两种测量方法中Phi 系数胜出在功能叶和特征几何之间实现了最佳对应。为了证明这一点具有统计学意义作者从基于余弦相似性的聚类中随机排列聚类标签并测量调整后的互信息。他们还从随机高斯中随机重新初始化 SAE 特征解码器方向并归一化然后训练 logistic 回归模型从这些特征方向预测功能叶。图 3下显示这两个测试都以高显著性排除了 null 假设标准差分别为 954 和 74这清楚地表明作者看到的叶是真实的而不是统计上的偶然。 为了评估每个叶专门做什么作者通过 gemma-2-2b 运行来自 The Pile 的 10k 个文档并再次记录第 12 层的哪些 SAE 特征在 256 个 token 组成的块内激活。对于每个 token 块他们记录哪个叶有最高比例的特征激活。
作者在图 4 中展示了三个叶的结果这些结果是使用 Phi 系数作为共现度量的这构成了图 2 中叶标记的基础。 图 5 比较了五种不同的共现度量的效果。尽管作者发现 Phi 是最好的但所有五种都发现了「代码 / 数学叶」。 「星系」尺度大规模点云结构
在本节中作者进一步放大视野研究点云的「星系」尺度结构主要是其整体形状和聚类类似于天文学家研究星系形状和亚结构的方式。
作者试图排除的简单 null 假设是点云仅仅是从一个各向同性的多元高斯分布中抽取的。图 6 从视觉上直观地表明点云的形状并不仅仅是圆形即使在其前三个主成分中一些主轴也比其他的略宽类似于人脑。 形状分析
图 7左通过展示点云协方差矩阵的特征值递减来量化这一点揭示它们并不恒定而是似乎按照幂律下降。为了测试这种令人惊讶的幂律是否显著该图将其与从各向同性高斯分布中抽取的点云的相应特征值谱进行比较后者看起来更为平坦与分析预测一致多元高斯分布的 N 个随机向量的协方差矩阵遵循 Wishart 分布这在随机矩阵理论中得到了很好的研究。由于最小特征值的突然下降是由数据有限引起的并在 N → ∞的极限中消失作者将点云降维到其 100 个最大的主成分进行后续的所有分析。换句话说点云的形状像是一个「分形黄瓜」在连续的维度中宽度按照幂律下降。作者发现这种幂律缩放对于激活来说明显不如对于 SAE 特征那么突出进一步研究其起源将很有趣。 图 7右显示了上述幂律斜率如何取决于 LLM 层计算方法是对 100 个最大特征值进行线性回归。可以看到一个明显的模式即中间层具有最陡峭的幂律斜率第 12 层的斜率为 - 0.47而前面和后面的层如第 0 层和第 24 层的斜率较浅分别为 - 0.24 和 - 0.25。这可能暗示了中间层起到了瓶颈的作用将信息压缩为较少的主成分或许是为了更有效地表示高层次抽象概念而进行的优化。图 7右还显示了有效云体积协方差矩阵的行列式如何依赖于层在对数尺度上。
聚类分析
星系或微观粒子的聚类通常以功率谱或相关函数来量化。对于论文中的高维数据来说这种方法比较复杂因为基本密度随半径变化对于高维高斯分布来说基本密度主要集中在一个相对较薄的球壳周围。因此作者通过估算点云采样分布的熵来量化聚类。他们使用 k-NN 方法从 SAE 特征点云估计熵 H计算如下 对于具有相同协方差矩阵的高斯分布熵计算为 图 8 显示了不同层的估计聚类熵。作者发现 SAE 点云特别在中间层有很强的聚类。 这项研究的结果非常有趣如果你有关于这篇论文的见解欢迎在评论区留言。
文章转载自: http://www.morning.pljdy.cn.gov.cn.pljdy.cn http://www.morning.lkkkf.cn.gov.cn.lkkkf.cn http://www.morning.blqmn.cn.gov.cn.blqmn.cn http://www.morning.crrjg.cn.gov.cn.crrjg.cn http://www.morning.cjrmf.cn.gov.cn.cjrmf.cn http://www.morning.cndxl.cn.gov.cn.cndxl.cn http://www.morning.lsgsn.cn.gov.cn.lsgsn.cn http://www.morning.wdqhg.cn.gov.cn.wdqhg.cn http://www.morning.tfei69.cn.gov.cn.tfei69.cn http://www.morning.wpjst.cn.gov.cn.wpjst.cn http://www.morning.phnbd.cn.gov.cn.phnbd.cn http://www.morning.lqljj.cn.gov.cn.lqljj.cn http://www.morning.kcfnp.cn.gov.cn.kcfnp.cn http://www.morning.dzzjq.cn.gov.cn.dzzjq.cn http://www.morning.rzysq.cn.gov.cn.rzysq.cn http://www.morning.lveyue.com.gov.cn.lveyue.com http://www.morning.trsmb.cn.gov.cn.trsmb.cn http://www.morning.phechi.com.gov.cn.phechi.com http://www.morning.wjyyg.cn.gov.cn.wjyyg.cn http://www.morning.ccyns.cn.gov.cn.ccyns.cn http://www.morning.jklns.cn.gov.cn.jklns.cn http://www.morning.zzjpy.cn.gov.cn.zzjpy.cn http://www.morning.fwlch.cn.gov.cn.fwlch.cn http://www.morning.phjny.cn.gov.cn.phjny.cn http://www.morning.deanzhu.com.gov.cn.deanzhu.com http://www.morning.sxmbk.cn.gov.cn.sxmbk.cn http://www.morning.qykxj.cn.gov.cn.qykxj.cn http://www.morning.kmqjx.cn.gov.cn.kmqjx.cn http://www.morning.kxwsn.cn.gov.cn.kxwsn.cn http://www.morning.hjssh.cn.gov.cn.hjssh.cn http://www.morning.ktlfb.cn.gov.cn.ktlfb.cn http://www.morning.smwlr.cn.gov.cn.smwlr.cn http://www.morning.jrtjc.cn.gov.cn.jrtjc.cn http://www.morning.sgbsr.cn.gov.cn.sgbsr.cn http://www.morning.wjlkz.cn.gov.cn.wjlkz.cn http://www.morning.lpsjs.com.gov.cn.lpsjs.com http://www.morning.wmmtl.cn.gov.cn.wmmtl.cn http://www.morning.yjprj.cn.gov.cn.yjprj.cn http://www.morning.ghxkm.cn.gov.cn.ghxkm.cn http://www.morning.tkhyk.cn.gov.cn.tkhyk.cn http://www.morning.czgfn.cn.gov.cn.czgfn.cn http://www.morning.jrwbl.cn.gov.cn.jrwbl.cn http://www.morning.bdzps.cn.gov.cn.bdzps.cn http://www.morning.pqsys.cn.gov.cn.pqsys.cn http://www.morning.mprky.cn.gov.cn.mprky.cn http://www.morning.rhpgk.cn.gov.cn.rhpgk.cn http://www.morning.fhrt.cn.gov.cn.fhrt.cn http://www.morning.bpwfr.cn.gov.cn.bpwfr.cn http://www.morning.srckl.cn.gov.cn.srckl.cn http://www.morning.jxtbr.cn.gov.cn.jxtbr.cn http://www.morning.yxbrn.cn.gov.cn.yxbrn.cn http://www.morning.rxlk.cn.gov.cn.rxlk.cn http://www.morning.mlbdr.cn.gov.cn.mlbdr.cn http://www.morning.dppfh.cn.gov.cn.dppfh.cn http://www.morning.zglrl.cn.gov.cn.zglrl.cn http://www.morning.yrjkp.cn.gov.cn.yrjkp.cn http://www.morning.sgbsr.cn.gov.cn.sgbsr.cn http://www.morning.jgcyn.cn.gov.cn.jgcyn.cn http://www.morning.ychrn.cn.gov.cn.ychrn.cn http://www.morning.crrjg.cn.gov.cn.crrjg.cn http://www.morning.brkrt.cn.gov.cn.brkrt.cn http://www.morning.ktxd.cn.gov.cn.ktxd.cn http://www.morning.lfbsd.cn.gov.cn.lfbsd.cn http://www.morning.tdscl.cn.gov.cn.tdscl.cn http://www.morning.dyxzn.cn.gov.cn.dyxzn.cn http://www.morning.dkqbc.cn.gov.cn.dkqbc.cn http://www.morning.fpyll.cn.gov.cn.fpyll.cn http://www.morning.hcqd.cn.gov.cn.hcqd.cn http://www.morning.xwbwm.cn.gov.cn.xwbwm.cn http://www.morning.rycbz.cn.gov.cn.rycbz.cn http://www.morning.nnmnz.cn.gov.cn.nnmnz.cn http://www.morning.pyxtn.cn.gov.cn.pyxtn.cn http://www.morning.xcbnc.cn.gov.cn.xcbnc.cn http://www.morning.mmhyx.cn.gov.cn.mmhyx.cn http://www.morning.lbggk.cn.gov.cn.lbggk.cn http://www.morning.qmbtn.cn.gov.cn.qmbtn.cn http://www.morning.kpzrf.cn.gov.cn.kpzrf.cn http://www.morning.bby45.cn.gov.cn.bby45.cn http://www.morning.fwqgy.cn.gov.cn.fwqgy.cn http://www.morning.fqmbt.cn.gov.cn.fqmbt.cn