SheepNav

AI 工具发现

全网精选 · 每日自动更新

今日头条

查看更多
Text今天
HuggingFace

跳过一层还是循环它?LLM中的“层程序”学习

大型语言模型(LLM)通常以固定深度和顺序执行所有层,但最新研究揭示了另一种可能性:无需额外训练,预训练层可像模块一样被跳过或循环,为每个输入动态定制执行程序。来自马里兰大学等机构的研究团队在ICML 2026上发表的论文《Skip a Layer or Loop It? Learning Program-of-Layers in LLMs》中提出了**PoLar**(Program-of-Layers)方法,证明对于大多数输入,更短的执行路径就能达到甚至超越原始模型的准确率,而原始模型的错误预测有时也能通过更少层的替代程序得到纠正。 ## 核心发现:推理存在多条有效路径 传统LLM推理遵循固定层序,但PoLar发现,预训练模型中潜藏着多种有效的“程序化”执行方式。例如,对于简单问题,模型可能只需前几层就能给出正确答案,跳过后续层反而能避免噪声干扰。更令人惊讶的是,当原始完整推理给出错误结果时,一个跳过某些层或重复某些层的替代程序(使用更少层)却可能产生正确输出。这表明LLM的推理能力并非完全依赖于所有层的顺序执行,而是存在多条“潜伏”的计算路径。 ## 方法:轻量级预测网络动态调度 为了实现PoLar,研究者设计了一个轻量级的**PoLar预测网络**,它接收输入(如数学问题的嵌入),输出一个执行程序——即指示哪些层被跳过、哪些层被重复的指令序列。该预测网络本身很小,附加在原始LLM上,通过强化学习或监督学习(论文未明确具体训练方式,但提及“学习生成执行程序”)来优化。在数学推理基准(如GSM8K、MATH)上,PoLar不仅提升了准确率,还常常减少了平均执行层数,且在分布外数据上表现稳健。 ## 意义与启示 这项研究挑战了“固定深度推理”的默认假设。它暗示LLM的推理能力可能远未被充分利用——标准前向传播只是众多可能路径的一种。PoLar提供了一种**训练无关**的优化手段,即无需微调原始模型,仅通过动态调度即可提升性能。这对于资源受限的部署场景尤其有价值:在保持或提升精度的同时减少计算开销。 此外,PoLar的可解释性也值得关注:通过分析模型对哪些层跳过或循环,研究者或许能洞察不同层在推理中的角色。例如,某些层对特定类型的问题至关重要,而其他层则可能冗余。 ## 局限与展望 目前PoLar主要在数学推理任务上验证,其在更广泛任务(如文本生成、对话)上的表现尚待探索。此外,预测网络本身需要额外训练,虽然轻量,但仍需考虑训练成本。未来工作可能包括将PoLar扩展到更大模型(如GPT-4规模),或结合剪枝、蒸馏等技术进一步压缩。 总之,PoLar为LLM推理提供了一种全新的视角:**动态、可变深度的计算**,而非一刀切的固定流程。这或许是迈向更高效、更智能AI系统的重要一步。

2
ScreenshotCore

一键将URL转为截图、PDF和视频

访问
3
Dreambeans by Google Labs

每日AI故事,源自你的Google应用

访问
4
Wave

语音转文字,本地或云端任你选

访问
5
CabinLink

机舱Wi-Fi秒变飞行仪表盘

访问
6
Job Postings API

轻松查看、监测与分析180万+美国职位

访问
8
Alfa

你负责产品,我们带来流量。

访问
9
Wekraft

让GitHub成为你的工作空间

访问
10
Narrow

LinkedIn 超级收件箱

访问
11
EmailBuilder.in

免费无代码HTML邮件构建器,无限导出

访问
12
NAADI

公司税自动化,让会计师专注咨询

访问
13
Redirectly
访问
14
WAR MODE

将习惯变为任务,用纪律取代动机。

访问
16
Inventory for Cloudflare

一站式管理你的Cloudflare资源

访问
17
Kanini

本地优先的生产力与创意工具

访问
18
MADORI

专为Next.js和React打造的Statamic式CMS

访问
19
Caddie

会说话、会销售的智能笔记助手

访问
20
Reasoning.Services
访问
21
Acadlio

自动生成学生成绩报告单

访问
22
Tabical

滑动发现为你精选的城市计划

访问
24
Daisy

本地会议录音、转录与摘要,数据不出 Mac

访问
25
H3KV

Markdown子集与JS对象双向转换

访问
26
PodWalk: Guided Tours

随时随地,语音导览

访问
27
Desktop Zoo

桌面上的像素动物园

访问
28
Peek: Discover Events

发现并加入身边的热门活动

访问
29
BunkBuddy

逃课计算神器,一键算清出勤

访问
30
VibeBuild

一句话描述,自动生成可部署网页应用

访问