LLM神经解剖学II:现代大语言模型的黑客技术与通用语言线索?
引言:从Qwen2-72B的意外发现到现代模型的验证
2024年中,一篇名为《LLM神经解剖学》的研究在AI社区引发了广泛关注。作者通过一种名为RYS(Repeat Your Self)的方法,在Qwen2-72B模型中复制了中间七层(不改变权重、不进行训练),结果竟使该模型登顶HuggingFace Open LLM Leaderboard榜首。这一发现仅基于硬数学探针和EQ-Bench测试,在一对RTX 4090显卡上完成,挑战了传统模型优化的认知。
如今,随着Qwen3.5、MiniMax、GLM-4.7等一批强开源模型的涌现,作者终于获得了足够的计算资源进行更全面的扫描。本文的核心问题是:RYS是Qwen2-72B的偶然现象,还是Transformer架构的普遍属性?
实验设计与初步发现
为了回答这个问题,作者进行了大规模的系统性实验:
- 3,024个波束搜索候选:探索不同层重复配置的效果。
- 代理模型评分200万种配置:通过高效模拟预测性能。
- 统一验证扫描:确保结果的可比性和可靠性。
实验的短期答案是肯定的:层重复(relayering)在现代更强模型上依然有效。但更长的答案需要深入分析具体细节。
为什么选择Qwen3.5-27B作为研究对象?
作者选择了Qwen3.5-27B模型进行重点研究,原因有三:
- 社区实用性:Qwen3.5系列于2026年农历新年左右发布,迅速成为LocalLLaMA社区的热门选择。27B规模在性能和可访问性之间达到了平衡——足够大以展现有趣的内部结构,又足够小让拥有主流GPU的用户能够实际运行RYS变体。
- 科学验证价值:在较小模型中,功能解剖结构往往更“纠缠”,编码、推理和解码的分离不如大模型清晰。如果RYS在27B模型上依然有效,说明这种电路结构具有鲁棒性;如果无效,也同样具有研究意义。
- 扩展性:作者计划后续扫描MiniMax M2.5等其他模型,目前计算资源(基于双Grace-Hopper系统)正在持续运行中。
直接观察模型解剖结构
在优化工作之前,作者引入了一种新的观察方法。在Part 1中,三阶段假设(早期层编码、中间层推理、晚期层解码)是通过Base64观察和热图模式间接推断的。现在,作者能够更直接地可视化这些结构,为理解模型内部工作机制提供了新视角。
深层问题与未来方向
本文不仅验证了RYS方法的普适性,还提出了几个关键问题:
- 哪些修改真正值得额外的层? 并非所有层重复都能带来性能提升,需要精细识别有效模式。
- 如果两个好的模式独立有效,它们能否叠加? 这涉及到模型结构的组合优化。
- 这是否暗示了通用语言的存在? 标题中的“通用语言线索”指向一个更宏大的猜想:如果不同模型共享类似的功能解剖结构,可能意味着AI语言处理中存在某种普遍原则。
小结
这项研究展示了开源模型社区通过低成本实验推动前沿探索的潜力。RYS方法的成功不仅为模型优化提供了新工具,也加深了我们对Transformer内部工作机制的理解。随着更多模型的扫描和更深入的分析,我们或许能逐步揭开大语言模型“黑箱”的神秘面纱,甚至发现跨模型的通用语言处理规律。
作者已发布扫描代码和一系列新的RYS模型,鼓励社区参与验证和扩展。对于AI研究者和开发者而言,这既是技术挑战,也是探索智能本质的难得机会。