DeepSeek-V4-Flash 让 LLM 操控再次变得有趣

自从 Anthropic 推出 Golden Gate Claude 以来，我对“操控”（steering）一直充满兴趣：它通过直接修改模型运行过程中的激活值来引导输出。DeepSeek-V4-Flash 的出现让这一技术再次进入大众视野。

什么让 DeepSeek-V4-Flash 如此特别？

这个模型可能正是许多工程师期待的：一个本地模型，其能力足以与至少低端前沿模型的智能编码能力竞争。由于操控需要本地模型，现在许多工程师第一次有了实际尝试的机会。

antirez 最近的项目 DwarfStar 4 正是为此而生。它是一个精简版的 llama.cpp，专门运行 DeepSeek-V4-Flash，并且将操控作为一级功能内置。目前它还很初级（基本就是可以通过提示词复现的“冗长”玩具示例），但初始发布仅八天前。我计划密切关注这个项目。

操控的基本思想是从模型的内部大脑状态中提取一个概念（比如“回答简洁”），然后在推理过程中增强构成该概念的数值激活。

一种简单的方法是：对同一组一百个提示词运行两次模型，一次正常提示，一次附加“回答简洁”字样。然后测量每个提示对中模型激活值的差异（通过减去一个激活矩阵），得到“操控向量”。理论上，你可以将该向量添加到任何提示的同一激活层，获得相同效果（模型回答简洁）。

另一种更复杂的方法是训练第二个模型，从激活值中提取“特征”——即经常同时出现的行为模式。然后尝试将这些特征映射回具体概念，并以相同方式增强它们。这大致就是 Anthropic 使用稀疏自编码器所做的。它与朴素方法原理相同，但能捕捉更深层模式（代价是时间、计算和专业知识成本更高）。

操控听起来像作弊码。与其费力地构建训练集来将模型推向训练数据中“聪明”一端，为什么不直接找到模型大脑中的“聪明”旋钮并将其拧到最大？

它似乎是一种更高效的方式，可以绕过大量数据标注和强化学习，直接利用模型内部已经存在的知识。对于 DeepSeek-V4-Flash 这样的本地模型，这种技术变得触手可及，可能开启新的应用场景，比如在推理时动态调整模型风格或能力。