SheepNav
精选今天0 投票

StepPRM-RTL:用过程奖励模型指导大模型微调,提升RTL代码生成能力

背景与挑战

在数字硬件设计中,自动生成寄存器传输级(RTL)代码一直是AI辅助设计的热点与难点。与普通代码生成不同,RTL代码(如Verilog和VHDL)要求严格的时序正确性、多步依赖关系以及长程推理能力。现有的大语言模型(LLM)在短序列代码生成上表现不俗,但在涉及多模块交互、状态机设计等复杂场景时,往往因无法有效追踪中间逻辑而出现功能错误。

StepPRM-RTL 核心方法

针对上述问题,研究团队提出 StepPRM-RTL 框架,核心创新在于将**过程奖励模型(PRM)**引入RTL代码生成的微调流程。具体而言:

  1. 逐步轨迹建模:从标准解答中提取逐步推理轨迹,每一步包含“推理理由”和“增量代码修改”,让模型学会分步构建正确逻辑。
  2. 过程奖励模型(PRM):训练一个专门评估中间步骤质量的奖励模型,为每个推理步骤提供密集反馈信号,而非仅依赖最终结果的稀疏奖励。
  3. 检索增强微调(RAFT):结合PRM的反馈,对基础LLM进行强化学习风格的微调,使模型在训练中同时优化过程正确性与最终结果正确性。
  4. 蒙特卡洛树搜索(MCTS):在训练数据生成阶段,利用MCTS探索不同的推理路径,自动筛选出高质量的轨迹用于扩充训练集。

实验结果与行业意义

在标准Verilog和VHDL基准测试上,StepPRM-RTL相比此前最优方法,功能正确性和推理忠实度指标提升超过10%。消融实验证实,PRM引导的奖励机制与逐步轨迹探索的组合是性能提升的关键。

这项研究的意义在于:

  • 可解释性:过程奖励让模型的推理链条透明化,帮助设计者理解错误根源。
  • 跨语言泛化:框架不局限于单一RTL语言,可迁移至Verilog、VHDL乃至SystemVerilog等。
  • 硬件设计自动化新范式:将LLM从“代码补全工具”升级为“具备长程推理能力的协同设计助手”,有望缩短芯片设计周期、降低人工调试成本。

展望

随着RTL代码生成任务复杂度提升,单纯的结果监督已无法满足需求。StepPRM-RTL通过过程级监督与强化学习结合,为LLM在硬件设计领域的应用提供了新思路。未来,该方法或可扩展至更复杂的系统级设计、验证脚本生成等场景,推动AI辅助硬件设计进入新阶段。

延伸阅读

  1. 通用AI智能体能自动完成数据筛选吗?新基准Curation-Bench揭示潜力与局限
  2. VAMPS 基准测试:多模态大模型在“看图解题”上竟不如直接算?
  3. Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal
查看原文