ThermoQA基准测试：评估大语言模型热力学推理能力

热力学推理能力评估新基准发布：ThermoQA

近日，研究人员推出了名为 ThermoQA 的基准测试，专门用于评估大型语言模型在工程热力学领域的推理能力。该基准包含 293个开放式问题，分为三个层级：属性查找（110题）、组件分析（101题）和完整循环分析（82题）。

研究团队对六款前沿大语言模型进行了三轮独立测试，综合排行榜显示：

跨层级性能下降明显：从属性查找到完整循环分析，模型性能普遍下降。下降幅度从Claude Opus的2.8个百分点到MiniMax的32.5个百分点不等。这表明单纯记忆属性数据并不等同于真正的热力学推理能力。

推理一致性成为新评估维度：通过多轮测试计算标准差（σ），模型的表现稳定性差异显著，范围从±0.1%到±2.5%。这为评估模型推理的可靠性提供了量化指标。

ThermoQA的发布填补了专业工程领域评估基准的空白。传统基准多关注通用知识或编程能力，而热力学这类需要复杂物理推理的领域长期缺乏系统评估工具。

数据集和代码已开源，为后续研究提供了可复现的基础。这有助于推动大语言模型在工程、物理等专业领域的应用落地，也为模型能力的细粒度评估提供了新思路。

随着AI向专业领域渗透，类似ThermoQA的专项基准将越来越重要。它不仅能够帮助开发者了解模型在特定领域的真实能力边界，还能为模型优化提供明确方向。热力学推理只是开始，未来可能会有更多工程、科学领域的专项评估基准出现，推动AI向更深层次的推理能力发展。