ToolSense诊断框架：揭示大模型工具知识真相

大型语言模型（LLM）作为智能体部署时，常需从海量工具目录中检索合适工具。传统嵌入检索依赖紧凑编码器，难以捕捉专业工具语义。参数化工具检索通过将每个工具编码为虚拟标记（virtual token）追加到LLM词表，经两阶段微调（记忆→检索监督微调）使模型自身充当检索器，在标准ToolBench基准上表现强劲。然而，这些基准使用详尽完整的查询，且采用约束解码限制输出路径，无法揭示模型是否真正理解工具。

为此，研究团队提出 ToolSense——一个开源LLM驱动诊断框架。该框架输入任意工具目录，自动生成三类基准：

现实检索基准（RRB）：包含三个模糊层级的查询
多项选择（MCQ）探测基准
问答（QA）探测基准

关键发现：知识与检索的割裂

将ToolSense应用于ToolBench（约4.7万工具），评估五种参数模型训练配置后，研究者发现了一个惊人现象——知识-检索分离。在RRB查询上，多个配置性能骤降约50-64个百分点，甚至低于嵌入模型基线。更值得关注的是，尽管某些模型在标准检索任务中表现优异，但在事实探测任务上得分接近随机水平，说明模型“知其然却不知其所以然”。

为何重要？

该研究揭示了当前参数化工具检索的深层问题：模型可能仅学会匹配模式而非理解工具功能，这在实际部署中可能引发严重错误。ToolSense框架为此提供了诊断工具，帮助开发者识别模型的真实能力边界。

开源与后续

研究团队已开源ToolSense框架及ToolBench诊断基准（链接见论文）。未来，这一框架有望成为评估LLM工具理解能力的标准工具，推动更可靠、更透明的智能体系统发展。

论文信息：arXiv:2606.12451，作者包括Ashutosh Hathidara等。

ToolSense：诊断框架揭秘大模型工具知识真相

关键发现：知识与检索的割裂

为何重要？

开源与后续

延伸阅读

相关资讯