SheepNav
新上线今天0 投票

蛋白质-配体模型真的学会了结合位点,还是仅仅猜对了结合概率?新基准InteractBind揭示真相

蛋白质-配体建模是计算药物发现和分子设计的核心。现有基准大多通过二分类结合预测和亲和力回归来评估模型,但这些任务只能判断“是否结合”和“结合强弱”,无法揭示模型是否真正定位了结合位点或识别了非共价相互作用。为了填补这一空白,研究团队推出了 InteractBind——一个包含约10万对蛋白质-配体的大规模数据集,并配套了细粒度评估基准。

核心任务:结合位点定位

InteractBind的核心是结合位点定位任务。它利用蛋白质残基-配体原子相互作用图(涵盖六种主要非共价相互作用类型)来检验模型生成的相互作用图是否能准确指示结合位点。此外,数据集还提供了结合亲和力和蛋白质相似性控制的分割,以支持更真实的泛化能力评估。

八种模型评测:强结合预测,弱位点定位

研究团队对八种现有的序列基和交互感知模型进行了评估,包括二分类结合预测和结合位点定位。结果令人警醒:尽管这些模型在二分类结合预测上表现优异(即能较好地判断“是否结合”),但在结合位点定位任务上能力有限,且在不同非共价相互作用类型上表现差异显著。

意义与启示

InteractBind建立了一个新的基准范式,鼓励开发更具可解释性和物理基础的蛋白质-配体模型。该工作目前正在接受 NeurIPS 2026 的评估与数据集赛道评审。对于AI制药领域而言,这一基准提示我们:模型的高预测性能可能只是学会了结合概率的统计模式,而非真正理解了分子识别的物理机制。未来的模型需要在可解释性和物理合理性上做出更多努力。

延伸阅读

  1. LLM-AutoSciLab:大模型驱动的闭环科学发现框架,让AI主动实验探索未知
  2. 隐藏状态隐私存在“空中间”:高斯机制无法兼顾隐私与效用
  3. 迭代精炼神经算子:一种缓解频谱偏差的固定点求解新方法
查看原文