蛋白质-配体模型能定位结合位点吗？InteractBind基准揭示真相

蛋白质-配体建模是计算药物发现和分子设计的核心。现有基准大多通过二分类结合预测和亲和力回归来评估模型，但这些任务只能判断“是否结合”和“结合强弱”，无法揭示模型是否真正定位了结合位点或识别了非共价相互作用。为了填补这一空白，研究团队推出了 InteractBind——一个包含约10万对蛋白质-配体的大规模数据集，并配套了细粒度评估基准。

核心任务：结合位点定位

InteractBind的核心是结合位点定位任务。它利用蛋白质残基-配体原子相互作用图（涵盖六种主要非共价相互作用类型）来检验模型生成的相互作用图是否能准确指示结合位点。此外，数据集还提供了结合亲和力和蛋白质相似性控制的分割，以支持更真实的泛化能力评估。

八种模型评测：强结合预测，弱位点定位

研究团队对八种现有的序列基和交互感知模型进行了评估，包括二分类结合预测和结合位点定位。结果令人警醒：尽管这些模型在二分类结合预测上表现优异（即能较好地判断“是否结合”），但在结合位点定位任务上能力有限，且在不同非共价相互作用类型上表现差异显著。

意义与启示

InteractBind建立了一个新的基准范式，鼓励开发更具可解释性和物理基础的蛋白质-配体模型。该工作目前正在接受 NeurIPS 2026 的评估与数据集赛道评审。对于AI制药领域而言，这一基准提示我们：模型的高预测性能可能只是学会了结合概率的统计模式，而非真正理解了分子识别的物理机制。未来的模型需要在可解释性和物理合理性上做出更多努力。

蛋白质-配体模型真的学会了结合位点，还是仅仅猜对了结合概率？新基准InteractBind揭示真相

核心任务：结合位点定位

八种模型评测：强结合预测，弱位点定位

意义与启示

延伸阅读

相关资讯