新上线今天0 投票
Haiku:三重模态对比学习模型,打通空间生物学与临床组织学
概述
近日,一项发表于 arXiv 的研究提出了 Haiku,一个创新的三重模态对比学习模型,旨在整合分子、形态与临床数据,为生物医学研究提供系统性框架。该模型基于 26.7 百万 个空间蛋白质组学图像块,来自 1,606 名患者 的 3,218 个组织切片,覆盖 11 种器官类型,并匹配了相应的 H&E 组织学图像与临床元数据。
核心能力
Haiku 的核心创新在于其三重模态对齐能力,将空间蛋白质组学、组织学形态和临床文本信息映射到共享嵌入空间,实现以下突破:
- 跨模态检索:支持三种模态间的相互检索。在 Recall@50 指标上达到 0.611,远超基线方法的近零水平。
- 下游任务提升:在生存预测任务中,C-index 达到 0.737,相对提升 7.91%;在零样本生物标志物推断中,平均 Pearson 相关系数为 0.718(覆盖 52 种生物标志物)。
- 反事实预测框架:通过固定组织形态、仅修改临床元数据,揭示与乳腺癌分期进展和肺癌生存结局相关的微环境特异性分子变化。例如,在肺腺癌案例中,反事实分析恢复了有利结局相关的特征:CD8 和颗粒酶 B 升高、PD-L1 降低、Ki67 降低。
技术细节
Haiku 采用三重模态对比学习,训练数据包括来自 mIF 图像的空间蛋白质组学补丁、匹配的 H&E 组织学图像以及结构化临床元数据。模型设计支持零样本生物标志物推断,即仅通过临床文本描述即可检索相关分子特征,无需额外标注。
行业影响
这项研究代表了空间生物学与临床组织学融合的重要进展。传统的单模态分析难以捕捉分子-形态-临床之间的复杂关联,而 Haiku 提供了一种可扩展的解决方案,有望推动精准医学中的生物标志物发现、疾病机制解析和治疗反应预测。
局限与展望
作者强调,反事实分析结果属于探索性、假设生成的信号,而非机制性结论。未来工作可进一步验证这些发现,并扩展至更多疾病类型和更大规模的数据集。