SheepNav
精选今天0 投票

开源大模型自动提取脑MRI报告结构化信息:LLaMA 3.1在荷兰语神经放射学中的表现

研究背景与目标

放射科报告中的自由文本包含大量临床信息,但传统手工提取效率低下,难以支撑大规模研究。大型语言模型(LLM)为自动结构化数据提取提供了新可能,然而在非英语环境、尤其是荷兰语神经放射学报告中的表现尚缺乏系统评估。

方法与数据

研究团队分析了947份脑部MRI报告,均来自一家三级记忆门诊(2016-2021年),由顾问神经放射科医生撰写。经过培训的医学生为每份报告标注了30个变量,其中100份报告由两人独立标注以评估标注一致性。模型方面,采用开源大模型LLaMA 3.1,测试了不同语言(荷兰语原文 vs 英语翻译)和少样本提示(few-shot prompting)策略,包括不同示例选择方法。

核心发现

视觉评分任务表现优异

LLaMA 3.1在零样本(zero-shot)设置下即展现出高准确率:

  • 内侧颞叶萎缩:左侧90%,右侧96%
  • 全脑皮质萎缩:87%
  • Fazekas评分(白质高信号):94%

病变检测准确度高

  • 微出血提及检测:93%准确率
  • 梗死提及检测:82%准确率
  • 病变位置文本相似度高达0.95

数值变量是难点

模型在提取微出血数量时准确率为80%,而梗死数量仅为66%。不过,通过少样本提示(基于结构相似性的示例选择),数值变量性能显著提升:微出血数量准确率升至92%,梗死数量升至81%

语言与提示策略

将荷兰语报告翻译为英语后再处理,结果与直接处理荷兰语相当。少样本提示对数值变量改善明显,但对位置相关变量仍存在挑战。

临床与科研意义

该研究表明,开源LLM(如LLaMA 3.1)在非英语神经放射学报告的信息提取中具有巨大潜力,尤其适用于视觉评分和病变检测等结构化字段。少样本提示能有效弥补数值提取的短板,但位置描述的细粒度提取仍需进一步优化。

对于记忆门诊等场景,自动提取萎缩评分、血管病变等信息可直接用于大规模队列研究临床决策支持系统,大幅降低人工成本。

局限与展望

当前模型对位置特异性变量(如具体脑区描述)的提取准确率不足,且样本来自单一中心,泛化性有待验证。未来可结合领域微调多模态融合(如报告+影像)进一步提升性能。

总之,这项研究为荷兰语医疗文本的自动化处理提供了重要基准,也验证了开源模型在低资源语言临床场景中的可行性。

延伸阅读

  1. Anthropic 发布 Claude Fable 5:史上最强通用模型,安全限制下 5% 会话触发降级
  2. 今日下载:全身返老还童药物与AI必知五件事
  3. Nextdoor 工程师如何借助 Codex 突破开发极限
查看原文