开源大模型自动提取脑MRI报告结构化信息:LLaMA 3.1在荷兰语神经放射学中的表现
研究背景与目标
放射科报告中的自由文本包含大量临床信息,但传统手工提取效率低下,难以支撑大规模研究。大型语言模型(LLM)为自动结构化数据提取提供了新可能,然而在非英语环境、尤其是荷兰语神经放射学报告中的表现尚缺乏系统评估。
方法与数据
研究团队分析了947份脑部MRI报告,均来自一家三级记忆门诊(2016-2021年),由顾问神经放射科医生撰写。经过培训的医学生为每份报告标注了30个变量,其中100份报告由两人独立标注以评估标注一致性。模型方面,采用开源大模型LLaMA 3.1,测试了不同语言(荷兰语原文 vs 英语翻译)和少样本提示(few-shot prompting)策略,包括不同示例选择方法。
核心发现
视觉评分任务表现优异
LLaMA 3.1在零样本(zero-shot)设置下即展现出高准确率:
- 内侧颞叶萎缩:左侧90%,右侧96%
- 全脑皮质萎缩:87%
- Fazekas评分(白质高信号):94%
病变检测准确度高
- 微出血提及检测:93%准确率
- 梗死提及检测:82%准确率
- 病变位置文本相似度高达0.95
数值变量是难点
模型在提取微出血数量时准确率为80%,而梗死数量仅为66%。不过,通过少样本提示(基于结构相似性的示例选择),数值变量性能显著提升:微出血数量准确率升至92%,梗死数量升至81%。
语言与提示策略
将荷兰语报告翻译为英语后再处理,结果与直接处理荷兰语相当。少样本提示对数值变量改善明显,但对位置相关变量仍存在挑战。
临床与科研意义
该研究表明,开源LLM(如LLaMA 3.1)在非英语神经放射学报告的信息提取中具有巨大潜力,尤其适用于视觉评分和病变检测等结构化字段。少样本提示能有效弥补数值提取的短板,但位置描述的细粒度提取仍需进一步优化。
对于记忆门诊等场景,自动提取萎缩评分、血管病变等信息可直接用于大规模队列研究和临床决策支持系统,大幅降低人工成本。
局限与展望
当前模型对位置特异性变量(如具体脑区描述)的提取准确率不足,且样本来自单一中心,泛化性有待验证。未来可结合领域微调或多模态融合(如报告+影像)进一步提升性能。
总之,这项研究为荷兰语医疗文本的自动化处理提供了重要基准,也验证了开源模型在低资源语言临床场景中的可行性。