开源LLaMA 3.1自动提取脑MRI报告：荷兰语神经放射学表现

研究背景与目标

放射科报告中的自由文本包含大量临床信息，但传统手工提取效率低下，难以支撑大规模研究。大型语言模型（LLM）为自动结构化数据提取提供了新可能，然而在非英语环境、尤其是荷兰语神经放射学报告中的表现尚缺乏系统评估。

方法与数据

研究团队分析了947份脑部MRI报告，均来自一家三级记忆门诊（2016-2021年），由顾问神经放射科医生撰写。经过培训的医学生为每份报告标注了30个变量，其中100份报告由两人独立标注以评估标注一致性。模型方面，采用开源大模型LLaMA 3.1，测试了不同语言（荷兰语原文 vs 英语翻译）和少样本提示（few-shot prompting）策略，包括不同示例选择方法。

核心发现

视觉评分任务表现优异

LLaMA 3.1在零样本（zero-shot）设置下即展现出高准确率：

内侧颞叶萎缩：左侧90%，右侧96%
全脑皮质萎缩：87%
Fazekas评分（白质高信号）：94%

病变检测准确度高

微出血提及检测：93%准确率
梗死提及检测：82%准确率
病变位置文本相似度高达0.95

数值变量是难点

模型在提取微出血数量时准确率为80%，而梗死数量仅为66%。不过，通过少样本提示（基于结构相似性的示例选择），数值变量性能显著提升：微出血数量准确率升至92%，梗死数量升至81%。

语言与提示策略

将荷兰语报告翻译为英语后再处理，结果与直接处理荷兰语相当。少样本提示对数值变量改善明显，但对位置相关变量仍存在挑战。

临床与科研意义

该研究表明，开源LLM（如LLaMA 3.1）在非英语神经放射学报告的信息提取中具有巨大潜力，尤其适用于视觉评分和病变检测等结构化字段。少样本提示能有效弥补数值提取的短板，但位置描述的细粒度提取仍需进一步优化。

对于记忆门诊等场景，自动提取萎缩评分、血管病变等信息可直接用于大规模队列研究和临床决策支持系统，大幅降低人工成本。

局限与展望

当前模型对位置特异性变量（如具体脑区描述）的提取准确率不足，且样本来自单一中心，泛化性有待验证。未来可结合领域微调或多模态融合（如报告+影像）进一步提升性能。

总之，这项研究为荷兰语医疗文本的自动化处理提供了重要基准，也验证了开源模型在低资源语言临床场景中的可行性。

开源大模型自动提取脑MRI报告结构化信息：LLaMA 3.1在荷兰语神经放射学中的表现