大型语言模型(LLMs)的兴起为放射学工作流程带来变革机遇。基于Transformer架构的LLMs能够处理复杂序列数据,实现高级上下文理解。与传统模型不同,LLMs通过自监督学习和大规模预训练适应多模态数据,在放射学工作流程、协议规划、结构化报告生成等领域显示出应用价值。视觉语言模型整合文本与视觉数据,为诊断提供新途径,尽管在放射学领域的性能仍有提升空间。

研究显示,放射学中LLM研究报告存在显著异质性。一项系统综述分析了57篇相关文献,发现关键信息报告不一致:95%的研究指定了AI模型,但仅47%记录了提示工程细节,模型版本信息报告率也为47%。性能指标报告差异明显,准确度报告率为61%,而F1分数仅7%。这种不一致影响了研究结果的可靠性和临床转化。
为规范报告,国际研究团队通过德尔菲专家调查制定了FLAIR(放射学LLM评估框架)清单。该清单涵盖六个类别32个项目,包括一般信息和数据输入、提示和微调、性能指标、伦理和数据透明度、实施与风险、以及可选方面。德尔菲小组由来自比利时、中国、德国、瑞士、英国和美国的20位专家组成,涵盖临床放射学、AI研究和学术出版领域,四轮调查平均参与率达98.75%。
FLAIR清单针对放射学特点设计,要求报告图像参数、报告风格等影像特定信息。该清单补充了现有AI研究标准如CLAIM和TRIPOD-LLM指南,专门解决LLMs在放射学中的独特需求。研究团队指出,清单未来可能需要更新以适应技术发展,并考虑将项目分层为“必要”、“推荐”和“可选”。
尽管存在局限性,如在线德尔菲过程缺乏实时讨论,但FLAIR清单为放射学大型语言模型研究提供了标准化报告框架。通过提高透明度、可重复性和可比性,该指南有望促进LLMs融入临床工作流程,最终提升患者护理效率。









