一项新研究揭示,尽管人工智能(AI)模型在部分科学领域展现出显著优势,但在实验室实验中,其安全性仍存疑虑。研究指出,所有测试的大型语言模型(LLM)和视觉语言模型(VLM)在实验室安全知识方面均存在不足,过度依赖这些AI模型进行实验室实验,可能给研究人员带来潜在风险。

为评估AI模型在实验室环境中的表现,研究团队开发了名为“实验室安全基准测试”(LabSafety Bench)的基准测试框架。该框架涵盖765道选择题、404个真实实验室场景及3128个开放式任务,全面评估AI模型在危害识别、风险评估和后果预测方面的能力。研究共评估了19个AI模型,包括8个专有模型、7个开放式LLM和4个开放式VLM。结果显示,尽管部分专有模型在结构化任务上表现优异,但在开放式、情景推理任务中仍显不足。特别是在危险识别任务中,所有模型的准确率均未超过70%。
研究还发现,Vicuna模型在多项任务中表现尤为糟糕,其纯文本选择题的表现几乎与随机猜测无异。尽管通过微调可提升部分小型模型的性能,但高级策略如检索增强生成(RAG)并未带来持续益处。研究作者指出:“我们的分析指出了关键的失效模式,包括风险优先级排序不当、幻觉和过拟合,以指导未来的研究。”他们强调,开发具有安全意识的模型至关重要,这为在实验室中更安全地集成AI奠定了基础。
当前,AI模型易产生幻觉并提供错误信息,处理危险材料时存在风险。研究团队呼吁,在AI显著提升实验室安全知识水平前,实验室使用AI应始终包含严格的人工监督。他们鼓励其他研究人员使用LabSafety Bench等基准测试工具,以共同推动AI在实验室应用中的安全性提升。
更多信息:作者:Yujun Zhou等人,标题:《大型语言模型在科学实验室安全风险方面的基准测试》,发表于:《自然机器智能》(2026)













