4月17日,美国医学会旗下期刊JAMA Network Open发表的研究指出,当前的大型语言模型(LLMs)在临床推理领域存在显著不足,尤其是在早期鉴别诊断阶段,错误率超过80%。研究团队对GPT-5、Claude4.5Opus等21款主流大模型进行了评测,模拟了完整的医疗决策流程,包括鉴别诊断、检查选择、最终诊断、治疗管理等五个阶段。
评测结果显示,各模型在不同诊疗阶段的表现存在差异,且不均衡。在“最终诊断”和“治疗管理”环节,AI的准确率相对较高,而在“检查选择”和其他推理能力方面处于中等水平。然而,在早期的“鉴别诊断”阶段,AI的表现最差,错误率普遍超过80%,表明模型在判断病人具体疾病时常常出现误判。研究分析认为,AI在信息相对完整的情况下更擅长给出答案,但在信息不足、需要逐步推理的早期阶段,容易过早收敛到单一结论,导致难以直接应用于临床决策。相比之下,临床医生在初期会保留多种可能性,并随着检查结果和信息积累不断修正判断,最终确定患者的具体疾病。
