Copyright 2015-2024 多趣味 版权所有 京ICP备2015051670号
AI医生的时代正在到来!
哈佛、斯坦福等学术医疗中心的医生发布重磅论文,测试了OpenAI o1-preview在医疗推理和诊断任务中的表现。
结果表明,在所有的实验中,无论是临床案例还是急诊室的第二意见,o1-preview的表现都全面超出人类医生!

文章中,研究团队全面评估了o1-preview与数百名医生表现的对比。
此外,他们还在波士顿一所大型学术三级急诊中心随机抽取患者,采用盲评方式,把大模型给出的「第二诊疗意见」与专家医生的诊断进行对比。
实验结果惊人
团队首先使用《新英格兰医学杂志》(NEJM)发表的临床病例讨论(CPCs)来评估o1-preview。
两位医生对o1-preview给出的诊断质量评价高度一致——在143个病例中有120例观点相同(84%)。
o1-preview在近八成病例(78.3%)中都把正确诊断列进了它的「待选清单」(图 1)。
如果只看它给出的第一个诊断,有52%一击即中。
另外,无论是在预训练数据截止点之前还是之后,模型的表现没有明显差异:截止点前准确率为79.8%,截止点后为73.5%。
