GPT-4V在美国医学执照考试(USMLE)上的研究结果令人瞩目

GPT-4V在美国医学执照考试(USMLE)上的研究结果令人瞩目

摘要如下:

  • GPT-4V在美国医学执照考试(USMLE)中展现了惊人的整体准确率高达90.7%
  • 在处理图像问题时,GPT-4V的表现超越了许多医学生的水平
  • 当GPT-4V给出正确答案时,其解释几乎与领域专家相媲美

研究人员采用GPT-4V对USMLE的问题进行了广泛测试,得出以下关键结果:

  1. 整体表现卓越: GPT-4V在USMLE中的整体准确率达到了惊人的90.7%,显著超过了ChatGPT(58.4%)和GPT-4(83.6%)。考虑到USMLE的难度和复杂性,这一结果显示了GPT-4V在医学知识领域的强大表现。
  2. 图像问题上的优异表现: GPT-4V在处理包含图像的问题时表现出色,其准确率分别为86.2%、73.1%和62.0%。这相当于AMBOSS医学生中的70至80百分位,凸显了GPT-4V在图像识别方面的卓越性能。
  3. 医学子领域的不同表现: GPT-4V在不同医学子领域表现差异明显。在免疫学耳鼻喉科领域中,准确率达到了100%,而在解剖学急诊医学领域则降至25%。这揭示了其在特定领域的潜在局限性
  4. 错误回答的解释质量:当GPT-4V回答错误时,解释质量下降,包括18.2%的虚构文本、45.5%的推理错误和76.3%对图像理解的误差。这表明在错误情境下,模型的解释可能存在一定缺陷。
  5. 医生提示的影响:通过医生给予简短提示,GPT-4V的错误率平均降低了40.5%。对于更难的测试题,性能提升更为显著,强调了与专业人士协作对提升AI模型表现的重要性。

总体而言,这项研究显示了GPT-4V在医学知识测试中的强大潜力,为未来在医学教育和临床决策支持领域提供了有力的参考。

详细介绍网址链接:https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3
原论文网址链接:https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3.full.pdf

GPT-4V在美国医学执照考试(USMLE)上的研究结果令人瞩目GPT-4V在美国医学执照考试(USMLE)上的研究结果令人瞩目

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索