切换到宽版
  • 14阅读
  • 2回复

[数码讨论]微软 AI 诊断准确率超人类医生4倍,以后看病前先问问它?[4P] [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
167724
金币
273165
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38174(小时)
注册时间: 2008-10-01
最后登录: 2025-07-12

四倍,AI 医生的诊断准确率远超过人类医生。

这可能有点难以置信,但微软人工智能团队日前发布的一项 AI 诊断协调系统 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了。

它在《新英格兰医学杂志》每周发布共计 304 个真实复杂病例上进行了基准测试。测试结果显示,准确率达到了85.5%。

这个基准测试不再是之前光凭借记忆,就可以做到的试卷答题,而是微软创建的全新的评测标准,「顺序诊断基准」(SD Bench)。它高度还原了真实诊疗过程的互动挑战:

  1. 从患者的初步症状描述入手。
  2. 通过多轮提问,选择各种检验检查,逐步手机病情信息。
  3. 每开一项检查,同时记录检查项目的费用;评估必要性和成本。
  4. 给出最终诊断。

同样面对这个 304 个复杂病例,微软选择了另外 21 位来自美国和英国,具有 5 年至 20 年临床经验的执业医生,测试结果显示,真实医生的平均准确率仅为 20%,这与 「AI 医生」的差距足足有四倍之大。

同时,与人类医生相比,这个「AI 医生」还少开了很多不必要的检查,减少了 20%-70% 的诊断成本。

▲顺序诊断基准测试介绍图,「守门人」回应来自诊断代理的信息请求,评估模型则评估诊断代理的最终诊断与病例报告准确度。

MAI-DxO 究竟是如何做到人类医生的准确率四倍之高呢,它不是一个新出现的大语言模型,它也不依赖某个单一的模型。

MAI-DxO 是一个模拟现实中多名医生合作诊断过程的系统。得益于当前大语言模型的持续发展,在 MAI-DxO 系统中,有不同的语言模型去扮演五种不同的医疗角色。

这些医疗角色包括推测各种结果的假设医生、选择医生、质疑当前诊断假设的挑战医生、避免不必要检查的成本管理医生、以及确保诊断步骤和选择逻辑一致的检查表医生。

这些「医生」协作工作,充分地模拟了人类医生团队的工作流程,还弥补了单一 AI 模型在复杂诊断中可能出现的缺陷。

▲MAI-DxO 系统概览图

如上图描述的系统概览图所示,MAI-DxO 完全模拟了我们去医院看病的流程。

  1. 首先从问诊开始,MAIN-DxO 会得到一个简短的临床小故事,通常为 2-3 句话,包含病例的基本情况。
  2. 接着,MAI-DxO 会开始总结患者的主要诉求,选择下一步操作,是继续向患者提问,还是申请开检查。
  3. 每开一项检查会计算检查费用,同时持续进行多轮互动,直到给出最后诊断结果。

在测试过程中,MAI-DxO 利用 o4-mini 和专业医生设置了一个「守门人」,确保系统给 AI 的信息是与正常医生在问诊和临床上能够得到的信息一样。

MAI-DxO 的出现,为大语言模型在医疗诊断上取得明显的性能提升。微软测试了来自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表现均优于仅使用单一的 AI 模型,而表现最好的组合是 MAI-DxO 与 OpenAI 的 o3 配对。

由于不受大语言模型的限制,MAI-DxO 还能够在将来有更好的模型出现时,同步适配。

▲不同人工智能模型的准确性和每例平均诊断测试成本对比

尽管看起来 「AI 医生」已经有模有样,不过 AI 要真正做一个好医生可不是那么容易的。

微软在该项目论文最后提到,这次的研究存在显著局限性,包括像参与对比实验的 21 位医生并没有获得同行的讨论协助、参考书籍以及生成式 AI 等资源。此外,微软这次实验也仅仅只讨论了最具挑战性的病例难题,而对我们一般的日常性疾病诊断没有做进一步的测试。

微软强调 AI 不会取代医生,它将成为医生与患者共同的助手。

但就是这个医生和患者共同的助手,也持续地吸引着全世界范围的关注;早在今年 3 月,微软就发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot,它能帮助医生更好的整理病例的临床文件。

IBM 推出 IBM Watson Health 医疗人工智能平台、谷歌的 DeepMind、以及英伟达的 NVIDIA Clara 等,都正从导诊、问诊、病理等医疗场景中带来新的变革。

前段时间,阿里达摩院也发布了全球首个胃癌影像筛查 AI 模型 DAMO GRAPE,首次利用平扫 CT 影像结合深度学习识别早期胃癌病灶。

华为今年才组建组建医疗卫生军团,上周也联合瑞金医院,宣布开源 RuiPath 病理模型,具备临床验证能力,覆盖肺癌等 7 个常见癌种。

医学需要极高的精准度,0.01% 的失误也有可能造成严重的后果,它完全不同于程序员写代码时出现的 bug。

MAI-DxO 模拟真实问诊的过程,看起来这条 AI 医疗之路越来越清晰。

从百度问诊,到 ChatGPT 问诊,我想未来除了拿着普通医院的检查结果,查医院排行榜,付费问在线医生,还可以先看看这个「AI 医生」。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
167724
金币
273165
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38174(小时)
注册时间: 2008-10-01
最后登录: 2025-07-12
只看该作者 沙发  发表于: 07-04
AI 医生的崛起:MAI-DxO 的突破与挑战

微软人工智能团队近日发布了一项名为 MAI-DxO(MAI Diagnostic Orchestrator)的 AI 诊断协调系统,其诊断准确率达到了惊人的 85.5%,远超人类医生的平均准确率 20%。这一突破性进展不仅展示了 AI 在医疗领域的巨大潜力,也为未来的医疗诊断带来了新的希望。

1. MAI-DxO 的工作原理

MAI-DxO 并不是一个单一的大语言模型,而是一个模拟现实中多名医生合作诊断过程的系统。它通过不同的语言模型扮演五种不同的医疗角色,包括:

- 假设医生:推测各种可能的结果。
- 选择医生:决定下一步的诊断步骤。
- 挑战医生:质疑当前的诊断假设。
- 成本管理医生:避免不必要的检查,控制诊断成本。
- 检查表医生:确保诊断步骤和选择逻辑的一致性。

这些“医生”协作工作,模拟了真实的诊疗流程,从初步症状描述到最终诊断,逐步收集病情信息,并在每一步记录检查费用,评估必要性和成本。

2. 测试与表现

MAI-DxO 在《新英格兰医学杂志》每周发布的 304 个真实复杂病例上进行了基准测试。测试结果显示,其准确率达到了 85.5%,而 21 位具有 5 至 20 年临床经验的执业医生的平均准确率仅为 20%。此外,MAI-DxO 还减少了 20%-70% 的诊断成本,显示出其在提高诊断效率和降低成本方面的显著优势。

3. 技术优势与局限性

MAI-DxO 的成功得益于其多模型协作的工作方式,这弥补了单一 AI 模型在复杂诊断中可能出现的缺陷。微软测试了来自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表现均优于仅使用单一的 AI 模型,而表现最好的组合是 MAI-DxO 与 OpenAI 的 o3 配对。

然而,微软也承认这项研究存在局限性。参与对比实验的 21 位医生并没有获得同行的讨论协助、参考书籍以及生成式 AI 等资源。此外,实验主要集中在最具挑战性的病例难题上,对一般日常性疾病诊断的测试尚不充分。

4. 未来展望

尽管存在局限性,MAI-DxO 的出现为大语言模型在医疗诊断上的应用带来了新的希望。微软强调 AI 不会取代医生,而是将成为医生与患者共同的助手。随着技术的不断进步,AI 在医疗领域的应用将越来越广泛。

其他科技巨头也在积极探索 AI 在医疗领域的应用。例如:

- IBM Watson Health:提供医疗人工智能平台,帮助医生进行诊断和治疗。
- 谷歌 DeepMind:在导诊、问诊、病理等医疗场景中带来新的变革。
- 英伟达 NVIDIA Clara:提供医疗影像处理和分析工具。
- 阿里达摩院:发布了全球首个胃癌影像筛查 AI 模型 DAMO GRAPE。
- 华为:联合瑞金医院开源 RuiPath 病理模型,覆盖肺癌等 7 个常见癌种。

5. 结论

MAI-DxO 的成功展示了 AI 在医疗诊断领域的巨大潜力。虽然 AI 要真正成为一个好医生还有很长的路要走,但其在提高诊断准确率和降低成本方面的表现已经令人瞩目。未来,AI 将成为医生和患者的重要助手,为医疗行业带来更多的创新和变革。

从百度问诊到 ChatGPT 问诊,再到 MAI-DxO 的出现,AI 医疗之路越来越清晰。未来,我们或许可以在看病前先咨询一下这位“AI 医生”,以获得更准确、更高效的诊断建议。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
144180
金币
263582
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16767(小时)
注册时间: 2012-06-21
最后登录: 2025-07-12
只看该作者 板凳  发表于: 07-04
微软 AI 诊断:看病前先问它可行吗?
微软 AI 诊断工具概述
微软开发出一款名为“微软人工智能诊断协调器”(MAI - DxO)的人工智能驱动医疗工具。该工具由微软人工智能健康部门推出,其核心是一个“协调器”,能创建 5 个扮演“医生”角色的智能体并组成虚拟专家组,每个智能体分工明确,通过相互协作和“辩论”来共同制定诊疗方案3。

诊断准确率对比
在测试中,微软让 MAI - DxO 学习了《新英格兰医学杂志》上发表的 304 份复杂研究病例,采用“顺序诊断基准”(SDBench)和“辩论链”等新技术进行评估。结果显示,MAI - DxO 的诊断准确率达到了 85.5%,而选择的 21 位来自美国和英国、具有 5 年至 20 年临床经验的执业医生,平均准确率仅为 20%,差距足足有四倍之大13。

成本优势
与人类医生相比,MAI - DxO 还少开了很多不必要的检查,减少了 20% - 70%的诊断成本。研究人员引导人工智能模型考虑成本效益,在试验中显著减少了正确诊断所需的检查项目,在某些情况下可节省数十万美元13。

看病前先问它的可行性分析
优势与潜力
提升诊断效率:能够加速诊疗进程,帮助解决医疗系统人员短缺和患者候诊时间过长等问题。例如在面对大量患者时,AI 可以快速给出初步诊断建议,缩短患者等待时间3。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个