专访华中科技大学陈伟教授：一套评估方式，让AI医疗更智慧

作者：施懿 2024-04-25 16:52

2023年，ChatGPT爆火，大模型成成为科技巨头们的新赛程。一方面，巨头们不断升级大模型的性能，企图让大模型更“聪明”；另一方面，他们也在开发大模型新的应用场景。而医疗则是大模型落地的绝佳场景。

华东科技大学陈伟教授认为医疗是一个严谨且复杂的应用场景，而现有的大模型还不够“聪明”。而让辅助大模型变得更贴近医疗应用，前提是寻找到评估大模型的工具。基于此，他和团队研发了AI Hospital，以期为医疗大模型的迭代带来更多启发。

一、大模型还不够“聪明”

问诊是医疗最基础但又是不可或缺的环节。这一环节，医生不仅要引导患者陈述更多有医疗价值的信息，同时还要从细枝末节中捕捉到需要深挖的关键点。

这一环节对医生的依赖颇为显著，但在医疗资源紧缺的情况之下，繁重的问诊工作不仅会成为医生的负担，还会降低诊疗效率。在2021年，清华大学社科学院中国社会调查与研究中心、中国医师协会人文医学专业委员会联合发布《2021医师调查报告》，报告显示中国医师医师日均接诊病人达26人，与每位病人的互动时间平均仅有16分钟。

从数据可以看出，医生不仅工作量大，还需从有限的时间中提炼出有效的医疗信息，极大程度增加了负荷。

如果能让大模型接手这一环节，不仅能够合理分配医疗资源，提高医疗效率；同时还能更为系统、规范的收集患者情况，为后续治疗提供参考。

要胜任问诊工作，大模型的多轮交互能力很重要。由于患者的知识水平参差不齐，同时往往因为缺乏医疗知识，会在问诊环节出现答非所问，亦或是避而不谈的情况。这会严重影响医者对患者真实情况的判断。大模型只能多通过多次询问，不同方式发问等手段获得更精准的患者信息。

但遗憾的是，尽管目前已有的医疗大模型在单轮医疗问答中有不错的表现，但大多都缺少令人满意的多轮追问能力，即没有真正对齐到真实世界患者的偏好，也没有对齐真实世界医生的问诊行为。这也是陈伟教授认为目前的医疗大模型还不够“聪明”的原因之一。

二、评估医疗大模型的标准

AI Hospital主要用于评估在临床多轮交互诊断中，医疗大模型的交互能力和决策准确性。

首先，AI Hospital设计了多层次的交互评估框架。在实际情况中，通常是实习医生向患者病人进行问诊，并将情况转达给检查员，复核后交达主治医师。在这个过程中，会进行多轮不同身份、不同角度的问答，能够进一步还原患者的身体情况。

因此AI Hospital也设计了四个交互角色，即病人、实习医生、检查员和主治医生，企图还原最真实的问诊环节，从而使得医疗大模型能够更好地适应和满足患者的需求。

其次，除了交互评估以外，AI Hospital还采用了One-Step的评估办法。即让大模型一次性获取所有患者信息，直接出具问诊结果以及治疗方案。最后通过与实际案例进行比对，判断大模型决策的准确性。

在两种看似相互冲突的评估模式共同作用下，不仅能够还原最真实的医疗问诊环节，同时也能在一定程度上提升模型的诊断性能。目前，陈伟教授和团队已经检测了近百份样本，未来还将进一步加入数据样本，升级AI Hospital为更多大模型落地临床打下基础。此外，团队还计划在AI Hospital系统中，加入罕见病案例，以提高罕见病的确诊效率。

陈伟教授表示：“只有设计更为合理的医疗大数据模型评估方式，医疗大模型才能找到迭代升级的方向。”

三、为大模型迭代奠定基础

陈伟团队设计AI Hospital实则是一段无心插柳柳成荫的故事。

在博士期间，陈伟教授师从复旦大学魏忠钰教授，主要研究方向便是基于对话的智能问诊。在之后的研究工作中，他也在潜心开发多模态医疗问诊大模型。在研究了几款大模型后，他和团队发现，交互性差几乎是医疗大模型的通病，而目前并没能够评估，并进一步优化医疗大模型的工具。

因此最初团队就是为了设计出更符合临床需求的问诊大模型，进而研发出了AI Hospital评估方式。

目前，团队仍在研发服务专业医疗工作者的医疗问诊大模型。目前市面上许多医疗大模型都为服务患者而生，在陈伟教授看来，医生是治疗过程中的重要参与者，医疗大模型更应该服务专业，为医生提供更有医学价值的信息。

陈伟教授告诉橙果局：“我们想做的大模型不是市面上简单问答的大模型，而是真正能够为医生提供方案参考，实现精准医疗的人工智能。”

四、AI+要在专业落地

在采访过程中，陈伟教授不断提到“在专业落地”。

在他看来，医疗与AI的结合需要针对不同的人群进行设计。如服务患者，则需要提高普世性，知识的输出更为简单；但在面对具备转移医疗知识的医疗工作者时，AI的方向就该向专业化发展。

此外，多模态是未来“AI+医疗”必然的发展方向。病人不是教科书的案例，在临床中至少有70%以上的情况需要综合诊断才能准确判断患者的病情。在未来，无论是医学影像，还是数据识别，亦或是最基础的问诊，“AI+”都应向多模态发展，才能真正实现精准医疗。

注：文中如果涉及企业数据，均由受访者向分析师提供并确认。