2023年,ChatGPT爆火,大模型成成为科技巨头们的新赛程。一方面,巨头们不断升级大模型的性能,企图让大模型更“聪明”;另一方面,他们也在开发大模型新的应用场景。而医疗则是大模型落地的绝佳场景。
华东科技大学陈伟教授认为医疗是一个严谨且复杂的应用场景,而现有的大模型还不够“聪明”。而让辅助大模型变得更贴近医疗应用,前提是寻找到评估大模型的工具。基于此,他和团队研发了AI Hospital,以期为医疗大模型的迭代带来更多启发。
一、大模型还不够“聪明”
问诊是医疗最基础但又是不可或缺的环节。这一环节,医生不仅要引导患者陈述更多有医疗价值的信息,同时还要从细枝末节中捕捉到需要深挖的关键点。
这一环节对医生的依赖颇为显著,但在医疗资源紧缺的情况之下,繁重的问诊工作不仅会成为医生的负担,还会降低诊疗效率。在2021年,清华大学社科学院中国社会调查与研究中心、中国医师协会人文医学专业委员会联合发布《2021医师调查报告》,报告显示中国医师医师日均接诊病人达26人,与每位病人的互动时间平均仅有16分钟。
从数据可以看出,医生不仅工作量大,还需从有限的时间中提炼出有效的医疗信息,极大程度增加了负荷。
如果能让大模型接手这一环节,不仅能够合理分配医疗资源,提高医疗效率;同时还能更为系统、规范的收集患者情况,为后续治疗提供参考。
要胜任问诊工作,大模型的多轮交互能力很重要。由于患者的知识水平参差不齐,同时往往因为缺乏医疗知识,会在问诊环节出现答非所问,亦或是避而不谈的情况。这会严重影响医者对患者真实情况的判断。大模型只能多通过多次询问,不同方式发问等手段获得更精准的患者信息。
但遗憾的是,尽管目前已有的医疗大模型在单轮医疗问答中有不错的表现,但大多都缺少令人满意的多轮追问能力,即没有真正对齐到真实世界患者的偏好,也没有对齐真实世界医生的问诊行为。这也是陈伟教授认为目前的医疗大模型还不够“聪明”的原因之一。
二、评估医疗大模型的标准
AI Hospital主要用于评估在临床多轮交互诊断中,医疗大模型的交互能力和决策准确性。
首先,AI Hospital设计了多层次的交互评估框架。在实际情况中,通常是实习医生向患者病人进行问诊,并将情况转达给检查员,复核后交达主治医师。在这个过程中,会进行多轮不同身份、不同角度的问答,能够进一步还原患者的身体情况。
因此AI Hospital也设计了四个交互角色,即病人、实习医生、检查员和主治医生,企图还原最真实的问诊环节,从而使得医疗大模型能够更好地适应和满足患者的需求。
其次,除了交互评估以外,AI Hospital还采用了One-Step的评估办法。即让大模型一次性获取所有患者信息,直接出具问诊结果以及治疗方案。最后通过与实际案例进行比对,判断大模型决策的准确性。
在两种看似相互冲突的评估模式共同作用下,不仅能够还原最真实的医疗问诊环节,同时也能在一定程度上提升模型的诊断性能。目前,陈伟教授和团队已经检测了近百份样本,未来还将进一步加入数据样本,升级AI Hospital为更多大模型落地临床打下基础。此外,团队还计划在AI Hospital系统中,加入罕见病案例,以提高罕见病的确诊效率。
陈伟教授表示:“只有设计更为合理的医疗大数据模型评估方式,医疗大模型才能找到迭代升级的方向。”
三、为大模型迭代奠定基础
陈伟团队设计AI Hospital实则是一段无心插柳柳成荫的故事。
在博士期间,陈伟教授师从复旦大学魏忠钰教授,主要研究方向便是基于对话的智能问诊。在之后的研究工作中,他也在潜心开发多模态医疗问诊大模型。在研究了几款大模型后,他和团队发现,交互性差几乎是医疗大模型的通病,而目前并没能够评估,并进一步优化医疗大模型的工具。
因此最初团队就是为了设计出更符合临床需求的问诊大模型,进而研发出了AI Hospital评估方式。
目前,团队仍在研发服务专业医疗工作者的医疗问诊大模型。目前市面上许多医疗大模型都为服务患者而生,在陈伟教授看来,医生是治疗过程中的重要参与者,医疗大模型更应该服务专业,为医生提供更有医学价值的信息。
陈伟教授告诉橙果局:“我们想做的大模型不是市面上简单问答的大模型,而是真正能够为医生提供方案参考,实现精准医疗的人工智能。”
四、AI+要在专业落地
在采访过程中,陈伟教授不断提到“在专业落地”。
在他看来,医疗与AI的结合需要针对不同的人群进行设计。如服务患者,则需要提高普世性,知识的输出更为简单;但在面对具备转移医疗知识的医疗工作者时,AI的方向就该向专业化发展。
此外,多模态是未来“AI+医疗”必然的发展方向。病人不是教科书的案例,在临床中至少有70%以上的情况需要综合诊断才能准确判断患者的病情。在未来,无论是医学影像,还是数据识别,亦或是最基础的问诊,“AI+”都应向多模态发展,才能真正实现精准医疗。