探讨RAG技术、AI代理及AI伦理挑战
谷歌正在通过其对 AMIE(清晰医学智能探索器)的最新研究,赋予其诊断人工智能理解可视化医学信息的能力。
想象一下,当你就健康问题与人工智能聊天时,它不仅能处理你说的话,还能查看令人担忧的皮疹照片,或是解读你的心电图打印结果。这正是谷歌的目标。
此前发表于《自然》杂志的研究成果表明,AMIE 在基于文本的医疗对话中已展现出潜力。但不得不承认,真正的医学并非仅靠文字。医生在很大程度上依赖于他们所看到的信息,如皮肤状况、仪器读数、实验室报告等。谷歌团队指出,即便是简单的即时通讯平台,也能通过静态多模态信息(如图像和文档)丰富讨论内容,而仅处理文本的人工智能恰恰缺失了关键一环。研究人员提出的关键问题是:“大语言模型能否开展融入这类更复杂信息的临床诊断对话?”
谷歌工程师利用 Gemini 2.0 Flash 模型为 AMIE 提供核心支持,并结合 “状态感知推理框架”。简单来说,这意味着该人工智能不会机械地按预设脚本对话,而是能根据已有知识和未知信息灵活调整对话内容。这一过程类似人类临床医生的工作方式:收集线索、推测病因,进而索要更具体的信息(包括视觉证据)来缩小诊断范围。
谷歌表示,“这使得 AMIE 能在必要时获取相关多模态资料,准确解读结果,将这些信息无缝融入持续的对话中,并用于完善诊断。” 整个对话过程可分为多个阶段:先收集患者病史,接着进行诊断并给出治疗建议,最后进行随访。人工智能会持续评估自身的认知,一旦发现知识缺口,便会索要皮肤照片或实验室检查结果。
为避免在真实患者身上反复试验,谷歌打造了一个精细的模拟实验室。他们从 PTB-XL 心电图数据库和 SCIN 皮肤病图像集等获取真实的医学图像和数据,利用 Gemini 模型生成合理的患者背景故事,构建出逼真的病例。随后,让 AMIE 在该模拟环境中与 “虚拟患者” 聊天,并自动评估其诊断准确率、避免错误(或 “幻觉”)等方面的表现。
真正的考验来自模拟医学生考核方式的实验 —— 客观结构化临床考试(OSCE)。谷歌开展了一项远程研究,设置了 105 种不同的医疗场景。经过训练、能稳定扮演患者的专业演员,分别与新型多模态 AMIE 和人类初级保健医生(PCP)进行互动。聊天通过特定界面进行,“患者” 可上传图像,就像在现代通讯应用中一样。
之后,皮肤科、心脏病科和内科的专科医生,以及扮演患者的演员对对话进行评估。人类医生从病史采集情况、诊断准确性、治疗方案质量,到沟通技巧、同理心,当然还有人工智能对视觉信息的解读能力等多个维度进行打分。
在这项对照研究环境下的直接对比中,AMIE 的表现令人惊喜。它不仅不逊色于人类医生,还常常更胜一筹。在解读聊天过程中分享的多模态数据方面,AMIE 的评分高于人类初级保健医生。其诊断准确率也更高,给出的鉴别诊断列表(按可能性排序的潜在病症清单),经专科医生评估,依据病例细节来看更为准确和完整。
审核对话记录的专科医生普遍给予 AMIE 较高评价,尤其认可其 “图像解读和推理的质量”、诊断检查的全面性、治疗方案的合理性,以及对紧急情况的预警能力。或许最令人意外的发现来自扮演患者的演员,他们常在基于文本的互动中,觉得 AMIE 比人类医生更具同理心、更值得信赖。
从关键的安全角度来看,研究发现,AMIE 基于图像产生错误(错误解读结果)的频率与人类医生相比,在统计学上并无显著差异。由于技术不断发展,谷歌还用更新的 Gemini 2.5 Flash 模型替换 Gemini 2.0 Flash 模型进行了早期测试。利用模拟框架得到的结果显示,AMIE 在诊断准确率(前三位诊断准确率)和给出恰当治疗方案方面,有望取得进一步提升。不过,研究团队也强调,这些只是自动化测试结果,“必须经过专家医生的严格评估,才能确认这些性能优势” 。
谷歌坦率地指出了当前研究的局限性。他们明确表示:“本研究仅在 OSCE 式评估中,使用患者演员对一个仅供研究的系统进行探索,这远不能体现现实医疗的复杂性。” 精心设计的模拟场景,终究无法等同于在繁忙诊所中应对真实患者的独特复杂情况。他们还强调,聊天界面无法完全还原真实视频或面对面咨询的丰富信息。
那么下一步计划是什么?答案是谨慎地向现实应用迈进。谷歌已与贝斯以色列女执事医疗中心合作开展研究,在获得患者同意的情况下,评估 AMIE 在实际临床环境中的表现。研究人员也认识到,最终需要突破文本和静态图像的限制,实现对实时视频和音频的处理,这也是当今远程医疗中常见的交互形式。
赋予人工智能 “看懂” 并解读医生日常使用的视觉证据的能力,让我们看到了人工智能未来辅助临床医生和患者的可能性。然而,从这些充满希望的研究成果,到成为日常医疗中安全可靠的工具,还有很长的路要走,需要谨慎探索。
关注公众号
立刻获取最新消息及人工咨询