人类医生的饭碗保不住了?

中国新闻周刊 03-15 07:34

2月13日下午,医院会诊室内,13位北京儿童医院知名专家围坐在会议桌一侧,神情专注。与这些顶级专家一同会诊的,还有国内首位AI儿科医生。

一块屏幕上实时展示着一名疑难病例患儿脑部的磁共振成像影像,随着工作人员将患儿病历及相关影像资料等输入电脑,另一块屏幕上同步呈现着AI儿科医生对患儿诊疗的深度思考,最终,AI给出的建议与现场专家们的会诊结果高度吻合。

这次会诊由北京儿童医院院长、耳鼻咽喉头颈外科专家倪鑫主持,倪鑫告诉《中国新闻周刊》,“大家当时看到结果都很惊讶”。如今,每周四,倪鑫都会主持有AI儿科医生参与的专家会诊,对5—10名患儿的病情全方位讨论。

AI正加速迈向临床应用。在DeepSeek等AI大模型的推动下,医疗行业的智能化进程在加快。据不完全统计,全国已有超过100家医院完成DeepSeek的本地部署。

AI医生真的靠谱吗?它能否取代人类医生?这场医疗革命的浪潮中,技术创新、伦理挑战与监管体系的博弈,才刚刚开始。

AI加速涌入医院

DeepSeek的影响力,已蔓延到了门诊患者中。

2月27日,倪鑫主持了第三次AI儿科医生参与的专家会诊。一名来自重庆的5岁女孩因意外摔倒,鼻子出现严重红肿并频繁出血,在多家医院就诊未果。由于病情复杂,倪鑫当场未能做出最终诊断,但建议孩子服用一款免疫治疗药物。让他印象深刻的是,会诊结束时,患儿母亲拿出了一张A4纸给他看,上面是她向DeepSeek咨询的问诊记录。“过去,患者看病时,通常会带着不同医院的诊断和病历资料。”

复旦大学附属华山医院(以下简称“华山医院”)神经内科主任医师郁金泰对《中国新闻周刊》表示,DeepSeek可看作是患者自查工具的“升级版”。过去,人们看病前可能会用百度搜索相关信息,而现在DeepSeek等提供了更系统化的建议。

如今,医疗AI大模型正如雨后春笋般涌现。

几乎每天都有医院宣布在DeepSeek基础上部署AI大模型,或公布与企业合作研发的垂直AI大模型。北京儿童医院的AI儿科医生便是后者,该大模型由北京儿童医院联合北京百川智能科技有限公司(以下简称“百川智能”)等共同研发。

去年8月,北京儿童医院和百川智能正式官宣合作,计划推出五款AI医疗产品。其中,参与疑难杂症会诊的AI儿科医生属于“儿童医学专家临床科研助理”。

百川智能创始人王小川第一天创立百川时,就想“造医生”,即打造具备专业诊疗能力的AI医生。在国内的儿科医疗领域,医生数量严重缺乏。据国家卫生健康委2024年6月份发布的数据,目前全国儿科医师数量仅为20.58万人。去年2月,一次长达两小时的深入交流中,就AI儿科医生的项目,北京儿童医院和百川智能一拍即合。

“AI大模型就像在‘造人’,它能够模拟人类的思维方式。”百川智能医疗副总裁李施政对《中国新闻周刊》表示,最开始百川智能提及的是要“造医生助手”。结果,倪鑫主动提出“要造100万个儿科医生”。“第一次AI儿科医生会诊结束后,当时北京至少有五六家医院主动联系,考虑在未来引入类似技术。”倪鑫表示。

春节前后,DeepSeek的爆火推动了AI大模型的迅猛发展。华山医院大数据中心主任黄虹告诉《中国新闻周刊》,实际上,DeepSeek问世前,医院已在尝试部署其他AI大模型。为了降低成本,华山医院并未自行采购算力服务器,而是选择租用其他平台的算力资源,接入医院内网进行测试。

华山医院大数据中心副主任程思杰告诉《中国新闻周刊》,医院完成DeepSeek的接入与硬件部署,仅用了几天。选择AI大模型时,除了性能,性价比同样是关键考量因素。成本方面,DeepSeek70B版本的硬件成本约为130万元,满血版大模型则需要260万—560万元,硬件成本主要是指算力服务器的费用。“接入DeepSeek只是第一步,真正的挑战是如何让它满足医疗级应用标准。”

目前,除了北京儿童医院、华山医院,全国多家知名三甲医院都在积极部署AI大模型。西部某省会城市,一家三甲医院外科主任医师赵霖正牵头推进医院的DeepSeek本地大模型部署。赵霖表示,由于DeepSeek是开源免费的,便于医院根据自身需求本地化调整。目前,团队正在验证AI的学习能力,通过输入权威指南、临床共识以及患者病历,训练AI分析和判断病情的能力。尽管AI系统的框架已初步搭建完成,但仍在持续优化。

AI幻觉无法避免

在华山医院,AI大模型的内部测试已覆盖科研、临床等多个应用场景。

“过去,建立一个包含1000个不同数据项的临床研究电子数据库,需要研究者和数据库设计师反复沟通,才能生成一个可以在线运行的数据库。如今在AI的辅助下,利用大模型的理解能力,这项工作仅需一两天就能完成。”华山医院大数据中心副主任刘从进告诉《中国新闻周刊》。

除了辅助医生提供诊疗建议,AI的一个主要应用场景是,在医生接诊前自动收集和整理患者病历。华山医院大数据中心一位相关负责人告诉《中国新闻周刊》,目前医院内部运行着多个AI大模型版本:7B模型相当于小学生,32B模型相当于中学生,满血版则达到了研究生水平。然而,测试发现,在生成病历等复杂临床任务中,虽然满血版模型参数量更大,但由于无法进行特定微调,实际表现反而不如小模型。

“病历撰写是一项要求较高的任务,尤其是电子病历的生成,必须确保准确性。因此,AI大模型必须经过严格测试后,才能在医院投入使用。”程思杰表示,目前医院正在试点融合DeepSeek大模型的不同版本,测试其生成电子病历的能力。不过,AI生成的电子病历仍需医生审核校验,确保其最终质量和安全性。

AI的输出结果主要基于统计数据。更关键的一个问题是:AI幻觉似乎是难以避免的。所谓幻觉,是指大模型在回答问题时编造信息。

华中科技大学同济医学院附属同济医院感染科副主任医师郭威告诉《中国新闻周刊》,目前AI大模型在临床上的辅助应用尚未广泛推广。临床使用中,AI偶尔会出现一些令人啼笑皆非的错误。他举例说,影像学的变化非常复杂,有时所看到的可能是无诊断价值的“干扰信号”,而AI有时会将其判断为病变。“这也是AI技术训练中一个值得重视的问题。”

赵霖也经历了DeepSeek的AI幻觉。前段时间,由于本科教材更新,他在为学生准备外科课程时,让DeepSeek协助制作PPT,结果发现它开始编造内容,包括杜撰医学名词出处、虚构参考文献等。他由此产生了疑问:如果AI用于医学辅助决策,如何确保它推荐的方案是基于真实指南,而不是凭空捏造的?这背后可能会存在严重的医疗风险。

南非顶尖公立研究型大学斯泰伦博斯大学精神病学荣休教授罗宾·埃姆斯利使用ChatGPT时,曾多次遇到过AI幻觉。他在接受《中国新闻周刊》采访时谈道,AI幻觉是他目前最为担忧的问题。“AI大模型在临床实践中面临的最大问题,是其生成准确可靠信息的能力存在缺陷。”

幻觉通常会被AI自信地呈现,使得它们有时难以被察觉。医疗领域,任何错误都不可容忍,哪怕是一个微小的失误,也可能危及患者的生命安全。

幻觉的产生,与模型的训练内容密切相关。郁金泰对《中国新闻周刊》表示,AI的可靠性取决于输入数据的准确性和专业性。如果输入的信息有误,输出的结果同样会存在偏差。

李施政指出,虽然AI模型出错较为常见,但在医疗领域,错误必须严格控制,尤其在用药建议环节。为确保错误率远低于人类医生,AI医生的工作必须严格遵循循证医学原则,即所有决策都必须基于科学证据,包括权威指南、顶级专家经验和最新研究成果。

“减少幻觉出现的关键在于,大模型研发初期,必须严格把控数据的唯一性和准确性。”倪鑫认为,并非所有医院提供的病历信息等数据,都适合直接用于研究。AI儿科医生模型训练时,使用的数据是整合医院300多位知名儿科专家的临床经验和专家数十年的高质量病历数据。辅助临床诊断前,AI儿科医生曾参与四次测试,既包括专业能力测试,也包括对幻觉的测试。幻觉测试方面,与DeepSeek做了对比,结果发现AI儿科医生模型的幻觉率更低。“DeepSeek是一个通用模型,虽然它非常强大,但并不专注于医疗健康领域。而AI医生是专门为医疗设计的专业模型,因此,它的表现更为精准。”

临床上,如果医生依据AI建议而最终发生医疗事故,其中的责任该由谁来承担?北京中医药大学医药卫生法学教授邓勇向《中国新闻周刊》分析,责任应根据医生、医院和AI系统开发者的不同义务来判断:如果医生在采纳AI建议时未进行必要的核实,或未对明显不合理的建议提出质疑,则应承担相应责任;医院在引入AI系统时,若未充分评估和验证系统的可靠性,或未对医务人员进行有效的培训和监督,同样需要承担责任;如果因AI系统存在设计缺陷或算法错误而导致错误建议,进而引发事故,开发者则应承担责任;如果开发者未能充分说明系统的局限性和潜在风险,也应承担一定责任。

医生会被替代吗?

郭威注意到,尽管身边大多数医生对AI大模型等新技术持积极态度,但医生们也会讨论哪些科室的医生可能最先会被AI取代。他分析,涉及诊断影像的医生可能面临更大的被替代风险。例如,AI辅助的X光片和胸部CT阅片,能够发现许多肉眼难以察觉的小结节。随着AI技术的不断进步,影像科医生的工作将更多转向辅助和审查,而不再需要处理大量的常规影像。

“有些人担心AI医生的出现,会导致一些医生失业,这不会发生在儿科医生中。”倪鑫表示,儿科医生一直处于紧缺状态,AI医生与人类医生是相互支持的关系,AI更多是辅助医生,而非取代他们。

不少一线临床医生拥抱AI的同时,也保持着冷静。来自感染科、神经内科、外科等科室的多名临床医生向《中国新闻周刊》表示,目前AI在临床中的作用主要是辅助,无法替代医生的决策。北京大学第一医院神经内科主任医师孙永安对《中国新闻周刊》表示,尽管AI在分析和整合现有数据方面表现出色,但它缺乏真正的创新能力,无法独立探索未知领域。而医学的进步往往来源于突破性的创新。

“无论技术多先进,AI始终难以替代医生的深度思考和即时应变。”武汉一家部署DeepSeek的三甲医院急诊科医生魏明告诉《中国新闻周刊》,急诊科有时也需要对患者进行淋巴结活检。例如,在颈部进行淋巴结活检时,影像上显示的病变可能靠近血管,手术过程中,医生必须亲自观察并判断,精细分离淋巴结,同时防止出血。即使AI能标出大致病灶位置,如何避开关键结构、确保安全切除,仍需医生根据病人具体情况作出判断。医生仍然是最终的决策者。

郁金泰表示,医生不仅具备专业背景,还能基于临床经验综合判断病情,这正是AI无法完全取代医生的核心所在。

此前的疑难杂症会诊中,曾有一个让倪鑫印象深刻的患儿病例。当时AI儿科医生给出的建议是,要给病人做病理穿刺,但倪鑫最终决定不做。“从影像学的角度来看,我和AI的判断基本一致,都认为该患儿患的是皮样囊肿。这种病是上皮组织不断脱落、堆积后形成的囊肿,算一种先天性病变,但非恶性。这种情况下,我认为没有必要做有风险的穿刺,而且穿刺并不会带来更多有价值的信息。”倪鑫认为,AI的分析是基于大数据的,逻辑非常缜密,认为穿刺病理能提供更确切的答案,这个建议并不算错。

避免盲目跟风

AI在医疗领域的发展,不会停下脚步。“100万个儿科医生,这个目标听起来宏大,但现在已经基本实现了。我们的大模型理论上可以诞生成千上万的AI儿科医生。”倪鑫谈道,河北当地有150多家基层医院,希望能成为AI儿科医生的首批试点。北京儿童医院和百川智能计划先在京津冀地区的医院进行试点,再将AI儿科医生推广到全国各地。

黄虹表示,DeepSeek只是众多大模型中的一种,而大模型本身并非固定不变。从医院角度看,未来不仅关注单一模型的应用,而且要思考如何整合多种大模型,以便为不同领域提供精准支持。“未来的AI医疗可能是‘千模融合’。”

除了医院自身搭建的AI大模型,虚拟的AI医院正尝试走向临床。清华智能研究院执行院长刘洋领导了一项有关智能体医院(Agent Hospital)的研究,这项研究目前只在预印版网站上发布。刘洋是该研究的通讯作者之一。智能体医院的核心理念,是通过建立一个“闭环式”的医疗虚拟世界,实现AI医生的加速进化。所谓闭环式,是指涵盖从发病、分诊、问诊到康复的一系列医疗环节,AI医生可以根据这些反馈不断总结并优化自身的能力。

去年11月,智能体医院的首批42位AI医生在21个科室上线进行内测,支持超过300种疾病的诊疗。“智能体是在大模型基础上的进一步发展,因为它能够让AI像人类一样,在复杂环境中进行交互、使用工具并与他人协作。”刘洋表示,未来的目标是构建一个能与现实世界无缝对接的智能医疗体系,随着VR等技术的进步,未来的医疗交互不仅仅局限于2D界面操作,而可能进入更加立体的3D空间。

据赵霖了解,很多医院开展的AI大模型项目,目前还处于验证和测试阶段,现阶段真正落地临床,并发挥作用的比例并不高。在他看来,目前国内不少医院面临着较大的生存压力,不乏有医院为了追求热点、提升影响力,纷纷接入DeepSeek等AI工具,这甚至推高了配置GPU的服务器的价格。但最终转化为实际应用,还是流于形式,目前仍是未知数。未来,可能只有少数高质量的大模型项目能得以存活。

郭威也持审慎态度。他指出,眼下各家医院蜂拥而上,这种“凑热闹”的方式,其实更多是出于一种“怕落后”的心理,而非真正基于技术和临床需求的深入研究。黄虹认为,医院在接入AI大模型的过程中,要充分考虑安全、成本、适用性等多方面因素。对于大多数医院而言,如何确保资金投入到核心业务中,是必须考虑的问题。

邓勇指出,当下,医疗领域的AI大模型缺乏行业标准,这会导致不同机构的大模型在数据采集、标注和算法设计等方面存在差异,这不仅影响了系统的通用性和操作性,还可能增加监管难度,进而影响医疗质量和安全。因此,制定统一的标准尤为迫切。

“AI医疗的发展不能一哄而上,只有科学规划、稳步推进,才能真正发挥其价值。”上海市卫生和健康发展研究中心主任金春林接受《中国新闻周刊》采访时表示,尽管当前AI大模型在医疗行业的热度很高,但应避免盲目跟风。他建议,首先要确保数据安全,强化隐私保护,进而推动行业的有序发展,同时还应建立真正的多中心大数据体系,由多个医疗机构或研究中心共同参与,按照统一的研究设计和标准,协同收集、整合、存储和分析医疗大数据,避免重复建设。

金属瞳孔

在核磁共振中游弋

算法编织的网

漏过几粒幻影

当人类掌心的温度

与光谱下生长的

答案重叠

指纹悬停在免责声明上方

(此诗由DeepSeek结合本文内容创作)

(文中赵霖、魏明均为化名)

编辑 邓素凡
+1
您已点过

订阅后可查看全文(剩余80%)

更多精彩内容请进入频道查看

还没看够?打开南方+看看吧
立即打开