新智元报道
编辑:LRS
【新智元导读】 人工智能席卷医学界,全科AI医师的野心不会停步于看X光!
图灵奖得主、深度学习前驱Hinton曾预言到,「人们现在应该中止培训放射科医师。很显着,在五年内,深度学习会比放射科医师做得更好。这或许需求10年的时刻,但我们现已有了足够多的放射科医师。」
我以为,假如你是一名放射科医师,你就像一只现已走到悬崖边缘、但还没有往下看的野狼。
近七年过去了,人工智能技能只是参与并代替了部分放射员的技能工作,而且存在功用单一、练习数据缺少等问题,让放射科医师的饭碗依然握得很牢。
但ChatGPT类的根底模型发布后,人工智能模型的才能得到了史无前例的提升,能够处理多模态数据、无需微调即可习惯新使命的in-context学习才能,高度灵敏、可重复运用的人工智能模型的敏捷开展或许会在医学范畴引进新的才能。
最近,来自多所美国哈佛大学、斯坦福大学、耶鲁医学院、加拿大多伦多大学等多所顶尖高校、医疗组织的研究人员在Nature上联合提出了一种全新的医学人工智能范式,即「全科医学人工智能」(generalist medical artificial intelligence, GMAI)。
论文链接:www.nature.com/articles/s4…
GMAI 模型将能够运用很少或不运用使命特定的标记数据履行各种各样的使命。经过对大型、多样化数据集的自监督练习,GMAI能够灵敏地解说医学方式的不同组合,包含来自成像、电子健康记载、实验室成果、基因组学、图表或医学文本的数据。
反过来,模型还能够生成具有表达才能的输出,如自由文本解说、口头引荐或图画注释,展示先进的医学推理才能。
研究人员在文中为 GMAI 确定了一组具有高影响力的潜在运用场景,并列出了详细的技能才能和练习数据集。
作者团队估计,GMAI 运用程序将会应战现在的验证医学AI设备,并改动与大型医学数据集收集相关的做法。
医疗AI通用模型的潜力
GMAI模型有望比现在的医学人工智能模型处理更多样化和更具应战性的使命,甚至对详细的使命几乎没有标签要求。
在GMAI的三个定义才能中,「能履行动态指定的使命」和「能支持数据方式的灵敏组合」能够让GMAI模型和用户之间进行灵敏的互动;第三种才能要求GMAI模型方式化表明医学范畴的常识,并能够进行高档医学推理。
最近发布的一些根底模型现已体现出了部分GMAI的才能,经过灵敏地结合多模态,能够在测试阶段动态地指定一个新的使命,但要建立一个具有上述三种才能的GMAI模型仍需求进一步的开展,例如现有的医学推理模型(如GPT-3或PaLM)并不是多模态的,也无法生成牢靠的事实性陈述。
灵敏的交互 Flexible interactions
GMAI为用户供给了经过自定义查询与模型互动的才能,使不同的受众更简单了解人工智能的见解,并为不同的使命和设置供给更大的灵敏性。
现在人工智能模型只能处理非常约束的一组使命,并生成一套僵化的、预先确定好的输出,比方说模型能够检测一种特定的疾病,承受某种图画,输出成果为患这种疾病的或许性。
比较之下,自定义查询能够输入用户拍脑袋想出来问题,比方「解说一下这个头部MRI扫描中出现的肿块,它更或许是肿瘤仍是脓肿?」。
此外,查询能够让用户定制其输出的格式,比方「这是一个胶质母细胞瘤患者的后续MRI扫描,用红色标出或许是肿瘤的部分。」
自定义查询能够实现两个要害才能,即「动态使命」和「多模态输入输出」。
自定义查询能够教训人工智能模型在运行中处理新的问题,动态地指定新的使命,而无需对模型从头练习。
例如,GMAI能够回答高度详细的、曾经未见过的问题,比方「依据这个超声波成果,胆囊壁的厚度是多少毫米?」。
GMAI模型或许难以完成触及未知概念或病理的新使命,而上下文学习(in-context learning)能够让用户用很少的几个例子来教GMAI学习新概念,比方「这里有10个曾经患有一种新出现的疾病的患者的病史,即感染了Langya henipavirus,现在的这个患者也感染Langya henipavirus的或许性有多大?」。
自定义查询还能够承受包含多模态的杂乱医疗信息,比方临床医师在询问诊断时,或许会在查询中输入报告、波形信号、实验室成果、基因组图谱和成像研究等;GMAI模型还能够灵敏地将不同的方式归入回答中,例如用户或许要求供给文本答案和附带的可视化信息。
医学范畴常识
与临床医师形成鲜明对比的是,传统的医学人工智能模型在为其特定使命进行练习之前,一般缺少对医学范畴背景的了解(如病理生理进程等),只能完全依赖输入数据的特征和猜测方针之间的统计相关。
缺少背景信息会导致很难练习一个特定医疗使命的模型,特别是当使命数据稀缺时。
GMAI模型能够经过方式化表明医学常识来处理这些缺陷,例如常识图谱等结构能够让模型对医学概念和它们之间的关系进行推理;此外,在基于检索的方法的根底上,GMAI能够从现有的数据库中检索相关的背景,其方式包含文章、图画或之前的案例。
由此得到的模型能够提出一些正告,比方「这个患者或许会开展成急性呼吸窘迫综合征,由于这个患者最近因严重的胸腔伤口入院,而且虽然吸入的氧气量增加了,但患者动脉血中的氧分压却继续下降。」
由于GMAI模型甚至或许被要求供给医治建议,虽然大部分是在观察数据的根底上进行练习,该模型推断和运用医学概念和临床发现之间的因果关系的才能将对临床适用性起到要害作用。
最终,经过获取丰厚的分子和临床常识,GMAI模型能够经过借鉴相关问题的常识来处理数据有限的使命。
机遇
GMAI有潜力经过改善护理和削减临床医师的工作量来影响实践的医疗进程。
可控性(Controllability)
GMAI能够让用户精细地控制其输出的格式,使杂乱的医疗信息更简单获得和了解,所以需求某种GMAI模型依据受众需求对模型输出进行从头复述。
由GMAI供给的可视化成果也需求精心定制,比方经过改动视角或用文字标示重要特征等,模型还能够潜在地调整其输出中特定范畴的细节水平,或将其翻译成多种言语,与不同的用户进行有效沟通。
最终,GMAI的灵敏性使其能够习惯特定的地区或医院,遵循当地的习俗和政策,用户或许需求关于怎么查询GMAI模型,以及有效运用其输出的正式指导。
习惯性(Adaptability)
现有的医疗人工智能模型难以应对散布的改动,但由于技能、程序、环境或人口的不断改动,数据的散布或许会发生巨大改动。
GMAI能够经过上下文学习(in-context learning)跟上改动的步伐,例如医院能够教GMAI模型解说来自全新扫描仪的X射线,只需输入提示和几个样例即可。
也就是说,GMAI能够即时习惯新的数据散布,而传统的医疗人工智能模型则需求在全新的数据集上从头练习;不过现在只要在大型言语模型中观察到了上下文学习(in-context learning)的才能。
为了确保GMAI能够习惯上下文的改动,GMAI模型需求在来自多个互补数据源以及多样化的数据上进行练习。
比方为了习惯2019年冠状病毒疾病的新变种,一个成功的模型能够检索过去变种的特征,并在面临查询中的新上下文时更新这些特征,一个临床医师或许直接输入「检查这些胸部X射线,看看是否有奥密克戎」。
模型能够对比德尔塔变体,考虑将支气管和血管周围的滋润作为要害信号。
虽然用户能够经过提示词手动调整模型行为,但新技能也能够发挥主动归入人类反馈的作用。
用户能够对GMAI模型的每个输出进行评价或谈论,就像ChatGPT运用的强化学习反馈技能,能够借此改动GMAI模型的行为。
适用性(Applicability)
大规模的人工智能模型现已成为很多下流运用的根底,例如GPT-3在发布后的几个月内就现已为不同职业的300多个运用程序供给了技能支持。
医学根底模型中,CheXzero可用于检测胸部X光片中的几十种疾病,而且不需求在这些疾病的显式标签上进行练习。
向GMAI的范式改动将推动具有广泛才能的大规模医疗AI模型的开发和发布,能够作为各种下流临床运用的根底:既能够直接运用GMAI的输出,也能够将GMAI的成果作为中间表明,后续再接入一个小型的范畴内模型。
需求留意的是,这种灵敏的适用性也是一把双刃剑,一切存在于根底模型中的毛病都会在下流运用中继续传播。
应战
虽然GMAI模型有许多优势,但比较其他范畴,医学范畴的安全危险特别高,所以还需求应对确保安全布置的难题。
有效性/确认(Validation)
GMAI模型由于其史无前例的多功用性,所以想要进行才能验证也好不简单。
现在的人工智能模型都是针对特定使命而设计的,所以只需求在那些预定义的用例中进行验证即可,比方从大脑核磁共振成像中诊断出特定类型的癌症。
但GMAI模型还能够履行终端用户首次提出的从前未见过的使命(例如在脑部MRI中诊断其他疾病),怎么猜测一切的毛病方式是一个更难的问题。
开发者和监管组织需求担任解说GMAI模型是怎么被测试的,以及它们被批准用于哪些用例;GMAI界面本身的设计应该在进入未知范畴时提出「标签外运用」的正告,而不能自傲地编造不准确的信息。
更广泛地说,GMAI共同的广泛才能要求监管部门有远见,要求组织和政府政策习惯新的范式,还将重塑稳妥安排和职责分配。
验证(Verification)
与传统的人工智能模型比较,GMAI模型能够处理异常杂乱的输入和输出,使临床医师更难确定其正确性。
例如传统模型在对患者的癌症进行分类时,或许只考虑一项成像研究成果,只需求一名放射科医师或病理学家就能够验证该模型的输出是否正确。
而GMAI模型或许会考虑两种输入,并或许输出初始分类、医治建议和触及可视化、统计分析和文献参阅的多方式证明。
在这种情况下,或许需求一个多学科小组(由放射科医师、病理科医师、肿瘤科医师和其他专家组成)来判别GMAI的输出是否正确。
因此,无论是在验证期间仍是在模型布置之后,对GMAI输出的事实核对都是一个严峻的应战。
创建者能够经过归入可解说技能使GMAI输出更简单验证,例如,让GMAI的输出包含可点击的文献及详细的依据段落,使临床医师能够更有效地验证GMAI的猜测。
最终,至关重要的是,GMAI模型应准确表达不确定性,防止用过度自傲的陈述来误导用户。
社会成见(Social bias)
医学人工智能模型或许会连续社会的成见,并对边缘化人群形成伤害。
在开发GMAI时,这些危险或许会更加显着,海量数据的需求和杂乱性会使模型难以确保没有不良的成见。
GMAI模型有必要得到完全验证,以确保它们在特定人群(如少量集体)中的体现不会欠安。
即使在布置后,模型也需求进行继续的审计和监管,由于跟着模型遇到新的使命和环境,或许会出现新的问题,敏捷辨认和修复成见有必要是开发者、供货商和监管者的首要使命。
隐私(Privacy)
GMAI模型的开发和运用对患者隐私构成了严重危险,或许会接触到丰厚的患者特征,包含临床测量和信号、分子特征和人口统计信息以及行为和感官追踪数据。
此外,GMAI模型或许会运用更大的架构,更简单记忆练习数据并直接重复给用户,或许会露出练习数据集中的灵敏患者数据。
能够经过去身份化和约束对个别患者的信息收集量,削减露出数据形成的危害。
隐私问题也并不限于练习数据,布置的GMAI模型也或许露出当时患者的数据,例如提示性攻击能够欺骗GPT-3等模型,使其疏忽之前的指令;恶意用户能够逼迫模型疏忽「不露出信息」的指令以提取灵敏数据。
参阅资料:www.nature.com/articles/s4…