美国食品和药物管理局在其首次数字健康咨询委员会会议上努力解决如何监管医疗设备中的生成式人工智能的问题。
迄今为止,该机构已授权使用近 1000 种人工智能医疗设备,但这些设备均未使用自适应或生成式人工智能。不过,该技术正在其他不受 FDA 监管的医疗保健应用中进行探索,例如为医生生成临床笔记。
“FDA 局长罗伯特-卡利夫(Robert Califf)在 11 月的会议上说:"为了让我们最有效地履行保护公众健康的职责,我们必须拥抱这些开创性的技术,这不仅是为了跟上我们所监管的行业的步伐,也是为了利用监管渠道和监督来提高这些技术被有效、一致和公平应用的机会。
生成式人工智能可以模仿输入数据来创建文本、图像、视频和其他内容。这项技术带来了独特的挑战:模型通常是在庞大的数据集上开发的,开发人员可能并不了解它们的一切。生成式人工智能模型还可能随着时间的推移而迅速变化,并可能根据用户的提示生成虚假内容,即所谓的 “幻觉”。
专家们于 11 月 20 日和 21 日举行会议,讨论 FDA 如何监管这项新技术,并为在医疗保健领域安全有效地使用生成式人工智能制定框架。
以下是他们讨论的四个要点。
1. 患者希望了解人工智能的使用情况
当患者权益组织 “启迪结果”(Enlightening Results)的创始人格蕾丝-科尔多瓦诺(Grace Cordovano)收到她最新的乳房 X 光检查结果时,上面提到应用了 “增强型乳腺癌检测软件”。
虽然结果正常,但检查发现了一些良性结果。科多瓦诺给影像中心打了电话,因为她想知道这些结果是怎么来的,或者她是否可以拿到一份没有应用人工智能的乳房 X 光照片,以便进行比较。
“我得到的答复是'女士,我们不做这个',"科尔多瓦诺告诉咨询委员会。“一个月后,我又收到一封令人困惑的信,信中说,根据你的乳房 X 光检查结果,你现在需要做核磁共振检查。所以就出现了偏差,我很在意,就去查了"。
科多瓦诺说,根据最近的一项调查,大多数患者(约 91%)希望了解人工智能是否被用于他们的护理决策或沟通中。患者也应被视为生成式人工智能医疗设备的最终用户,当人工智能应用于他们的护理时,他们必须有机会提供结构化反馈。
“科多瓦诺说:"我认为,病人的声音被纳入其中是件好事,但我们在这里完全处于劣势。“我们不知道[人工智能]在我们的护理中应用到了什么地方。我们不知道是谁在做什么"。
美国食品和药物管理局的数字健康咨询委员会也认为,让患者和医疗服务提供者知道他们何时在使用人工智能生成设备可能很重要。该小组还建议告诉患者,这种设备是如何为他们的治疗做出贡献的,以及该设备在决策中使用了哪些信息。
2. 健康公平是围绕生成式人工智能的辩论核心
美国食品和药物管理局器械与放射健康中心主任米歇尔-塔尔弗(Michelle Tarver)讨论了人工智能在将医疗服务扩展到资源较少社区的人们--老年人、少数种族和少数族裔以及居住在远离医疗设施的小城镇的人们--方面的前景。
然而,在看到这一前景的同时,人们也担心该技术可能会扩大现有的健康不平等。
“塔尔弗说:"这实际上是一次集体对话,讨论的是我们如何以公平和合乎道德的方式向前推进,这需要让每个人都参与进来。
咨询委员会成员、“人人享有治疗 ”组织创始人兼首席执行官杰西卡-杰克逊(Jessica Jackson)说,公平的设备性能应该是一个衡量标准,而不仅仅是一个 “好东西”。
“杰克逊说:"从历史上看,我们并没有公平地将边缘化群体的数据纳入临床试验,我们一直认为这已经足够好了。“基因人工智能需要改变这种状况,因为我们将根据这些数据训练未来的模型。”
目前,作为上市前审查流程的一部分,FDA 要求制造商分享对其人工智能设备整体安全性和有效性的审查结果,包括根据设备的预期用途和特点对研究多样性进行评估。FDA 数字健康卓越中心副主任 Sonja Fulmer 说,该机构曾因性能数据代表性不足而拒绝过一些产品。
杰克逊说,该机构应明确要求人工智能设备在上市后在不同群体中表现公平。
“咨询委员会成员、Oncology Care Partners 首席健康官 Chevon Rariy 说:"明确说明这一点需要在上市后和上市前阶段加以考虑,这一点非常重要。
Rariy 建议,FDA 可能不会明确规定制造商应如何监控特定器械的公平性和偏倚性,但可以建议制定这样的计划。
3. 医院仍在开发生成式人工智能的最佳实践
与会的医院代表概述了他们评估人工智能的框架,但他们也提醒说,医院还没有准备好在没有监督的情况下使用这项技术。
“我已经进行了广泛的研究。我认为美国还没有一个医疗系统有能力验证在临床护理系统中投入使用的人工智能算法,"Califf 说。
HCA 医疗保健公司负责护理转型和创新的高级副总裁 Michael Schlosser 说,这家营利性医院系统已经制定了一个评估和实施人工智能的框架。任何在患者护理中使用人工智能的人都必须经过培训。
Schlosser 补充说,该组织还没有准备好把病人的治疗、诊断或其他方面的护理作为人工智能生成模型的最终结果。
“施洛瑟说:"我们在很大程度上是在蹑手蹑脚地使用生成式人工智能。“我们仍有大量的东西需要从这些模型中学习,学习它们是如何执行的,以及它们为什么会做那些事情"。
目前,大多数人工智能设备都用于放射科。这些设备是固定的,不使用生成式人工智能。Mass General Brigham 的首席数据科学官基思-德雷尔(Keith Dreyer)说,这项技术是根据从 CT 扫描仪、核磁共振成像机或心电图机等设备中传出的数据采取行动。但是,这些设备以及从设备中产生的数据都在不断变化。
“Dreyer 说:"我们的设备有 2000 台扫描仪,没有一台是相同的。“试图让一种设备适用于所有扫描仪的想法......是不现实的。
他说,必须进行验证,尤其是对生成式人工智能而言。
美国医学协会还建议美国食品和药物管理局制定持续验证要求,以确保人工智能工具安全、公平地运行。美国医学会首席健康与科学官弗雷德里克-陈(Frederick Chen)说,超过三分之一的医生使用人工智能。陈说,该组织对美国食品和药物管理局尚未就人工智能医疗设备的透明度做出规定感到失望。
4. 如何建立发现和报告错误的流程
生成式人工智能模型因其性质带来了新的监管挑战。
“FDA 数字健康卓越中心主任特洛伊-塔兹巴兹(Troy Tazbaz)在活动中说:"与预测或分类数据的传统人工智能模型不同,生成式人工智能会产生输出结果,这可能会带来更多层次的监管复杂性。
小组成员关注的一个焦点是识别错误和为生成式人工智能模型设定界限所面临的挑战。
放射学合作伙伴公司(Radiology Partners)负责临床人工智能的副首席医疗官妮娜-科特勒(Nina Kottler)说,该公司已经使用了一种生成式人工智能工具,它可以读取放射学报告,并在 “印象 ”部分下生成结果摘要。放射科医生会在发送报告前检查并编辑该部分。
虽然该工具并不作为医疗设备进行监管,但 Radiology Partners 还是让放射科医生小组查看了 3000 份报告,并将人工智能生成的印象与最终编辑版本进行了比较,从而对该技术进行了评估。人工智能生成印象的临床重大错误率为 4.8%,而放射科医生编辑的最终结果错误率为 1%。
科特勒强调了专家审查和培训的重要性,这样人们才能意识到生成式人工智能容易犯的错误类型。
“科特勒说:"很难对放射科医生说,每次检查都要小心谨慎,因为有5%的时间它会出错。
例如,生成式人工智能会根据模式错误地推断事物。在一个例子中,一份放射报告提到了股骨头,但没有说明是哪条腿。人工智能模型 “猜测 ”是右股骨,但报告实际上是关于左股骨的。
它还能提出不恰当的建议,比如对良性发现进行后续核磁共振扫描。
“科特勒说:"我们对这个人工智能模型的验证表明,它不应该是自主的。
Oncology Care Partners 的 Rariy 说,FDA 可以在定义生成式人工智能下的不良事件和错误方面发挥作用,并确保公司在确定模型需要额外的 “防护栏 ”时有一套流程。
“Rariy说:"也许作为FDA,我们可以明确表示需要制定一个流程。“对于出现的各种错误,设备制造商要监控和遵守的流程是什么?
Rariy 补充说,如果发现错误,该流程应包括为患者和用户提供明确的报告机制。