YY/T 1858-2022 人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法

YY/T 1858-2022 Artificial intelligence medical device—Computer assisted analysis software for pulmonary images—Algorithm performance test methods

行业标准-医药 中文简体 现行 页数:28页 | 格式:PDF

基本信息

标准号
YY/T 1858-2022
相关服务
标准类型
行业标准-医药
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2022-08-17
实施日期
2023-09-01
发布单位/组织
国家药品监督管理局
归口单位
人工智能医疗器械标准化技术归口单位
适用范围
本文件规定了采用人工智能技术的肺部影像辅助分析软件的算法性能测试方法。
本文件适用于采用人工智能技术对肺部影像进行后处理的辅助分析软件。
本文件不适用于影像前处理及过程优化。
注: 本文件为检测方法标准,不对任何功能做要求。

研制信息

起草单位:
中国食品药品检定研究院、国家药品监督管理局医疗器械技术审评中心、上海长征医院、中国人民解放军总医院、浙江大学、北京大学、中国科学技术大学苏州高等研究院、中国科学院自动化研究所、辽宁省医疗器械检验检测院、河南省医疗器械检验所、中国生物医学工程学会、上海联影智能医疗科技有限公司、飞利浦(中国)投资有限公司、上海西门子医疗器械有限公司、通用电气医疗系统贸易发展(上海)有限公司、推想医疗科技股份有限公司、北京深睿博联科技有限责任公司、腾讯医疗健康(深圳)有限公司、广州柏视医疗科技有限公司、北京安德医智科技有限公司、慧影医疗科技(北京)有限公司
起草人:
李佳戈、张宇晶、刘士远、何昆仑、田捷、周少华、周晓华、吴健、萧毅、刘凯、李静莉、孟祥峰、李非、王晶、万遂人、詹翊强、陆遥、李澍、郭华源、王少康、乔昕、柴象飞、钱天翼、葛鑫、费震宇、秦川、颜子夜、郝烨、范丽、张龙达、张培芳、张楠、刘畅、王浩
出版信息:
页数:28页 | 字数:58 千字 | 开本: 大16开

内容描述

ICS1104099

CCSC.30/4.9

中华人民共和国医药行业标准

YY/T1858—2022

人工智能医疗器械肺部影像辅助

分析软件算法性能测试方法

Artificialintelligencemedicaldevice—Computerassistedanalysissoftwarefor

pulmonaryimages—Algorithmperformancetestmethods

2022-08-17发布2023-09-01实施

国家药品监督管理局发布

YY/T1858—2022

目次

前言

…………………………Ⅲ

引言

…………………………Ⅳ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

测试要求

4…………………2

算法性能测试方法

5………………………5

附录资料性胸部肺结节测试集描述样例

A()CT……………………15

附录资料性测试指标及统计分析的一般思路

B()……………………19

参考文献

……………………24

YY/T1858—2022

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任

。。

本文件由国家药品监督管理局提出

本文件由人工智能医疗器械标准化技术归口单位归口

本文件起草单位中国食品药品检定研究院国家药品监督管理局医疗器械技术审评中心上海长

:、、

征医院中国人民解放军总医院浙江大学北京大学中国科学技术大学苏州高等研究院中国科学院

、、、、、

自动化研究所辽宁省医疗器械检验检测院河南省医疗器械检验所中国生物医学工程学会上海联影

、、、、

智能医疗科技有限公司飞利浦中国投资有限公司上海西门子医疗器械有限公司通用电气医疗系

、()、、

统贸易发展上海有限公司推想医疗科技股份有限公司北京深睿博联科技有限责任公司腾讯医疗

()、、、

健康深圳有限公司广州柏视医疗科技有限公司北京安德医智科技有限公司慧影医疗科技北京

()、、、()

有限公司

本文件主要起草人李佳戈张宇晶刘士远何昆仑田捷周少华周晓华吴健萧毅刘凯

:、、、、、、、、、、

李静莉孟祥峰李非王晶万遂人詹翊强陆遥李澍郭华源王少康乔昕柴象飞钱天翼葛鑫

、、、、、、、、、、、、、、

费震宇秦川颜子夜郝烨范丽张龙达张培芳张楠刘畅王浩

、、、、、、、、、。

YY/T1858—2022

引言

人工智能算法在肺部影像辅助分析软件当中的应用较多对产品的有效性与安全性影响较大算

,。

法性能测试是产品质量评价的重要环节本文件作为方法标准面向辅助诊断辅助检测等常见场

。,、

景对算法性能指标的定义计算方式测试过程进行规范旨在加强相关产品的质量评价

,、、,。

YY/T1858—2022

人工智能医疗器械肺部影像辅助

分析软件算法性能测试方法

1范围

本文件规定了采用人工智能技术的肺部影像辅助分析软件的算法性能测试方法

本文件适用于采用人工智能技术对肺部影像进行后处理的辅助分析软件

本文件不适用于影像前处理及过程优化

注本文件为检测方法标准不对任何功能做要求

:,。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文

。,

件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于

,;,()

本文件

人工智能医疗器械质量要求和评价第部分术语

YY/T1833.11:

人工智能医疗器械质量要求和评价第部分数据集通用要求

YY/T1833.22:

3术语和定义

界定的以及下列术语和定义适用于本文件

YY/T1833.1、YY/T1833.2。

31

.

通过准则passcriteria

判断一个软件项或算法功能的测试是否通过的判别依据

来源有修改

[:GB/T9386—2008,3.2,]

32

.

测试计划testplan

描述预定测试活动的范围方法资源和进度的一种文档它确定测试项要测试的特征测试任

、、。、、

务执行每一任务的人员以及需要应急对策的任何风险

、。

来源

[:GB/T9386—2008,3.13]

33

.

基线扫描baselinescan

患者接受的首次影像扫描

34

.

随访扫描follow-upscan

患者在随访阶段接受的影像扫描

35

.

重复筛查repeatscreening

以一定周期进行的多次筛查

1

YY/T1858—2022

36

.

征象sign

在进行身体检查或病理检查时通常可由客观测度得到的能够提供医疗进展及疾病状况的迹象及

,、

指标

37

.

影像征象signsinradiology

通过影像学手段获取的征象

38

.

压力样本stresssample

在某算法模型的标定范围内特征容量极大或者极小的样本

,。

39

.

压力测试stresstest

使用压力样本开展测试的过程

注该定义区别于软件测试中的压力测试

:。

4测试要求

41通则

.

算法性能测试是肺部影像辅助分析软件验证与确认的重要环节一般基于测试集对算法进行评

,

估对算法输出结果和参考标准进行定量比较实现假阳性与假阴性重复性与再现性鲁棒性健壮性

,,、、/、

效率等具体指标的评估

本文件描述了独立性能测试的方法测试人员应建立完整的测试文档包括测试计划测试记录和

,,、

测试结果在测试开始前测试人员应根据产品预期用途临床使用场景和目标人群特征确定测试的通

。,、

过准则编写测试计划在测试过程中应形成测试记录保证测试过程的可追溯测试完成后应对测

,。,,。,

试结果进行客观定量的描述对试验结果与产品声称性能指标的符合性给出判定

,。

如测试过程需要复测应限定复测次数的上限例如不超过算法分类结果或检测目标的种类数

,,

量以避免算法对参考标准进行推测或针对性调优

,。

42测试环境

.

测试前测试人员宜搭建测试环境执行以下步骤

,,:

宜在软件用户文档集中规定的最低运行环境下进行测试如在最低环境之外还指定了典型运

a);

行环境宜在该环境下进行必要的测试或理论分析

,。

测试环境中的其他软件如影响待测产品的部署运行和测试测试时应进行控制

b)、,。

在产品临床应用环境下具备测试条件时也可直接选择在临床应用环境下进行测试

c),。

如按要求部署测试环境后软件无法运行或按要求部署测试环境后产品出现重大运行缺陷

d),

如界面无法正常展示频繁崩溃内存泄漏等应在结果中完整记录

(、、),。

测试环境应在结果中完整记录

e)。

注测试环境包括硬件环境和软件环境硬件环境一般是指测试使用的服务器客户端网络连接设备辅助硬件等

:,、、、

设备所构成的环境软件环境指被测软件运行时使用的操作系统数据库云平台支持软件等构成的环境

;、、、。

43测试资源

.

431测试集通用要求

..

测试集的质量应满足测试集应独立于算法训练调优过程保证封闭性和安全性

YY/T1833.2。、,。

2

YY/T1858—2022

肺部影像辅助分析软件的制造商可根据产品预期用途和临床应用场景对测试数据进行限定

,。

注附录给出了测试集描述的样例

:A。

432测试集样本量

..

测试人员宜结合测试的置信度算法主要指标的允差阳性样本在测试集中的比例计算单次测试

、、,

的样本量要求对预期用于分类的产品可采用灵敏度计算单次测试中阳性样本的样本量用特异度计

。,,

算单次测试中阴性样本的样本量计算公式见公式

,(1):

2

Z-αP-P

N=1/2(1)

Δ2……(1)

式中

:

N单次测试中阳性样本阴性样本样本量

———/;

Zα标准正态分布的分位数

1-/2———;

α显著性水平常用取值为

———,0.05;

P灵敏度或特异度的预期值

———;

ΔP的允许误差大小一般取P的置信区间宽度的一半常用的取值为

———,95%,0.05~0.10。

对预期用于检出的产品可采用召回率计算单次测试中阳性样本的样本量对其他预期用途的产

,。

品制造商宜描述单次测试样本量选取的依据

,。

使用单次测试的阳性样本量除以阳性样本的比例患病率得到单次测试的样本总量制造商宜

(),。

提供患病率的数值和来源

433测试集配置

..

测试开始前测试人员宜对测试集进行配置考虑以下要求

,,:

测试集应考虑产品适用的临床使用场景在人群特征疾病分布数据质量要求数据标注标准

a)、、、、

数据采集设备与场所方面的统计学差异确保数据容量与多样性

,。

根据不同的测试目标应组建不同的测试集和测试流程

b),。

应记录测试集的版本标识制造责任方总体样本量样本构成使用日期存储位置

c)、、、、、、。

测试人员宜根据测试集的数据层次从设备人群地区机构数据质量成像参数等方面抽

d),、、、、、

取子测试集开展分层测试评估不同场景不同配置下的算法性能

,,、。

测试数据如包含同一病例在不同时间的数据如基线扫描随访扫描重复筛查应记录数据采

e),、、,

集数据标注的时间地点人员如适用对采集标注过程的差异进行分析对测试数据进行

、、、;,、,

筛选

434扩增数据

..

在算法可靠性鲁棒性测试中可使用以白盒或黑盒方式扩增产生且具备参考标准的仿真数据进行

、,

附加的算法测试研究产品性能的变化趋势以及在极端条件下的表现

,,。

数据扩增宜考虑以下要求

:

白盒扩增方式其内部环节是可理解的如旋转分割叠加噪声伪影叠加滤波重建

a),,:、、/、、;

黑盒扩增方式忽略内部环节集中响应输入和执行条件产生输出如生成对抗网络

b),,:;

如算法依赖的数据特征具有明确定义可针对该特征进行针对性的扩增

c),;

测试计划应描述数据扩增的原理方法依据对扩增的仿真数据与真实世界数据的异同进行

d)、、,

比较论证必要时进行抽样标注和验证

,;

扩增数据集的配置宜符合的要求在标识与版本控制方面扩增数据应与真实数据严格

e)4.3.3。,

区分使用记录可追溯

,。

3

YY/T1858—2022

435体模与标准器

..

如适用算法测试使用的体模与标准器应具备标识信息处于计量校准有效状态加工精度应高于

,,/;

算法声称的测量精度参考标准的精度如适用测试人员应在测试记录中写入体模与标准器的使用

、。,

情况

44测试平台

.

如通过测试平台开展测试活动测试平台宜符合如下要求

,:

数据抽取测试平台可按照指定条件对测试平台可访问的测试数据进行抽取用于组建测试

a):,,

集指定的条件包括样本量阳性样本比例元数据字段信息参考标准信息等

。、、、。

测试集管理测试平台可记录测试集的使用与版本信息以及数据抽取条件

b):,。

可视化工具测试平台可对算法输出结果测试集的参考标准进行可视化的预览和比较

c):、。

测试指标计算测试平台可计算和输出算法性能指标如检出分类分割等情形

d):,、、。

网络安全测试平台应确保测试数据待测产品的安全性

e):、。

如果测试需要在网络条件下进行网速传输服务质量应不低于制造商声称的运行

f),、(QoS)

环境

过程记录平台应为测试活动提供记录包括测试人员活动记录数据操作待测算法运行状

g):,、、

态测试进度测试结果处理等

、、。

45测试指标与通过准则

.

测试人员应根据产品技术特性预期用途和使用场景在测试计划中列出客观定量的测试指标

、,、。

制造商应给出各指标的标称值及其允差或上下限通过准则包括单项指标和产品整体质量测试所选

。,

取的各项指标应在测试计划中进行描述如适用应从病灶部位病例测试集子集和测试集总体等层

。,、、、

次开展统计分析判断各单项指标是否通过对于产品整体质量测试人员应根据产品预期用途和风险

,。,

分析确定适用的整体评估指标作为产品整体质量的判定依据测试人员应确定各项单项指标和整体

,,。

指标的通过阈值即各项指标的预期值

,。

注附录给出了测试指标及统计分析的一般思路

:B。

46测试流程要求

.

测试人员应根据测试计划开展测试活动形成测试记录

,。

测试流程各步骤的要求如下

测试前

a)

制造商宜提供接口确保待测产品批量读取测试集中的数据制造商宜提供医学影像的可视化工

,。

具帮助测试人员预览待测产品输出的结果待测产品输出结果的数据结构格式应与测试集的参考标

,。、

准兼容输出结果应与输入数据唯一对应包含测试需要的完整信息如测试样本的编号唯一标识目

。,,、、

标区域所在图像的编号目标区域的位置分类边界端点坐标算法预测的概率等测试人员宜选用小

、、、、。

批量数据进行预测试避免系统偏差评估参考标准与输出结果的可比性包括但不限于空间位置时

,,,、

序分类尺寸有效数字等上述信息宜写入测试记录

、、、。。

定制服务