#Thieme未来星计划荣誉推出消化病学专题,我们将与未来星计划的小伙伴们持续推荐解读与消化病学相关的最新研究,欢迎关注。同时,欢迎感兴趣的小伙伴加入我们。
本期推荐 & 解读 BY
单飞 | 南昌大学
↓ 消化病学专题丨70
背景和研究目的
基于人工智能(AI)的计算机辅助息肉检测(CADe)系统会定期更新,偶尔会提供可定制的检测阈值,这两者都会影响其性能,但对这些影响知之甚少。这项研究旨在比较不同CADe系统在同一基准数据集上的性能。
结肠镜检查被认为是减少结直肠癌的有效预防措施。然而,据报道,在此过程中遗漏了17%-48%的腺瘤。息肉的计算机辅助检测系统(CADe)旨在作为内镜医师的辅助措施,帮助识别息肉。2019年,欧洲批准商业分销的第一个CADe系统是GI Genius(爱尔兰美敦力)。前瞻性随机对照研究表明,当内镜医师使用CADe系统时,腺瘤检出率会增加。
这项研究包括两个版本的GI Genius,一个早期版本(软件当前在2020年3月,版本1.0),称为“第一个版本”,以及一个后续版本(软件当前在2021年10月,版本2.0.1),称为“第二个版本”。它还包括Endo-AID(日本奥林巴斯医疗系统公司;软件当前在2022年3月)在其检测类型A和B中的性能,最后是免费系统EndoMind。我们的目的是比较系统的灵敏度,使用完全注释的数据集来表征它们的检测强度。比较其他指标,例如假阳性率和“首次检测时间”(FDT),这是CADe系统检测息肉的速度的衡量标准。此外,计算“联合交叉点”(IoU),评估系统准确定位息肉的能力。
Endoscopy
Direct comparison of multiple computer-aided polyp detection systems
Troya Joel et al.
中文内容仅供参考,以英文原文为准,欢迎识别二维码阅读。
方法
以101个结肠镜视频为基准。每个带有可见息肉的视频帧都用框手动注释,得到129705个息肉图像。然后通过三种不同的CADe系统对视频进行分析,代表五种情况:两种版本的GI Genius,检测类型为A和B的Endo-AID,以及免费提供的EndoMind系统。评估包括敏感性和假阳性率等指标的分析。
在维尔茨堡大学医院和乌尔姆大学医院(德国)共录制了来自不同患者的244个结肠镜视频,这些视频是在2019年3月至2020年4月期间,通过内镜处理器(奥林巴斯CV-190)的高清晰度视频信号录制的。CADe数据采集所有原始结肠镜检查视频由每个CADe系统以相同的方式处理。使用视频转换器将信号从笔记本电脑发送到CADe系统。使用录像机记录每个CADe系统的HD信号。使用Python开发了检测边界框位置的自定义算法。
结果
Endo-AID检测A型、早期版本的GI Genius和EndoMind检测到所有93个息肉。GI Genius后期版本和Endo-AID B型均漏检1个息肉。GI Genius早期和晚期版本的平均每帧敏感性分别为50.63%和67.85%,Endo-AID A型和B型分别为65.60%和52.95%,EndoMind为60.22%。
GI Genius第二版未检测到位于右侧结肠10.20秒的Paris 0-IIa型无蒂锯齿状腺瘤(SSA)(图1a)。根据德国和美国指南,这将导致患者随访延迟7年。 Endo-AID(B型)未在右侧结肠中检测到存在0.87秒的巴黎0-IIa息肉(图1b),内镜医师也未看到。

图1. 未检测到的息肉图像:a通过GI Genius版本2;或b通过Endo-AID使用检测类型B。
总体平均每帧灵敏度为每个系统如下:GI Genius第一版,50.63%(95%CI 45.20%-56.07%);GI Genius第二版,67.85%(95%CI 63.26%-72.43%);Endo-AID Type A,65.60%(95%CI 60.26%-70.95%);Endo-AID Type B,52.95%(95%CI 46.92%-58.99%);和EndoMind,60.22%(95%CI 54.66%-65.78 %) (表1)。

表1. 每个分析的计算机辅助检测系统(CADe)系统的每段息肉和每帧灵敏度。
除GI Genius第二版和Endo-AID A型之间(P=0.460)和GI Genius第一版和Endo-AID B型之间(P=0.242)外,所有设备之间的每帧灵敏度中位数均有显着差异。形态在所有设备中,与0-Ip型(85.90%,IQR 71.40%-95.40%)或0-Is型(81.00%,IQR 64.25%-89.15%)相比,扁平息肉(51.70%,四分位范围[IQR] 29.35%-72.58%)的平均每帧灵敏度显着降低。
每个系统的平均FDT如下:GI Genius第一版,1510毫秒(95%CI 1125-1895);GI Genius第二版,607毫秒(95%CI 411-803);Endo-AID(A型),659毫秒(95%CI 410-909);Endo-AID(B型),1316毫秒(95%CI 951-1682);和EndoMind,1083毫秒(95%CI 627-1539)。
IoU平均值如下(图2):GI Genius第一版,58.18%(95%CI 58.0%-58.36%);GI Genius第二版,61.06%(95%CI 60.91%-61.21%);Endo-AID Type A,63.54%(95%CI 63.38%-63.70%);Endo-AID Type B,66.13%(95%CI 65.98%-66.29%);和EndoMind,68.32%(95%CI 68.15%-68.48%)。当检测时,IoU分布的所有平均值彼此显着不同。

图2. 小提琴图显示了识别息肉的手动注释区域(作为边界框)和显示的计算机辅助检测(CADe)区域之间的联合(IoU)值的交集分布。小提琴图类似于盒子图,在每边都添加了密度图。此外,还显示了一个盒子图:盒子的末端代表上下四分位数;盒子内的连续线显示中位数(第二个四分位数);虚线表示IoU分布的平均值。
假阳性(FP)率(图3),GI Genius第一版共提供41411个FP图像帧,相当于所有图像的2.75%。GI Genius第二版的对应值为57278个FP图像(3.80%);Endo-AID Type A,38012个FP图像(2.52%);EndoAIDS Type B,9432个FP图像(0.63%);和免费提供的EndoMind,55631个FP图像(3.69%)。

图3. 条形图显示了由每个分析的CADe系统的假阳性图像帧的总量。

表2. 不同的计算机辅助检测(CADe)系统的比较结果汇总。
结论
本研究比较了不同CADe系统、不同更新和不同配置模式的性能。这可能有助于临床医生选择最适合他们特定需求的系统。
讨论
最近发表的随机临床试验提供了CADe系统(如GI Genius和Endo-AID)与无CADe辅助的检查相比检测更多腺瘤的能力的证据。此后,CADe系统在临床实践中的使用频率增多。然而,正如已经讨论过的,很难比较CADe系统来确定哪个性能更好。此外,现有系统的更新可能会影响它们检测息肉的能力。出于这些原因,不同制造商和不同版本的CADe系统需要随着时间的推移进行比较,在相同条件下使用相同的数据集。
在这项研究中,我们比较了GI Genius系统的演变。据我们所知,这是前所未有的。第一个版本可能更接近或等于Repici等人在2019年9月至11月的研究期间使用的版本。第二个版本可能类似于Repici等人在2020年2月至12月的研究期间使用的版本。我们已经发现,较晚的版本比第一个版本明显更敏感,检测息肉所需的时间更少。
这项研究有一些局限性。Endo-AID系统使用EVIS X1 CV-1500视频处理器,因此使用Serie 1500视频结肠镜将是一个理想的选择。然而,CF-HQ190视频结肠镜具有很大的优势,即得到本研究中比较的所有CADe系统的支持,包括Endo-AID。因此,我们从我们的数据集中排除了所有用CF-H180视频结肠镜记录的视频。这是一项回顾性研究,并非内镜医师检测到的所有息肉都被切除。最后,虽然我们的研究为不同CADe系统的性能趋势提供了宝贵的见解。
总之,我们目前的研究首次描述了三个AI息肉检测系统在同一数据集中的性能。此外,逐帧分析给出了更稳定的结果,并更清晰地了解了系统在真实条件下的表现。据观察,GI Genius软件更新显着提高了灵敏度。还观察到根据所选检测类型对Endo-AID系统的影响。最后,EndoMind,一个在公立医院开发的免费系统,已被证明与商业系统的性能相似。根据这里介绍的结果,临床医生可能会有更多信息,通过选择具有首选灵敏度-特异性平衡的系统来选择最适合的CADe系统。
欧洲胃肠道内镜学会(ESGE)及其附属学会的官方期刊。
Endoscopy为关于胃肠道内窥镜检查的最新技术和国际发展的重要期刊。在国际编委会的专家指导下,本刊提供高质量的内容,以满足全球内窥镜医师、外科医生、临床医生和研究人员的需求。
Endoscopy每年出版12期,内容包括高质量的综述论文、原创论文、前瞻性研究、有价值的诊断和治疗进展调查、以及对最重要的国内和国际会议进行的深入报道。文章经常辅以在线视频内容。
在Endoscopy上出版的所有论文都经过严格的同行评审。基于在线投稿和快速处理,保证了电子版和印刷版的出版速度。
