
發(fā)布人:管理員 發(fā)布時(shí)間:2022-09-27
摘要 目的:人工智能醫(yī)療器械的應(yīng)用越來越廣泛,但目前并沒有對(duì)其性能的評(píng)價(jià)標(biāo)準(zhǔn)。希望通過本文研究為人工智能醫(yī)療器械的客觀評(píng)估提供幫助。
方法:從不同的應(yīng)用角度對(duì)人工智能醫(yī)療器械評(píng)估參數(shù)進(jìn)行了梳理,比較了各個(gè)參數(shù)的特點(diǎn)和使用場(chǎng)景。
結(jié)果與結(jié)論:不同的評(píng)估參數(shù)所適用的場(chǎng)景不同,評(píng)估結(jié)果也存在差異,在進(jìn)行人工智能產(chǎn)品評(píng)價(jià)時(shí)應(yīng)根據(jù)產(chǎn)品特性合理選擇。
關(guān)鍵詞: 人工智能醫(yī)療器械;性能評(píng)價(jià);分類;分割
人工智能醫(yī)療器械作為一種新興的醫(yī)療器械,在輔助診斷、輔助篩查等諸多領(lǐng)域?qū)崿F(xiàn)了突破?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)可以幫助醫(yī)生識(shí)別
CT影像、病理切片、皮膚損傷、視網(wǎng)膜圖像、心電圖、內(nèi)窺鏡檢查、面部和生命體征[1-3]。人工智
能產(chǎn)品一般是對(duì)樣本數(shù)據(jù)進(jìn)行分類或?qū)颖緮?shù)據(jù)的異常特征進(jìn)行標(biāo)記或提取。對(duì)于它們的評(píng)估多為算
法的評(píng)估結(jié)果與參考標(biāo)準(zhǔn)(臨床“金標(biāo)準(zhǔn)”或有
經(jīng)驗(yàn)臨床醫(yī)生的診斷結(jié)果)進(jìn)行比較[4],使用召回率、特異性、準(zhǔn)確度等參數(shù)的數(shù)值大小或曲線關(guān)系來表示產(chǎn)品的質(zhì)量水平。對(duì)于人工智能產(chǎn)品不同的功能,如分類、分割、檢出;或者不同的應(yīng)用場(chǎng)景,如體檢應(yīng)用、門診應(yīng)用;或者不同的評(píng)價(jià)目的如產(chǎn)品研發(fā)過程的評(píng)價(jià)、迭代后性能的評(píng)價(jià)、不同產(chǎn)品的比較評(píng)價(jià),都應(yīng)該依據(jù)自身特點(diǎn)合理地選擇評(píng)價(jià)參數(shù),因?yàn)椴煌膮?shù)所體現(xiàn)產(chǎn)品的能力是不一樣的。
目前,我國(guó)雖組建了人工智能醫(yī)療器械歸口
單位,相應(yīng)的標(biāo)準(zhǔn)也在不斷的規(guī)劃中,但現(xiàn)階段國(guó)
內(nèi)外尚未建立人工智能醫(yī)療器械的評(píng)價(jià)標(biāo)準(zhǔn)與方法
規(guī)范。本文對(duì)工智能產(chǎn)品的評(píng)估參數(shù)進(jìn)行了分析,
簡(jiǎn)述了各個(gè)參數(shù)的特點(diǎn),這將有助于進(jìn)一步明晰影像類人工智能產(chǎn)品的評(píng)價(jià)工作,為人工智能產(chǎn)品的
研發(fā)和質(zhì)控提供指導(dǎo)。
1 分類評(píng)估參數(shù)
人工智能(Artificial Intelligence,AI)醫(yī)療器
械的輔助篩查、輔助識(shí)別或輔助診斷等功能多是給
出患者數(shù)據(jù)的狀態(tài)分類,如二分類的陰性(非患
病)、陽性(患病),或多分類如糖尿病視網(wǎng)膜病
變篩查的0期~VI期[5]。對(duì)于分類問題可采用混淆矩
陣的方法[6],見表1,進(jìn)而計(jì)算靈敏度、特異性、
準(zhǔn)確率等參數(shù)。
Ni,j(i=1~n,j=1~n)為真實(shí)分類為i類,被AI
產(chǎn)品判為j類的個(gè)數(shù);Psen,i為第i類為陽性,其他類
為陰性的靈敏度;Pspe,i為第i類為陽性,其他類為陰性的特異性。
靈敏度指參考標(biāo)準(zhǔn)中實(shí)際的陽性樣本被正確
判斷的比率,見式(1),用來評(píng)估人工智能產(chǎn)品
對(duì)目標(biāo)疾病的識(shí)別能力。相反,特異性是指參考
標(biāo)準(zhǔn)中實(shí)際的陰性樣本被正確判斷的比率,見式
(2),用來評(píng)估人工智能產(chǎn)品對(duì)非目標(biāo)疾病的識(shí)
別能力。而準(zhǔn)確度是指所有樣本被正確判斷的比率,見式(3)。這些參數(shù)都是0~1的數(shù)值,越接近1表示算法的性能越好。
單一參數(shù)很高并不能說明產(chǎn)品的優(yōu)劣。比如
準(zhǔn)確度,其數(shù)值與發(fā)病率有一定相關(guān)性,當(dāng)某一
類數(shù)據(jù)的樣本量遠(yuǎn)大于另一類時(shí),即使另一類全
部判斷錯(cuò)誤也不會(huì)對(duì)準(zhǔn)確度產(chǎn)生太大影響,所以即
使分?jǐn)?shù)很高,也無法對(duì)于特定類別的識(shí)別能力進(jìn)
行判斷。所以大部分情況下可用多個(gè)參數(shù)同時(shí)用于
產(chǎn)品性能的評(píng)估,比如用靈敏度和特異性兩個(gè)參數(shù)來評(píng)價(jià)產(chǎn)品的性能。一般成熟的產(chǎn)品算法的評(píng)估
閾值是一定的,也就是靈敏度和特異性是[敏感詞]的。
特定閾值下的參數(shù)只能體現(xiàn)產(chǎn)品應(yīng)用性能的優(yōu)劣,
并不能評(píng)價(jià)產(chǎn)品算法的優(yōu)劣,比如一個(gè)優(yōu)質(zhì)算法在
一個(gè)存在偏倚的數(shù)據(jù)集上進(jìn)行訓(xùn)練,產(chǎn)品出廠時(shí)并
沒有選擇最優(yōu)的閾值,這導(dǎo)致召回率等參數(shù)沒達(dá)到
預(yù)期。所以為了進(jìn)一步評(píng)價(jià)算法的好壞通常采用
ROC、Precision-Recall(P-R)曲線等來對(duì)產(chǎn)品進(jìn)行
評(píng)價(jià)[7]。在醫(yī)用范疇,多數(shù)情況下正負(fù)樣本比例差
距較大(與發(fā)病率相關(guān),Precision-Recall曲線在正
負(fù)樣本不均衡的情況下會(huì)出現(xiàn)較大波動(dòng)),且ROC
曲線包含混淆矩陣的所有信息(Precision-Recall曲
線缺少混淆矩陣的真陰性個(gè)數(shù)信息),因此ROC曲
線更常見。它通過調(diào)節(jié)算法的閾值來計(jì)算不同閾值
下的靈敏度和特異性,以1減特異性為橫坐標(biāo),靈
敏度為縱坐標(biāo),繪制ROC曲線,ROC曲線不僅能體
現(xiàn)算法在不同閾值下的泛化能力,同時(shí),還通過計(jì)
算曲線[敏感詞]積(AUC)對(duì)不同的AI產(chǎn)品用一個(gè)參數(shù)
進(jìn)行比較。
2 分割評(píng)估參數(shù)
人工智能輔助檢測(cè)功能多應(yīng)用于影像識(shí)別類
產(chǎn)品,其作用在于準(zhǔn)確地識(shí)別圖像中的病灶位置
并進(jìn)行邊界分割,其分割性能多采用分割結(jié)果與
參考標(biāo)準(zhǔn)比較,比如在FDA發(fā)布的計(jì)算機(jī)輔助探測(cè)
(Computer-assisted Detection Devices)的510(k)
提交指導(dǎo)原則[8]中提到了用分割區(qū)域的位置關(guān)系進(jìn)
行評(píng)價(jià)計(jì)算。目前比較算法中被廣泛應(yīng)用的評(píng)價(jià)方
式有兩種:Jaccard系數(shù)[也稱之為交并比(IoU)]和
Dice系數(shù)[9-10]。
交并比是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交
集與并集(見圖1)的比率,見式(4):
Dice系數(shù)是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交
集與二者區(qū)域平均值的比率,見式(5):
A. 參考標(biāo)準(zhǔn)的分割面積;B. 人工智能算法的分割面積;C. 參考標(biāo)準(zhǔn)與人工智能算法分割面積的重疊部分。
圖1 尺寸分割評(píng)價(jià)參數(shù)舉例
從公式(4)和(5)可以看出,雖然二者都
是在0~1變化的數(shù)值,但相同情況下IoU數(shù)值要低
于Dice系數(shù),見式(6):
IoU比Dice系數(shù)提供了更寬的數(shù)值評(píng)估范圍,
尤其是在分割結(jié)果較差的情況下,IoU能更好地評(píng)
估分割圖像中的微小變化,對(duì)于不同產(chǎn)品的評(píng)價(jià)提
供了更好的區(qū)分度;如果一個(gè)AI產(chǎn)品的分割性能進(jìn)
行了提升,隨著重疊面積的增加,Dice系數(shù)呈線性
變化,而IoU呈非線性變化,這對(duì)于同一產(chǎn)品分割
性能的評(píng)價(jià),尤其在算法整改后的評(píng)價(jià)上,Dice更為直觀。
對(duì)于分割性能,在檢出類AI產(chǎn)品如肺結(jié)節(jié)識(shí)
別上,有可能會(huì)通過區(qū)域分割指標(biāo)來判斷真陽性
(TP)和假陽性(FP),進(jìn)而計(jì)算靈敏度、特異
性等參數(shù),就是要確定分割性能參數(shù)閾值的大小,
這涉及了標(biāo)記匹配的內(nèi)容[11]。比如交并比不低于某
一小于1的數(shù),這個(gè)數(shù)值直接決定了是否被命中,
進(jìn)而影響靈敏度、[敏感詞]度等參數(shù)。我們能判斷越接
近于1,算法是越[敏感詞]的,但是我們無法確切定義
哪個(gè)百分比對(duì)于臨床醫(yī)生的使用是足夠了,也就是
檢出來了,這部分還有待進(jìn)一步研究。
此外,還可以把算法分割結(jié)果與參考標(biāo)準(zhǔn)當(dāng)
成兩個(gè)像素集,二者重疊像素點(diǎn)記為TP,參考標(biāo)
準(zhǔn)去掉TP部分為FN,算法分割結(jié)果去掉TP部分為
FP,這樣可以用召回率[見式(7)]和[敏感詞]度[見式(8)]兩個(gè)參數(shù)對(duì)分割結(jié)果進(jìn)行評(píng)價(jià),見圖2。這 類似于對(duì)于病灶檢出的評(píng)價(jià)方式。
當(dāng)召回率為1時(shí),參考標(biāo)準(zhǔn)被完全包裹在算法
分割區(qū)域范圍內(nèi),如圖3所示;當(dāng)[敏感詞]度為1時(shí),算
法分割區(qū)域被完全包裹在參考標(biāo)準(zhǔn)范圍內(nèi),如圖4
所示。通過兩個(gè)參數(shù)不僅可以分析分割結(jié)果的相關(guān)
度,還可以對(duì)分割的位置及形狀進(jìn)行判斷,IoU和
Dice雖然能分析分割結(jié)果的相關(guān)度,但通過參數(shù)不
能判斷分割面積的大小和相互包含關(guān)系。
3 檢出算法的曲線評(píng)估參數(shù)
檢出類算法一般會(huì)在一幅圖像上診斷出多個(gè)
異常,這種病灶檢出的方式無法采用ROC曲線進(jìn)行
評(píng)價(jià),因?yàn)榧訇栃缘膫€(gè)數(shù)是沒有限制的。這種情況
一般采用FROC曲線來進(jìn)行評(píng)價(jià)。其繪制方法是在
不同的閾值下,計(jì)算算法的召回率和平均假陽個(gè)數(shù)
(平均每個(gè)病人所含有的假陽個(gè)數(shù))。以召回率為
縱坐標(biāo),平均假陽個(gè)數(shù)為橫坐標(biāo),繪制曲線。對(duì)于
曲線評(píng)價(jià),我們不僅希望從曲線的趨勢(shì)圖或曲線上
特定點(diǎn)來評(píng)價(jià)算法的好壞,我們更希望通過曲線提
取出一個(gè)綜合參數(shù),用這個(gè)參數(shù)對(duì)算法進(jìn)行評(píng)價(jià),
比如ROC曲線的AUC。對(duì)于FROC,同樣可以計(jì)算
曲線下的面積,但這種方式可能需要調(diào)節(jié)多個(gè)閾
值,計(jì)算量較大。且假陽結(jié)節(jié)的數(shù)量會(huì)因?yàn)楫a(chǎn)品的
性能不同而不同,這導(dǎo)致FROC曲線橫坐標(biāo)(平均
假陽個(gè)數(shù))終點(diǎn)不一致,這樣計(jì)算的面積很難進(jìn)行
橫向比較。為解決這一問題,可以采用給橫坐標(biāo)一
個(gè)限制,如橫坐標(biāo)都采用平均假陽個(gè)數(shù)8個(gè),這樣
面積的理想值就進(jìn)行了統(tǒng)一,但損失了一部分閾值
下的數(shù)據(jù)考量。另一個(gè)問題,對(duì)于較好或較差的算
法,平均假陽個(gè)數(shù)8個(gè)可能會(huì)太多或者太少,給評(píng)價(jià)帶來一定的局限。我們還可采用曲線上召回率的
平均值,這種對(duì)于線性度較好的曲線是個(gè)不錯(cuò)的選
擇,但對(duì)于線性度較差的曲線,可能會(huì)存在偏差。
Precision-Recall曲線是以召回率為橫坐標(biāo),精
確度為縱坐標(biāo)繪制的曲線。曲線構(gòu)造和ROC曲線類
似[10],曲線[敏感詞]積理想值為1。該曲線的評(píng)價(jià)方式
很好地繼承了ROC曲線的優(yōu)點(diǎn),能夠?qū)崿F(xiàn)不同算法
性能的評(píng)估和統(tǒng)計(jì)比較。
FROC與P-R曲線都包含了TP、FP、FN的信
息,兩種曲線有著各自的特點(diǎn),見圖5、圖6。在
FROC曲線上能更為直觀地找到曲線的拐點(diǎn),這對(duì)
于產(chǎn)品研發(fā)階段合理的閾值調(diào)節(jié)具有很大的幫助。
但曲線在閾值無限小的情況下,召回率趨于定值,
而平均假陽個(gè)數(shù)是在不斷增加的,無法通過計(jì)算
FROC曲線下的面積對(duì)AI算法進(jìn)行評(píng)估,這一點(diǎn)上
P-R曲線更具優(yōu)勢(shì)。P-R曲線理想狀態(tài)下曲線[敏感詞]
積為1,隨著閾值的減小[敏感詞]度趨于0,可以通過曲
線[敏感詞]積對(duì)不同算法進(jìn)行比較[12]。此外,P-R曲線
的橫坐標(biāo)和縱坐標(biāo)都和TP的數(shù)量密切相關(guān),如果
數(shù)據(jù)集陽性樣本數(shù)量變化時(shí),曲線的變化有可能會(huì)
大于FROC曲線。
4 總結(jié)
統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)是人工智能算法質(zhì)量評(píng)估重
要的研究?jī)?nèi)容之一,這有助于實(shí)現(xiàn)AI算法的橫向比
較,使評(píng)價(jià)更為客觀。本文討論了不同評(píng)估參數(shù)的
定義及適用場(chǎng)景,簡(jiǎn)述了它們各自的優(yōu)缺點(diǎn),但目
前還沒有形成統(tǒng)一的標(biāo)準(zhǔn)。相信隨著人工智能在醫(yī)
療領(lǐng)域的普及,以及臨床實(shí)際應(yīng)用經(jīng)驗(yàn)與應(yīng)用模式
(如人+AI工作、AI單獨(dú)工作)的不斷進(jìn)步,評(píng)價(jià)
標(biāo)準(zhǔn)會(huì)逐步統(tǒng)一和提高。但現(xiàn)階段,任何對(duì)于AI算
法的評(píng)估,不僅要給出數(shù)據(jù)集的情況描述,還應(yīng)給
出全面的質(zhì)量評(píng)估算法的描述,不能直接給出一個(gè)
最終結(jié)果。
參考文獻(xiàn):
[1] Eric J Topol. High-performance Medicine:The
Convergence of Human and Artificial Intelligence[J].
Nature Medicine,2009,25:44-56.
[2] Setio A AA,Traverso A,De Bel T,et al. Validation,
Comparison,and Combination of Algorithms for Automatic
Detection of Pulmonary Nodules in Computed Tomography
Images:The LUNA16 Challenge[J]. Medical Image
Analysis,2017,42:1-13.
[3] Gulshan V,Peng L,Coram M,et al. Development and
Validation of a Deep Learning Algorithm for Detection of
Diabetic Retinopathy in Retinal Fundus Photographs[J].
JAMA,2016,316(22):2402–2410.
[4] Petrick N,Sahiner B,Armato SG,et al. Evaluation of
Computer-aided Detection and Diagnosis Systems[J].
MedPhys,2013,40(8):87001.
[5] 中華醫(yī)學(xué)會(huì)眼科學(xué)會(huì)眼底病學(xué)組. 我國(guó)糖尿病視網(wǎng)膜病變臨床診療指南(2014年)[J]. 中華眼科雜志,
2014,50(11):851-865.
[6] 孟祥峰,王浩,王權(quán),等. 影像類人工智能醫(yī)療器械評(píng)
價(jià)方法研究[J]. 中國(guó)醫(yī)療設(shè)備,2018,33(12):23-
26,30.
[7] Jesse Davis,Mark Goadrich. The Relationship Between
Precision-recall and ROC Curves[C].Appearing in
Proceedings of the 23rd International Conference on
Machine Learning:Pittsburgh,PA,2006.
[8] FDA. Computer-Assisted Detection Devices Applied to
Radiology Images and Radiology Device Data–Premarket
Notification [510(k)] Submissions[S]. Washington DC:
Food and Drug Administration,2009.
[9] Chang H H,Zhuang A H,Valentino D J,et al.
Performance Measure Characterization for Evaluating
Neuroimage Segmentation Algorithms[J]. NeuroImage,
2009,47(1):122-135.
[10] Cárdenes R,de LuisGarcía R,Bachcuadra M. A
Multidimensional Segmentation Evaluation for Medical
Image Data[J]. Comput Methods Programs Biomed,
2009,96(2):108-124.
[11] Kallergi M,Carney G M,Gaviria J. Evaluating
the Performance of Detection Algorithms in Digital
Mammography[J]. Medical Physics,1999,26(2):
267.
[12] Sahiner B,Chen W,Pezeshk A,et al. Semi-parametric
Estimation of the Area Under the Precision-recall Curve[C].
Spie Medical Imaging,2016.
作者:孟祥峰,王浩,張超,任海萍 *
(中國(guó)食品藥品檢定研究院,北京 100050)