<samp id="ei6kk"><tbody id="ei6kk"></tbody></samp>
  • <cite id="ei6kk"></cite>
  • 人工智能醫(yī)療器械輔助診斷及探測(cè)性能評(píng)估參數(shù)的討論

    發(fā)布人:管理員 發(fā)布時(shí)間:2022-09-27

    摘要 目的:人工智能醫(yī)療器械的應(yīng)用越來越廣泛,但目前并沒有對(duì)其性能的評(píng)價(jià)標(biāo)準(zhǔn)。希望通過本文研究為人工智能醫(yī)療器械的客觀評(píng)估提供幫助。
    方法:從不同的應(yīng)用角度對(duì)人工智能醫(yī)療器械評(píng)估參數(shù)進(jìn)行了梳理,比較了各個(gè)參數(shù)的特點(diǎn)和使用場(chǎng)景。
    結(jié)果與結(jié)論:不同的評(píng)估參數(shù)所適用的場(chǎng)景不同,評(píng)估結(jié)果也存在差異,在進(jìn)行人工智能產(chǎn)品評(píng)價(jià)時(shí)應(yīng)根據(jù)產(chǎn)品特性合理選擇。


    關(guān)鍵詞: 人工智能醫(yī)療器械;性能評(píng)價(jià);分類;分割

    人工智能醫(yī)療器械作為一種新興的醫(yī)療器械,在輔助診斷、輔助篩查等諸多領(lǐng)域?qū)崿F(xiàn)了突破?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)可以幫助醫(yī)生識(shí)別 CT影像、病理切片、皮膚損傷、視網(wǎng)膜圖像、心電圖、內(nèi)窺鏡檢查、面部和生命體征[1-3]。人工智 能產(chǎn)品一般是對(duì)樣本數(shù)據(jù)進(jìn)行分類或?qū)颖緮?shù)據(jù)的異常特征進(jìn)行標(biāo)記或提取。對(duì)于它們的評(píng)估多為算 法的評(píng)估結(jié)果與參考標(biāo)準(zhǔn)(臨床“金標(biāo)準(zhǔn)”或有 經(jīng)驗(yàn)臨床醫(yī)生的診斷結(jié)果)進(jìn)行比較[4],使用召回率、特異性、準(zhǔn)確度等參數(shù)的數(shù)值大小或曲線關(guān)系來表示產(chǎn)品的質(zhì)量水平。對(duì)于人工智能產(chǎn)品不同的功能,如分類、分割、檢出;或者不同的應(yīng)用場(chǎng)景,如體檢應(yīng)用、門診應(yīng)用;或者不同的評(píng)價(jià)目的如產(chǎn)品研發(fā)過程的評(píng)價(jià)、迭代后性能的評(píng)價(jià)、不同產(chǎn)品的比較評(píng)價(jià),都應(yīng)該依據(jù)自身特點(diǎn)合理地選擇評(píng)價(jià)參數(shù),因?yàn)椴煌膮?shù)所體現(xiàn)產(chǎn)品的能力是不一樣的。

    目前,我國(guó)雖組建了人工智能醫(yī)療器械歸口 單位,相應(yīng)的標(biāo)準(zhǔn)也在不斷的規(guī)劃中,但現(xiàn)階段國(guó) 內(nèi)外尚未建立人工智能醫(yī)療器械的評(píng)價(jià)標(biāo)準(zhǔn)與方法 規(guī)范。本文對(duì)工智能產(chǎn)品的評(píng)估參數(shù)進(jìn)行了分析, 簡(jiǎn)述了各個(gè)參數(shù)的特點(diǎn),這將有助于進(jìn)一步明晰影像類人工智能產(chǎn)品的評(píng)價(jià)工作,為人工智能產(chǎn)品的 研發(fā)和質(zhì)控提供指導(dǎo)。

    1 分類評(píng)估參數(shù)

    人工智能(Artificial Intelligence,AI)醫(yī)療器 械的輔助篩查、輔助識(shí)別或輔助診斷等功能多是給 出患者數(shù)據(jù)的狀態(tài)分類,如二分類的陰性(非患 病)、陽性(患病),或多分類如糖尿病視網(wǎng)膜病 變篩查的0期~VI期[5]。對(duì)于分類問題可采用混淆矩 陣的方法[6],見表1,進(jìn)而計(jì)算靈敏度、特異性、 準(zhǔn)確率等參數(shù)。

    1.png

    2.png


    Ni,j(i=1~n,j=1~n)為真實(shí)分類為i類,被AI 產(chǎn)品判為j類的個(gè)數(shù);Psen,i為第i類為陽性,其他類 為陰性的靈敏度;Pspe,i為第i類為陽性,其他類為陰性的特異性。

    靈敏度指參考標(biāo)準(zhǔn)中實(shí)際的陽性樣本被正確 判斷的比率,見式(1),用來評(píng)估人工智能產(chǎn)品 對(duì)目標(biāo)疾病的識(shí)別能力。相反,特異性是指參考 標(biāo)準(zhǔn)中實(shí)際的陰性樣本被正確判斷的比率,見式 (2),用來評(píng)估人工智能產(chǎn)品對(duì)非目標(biāo)疾病的識(shí) 別能力。而準(zhǔn)確度是指所有樣本被正確判斷的比率,見式(3)。這些參數(shù)都是0~1的數(shù)值,越接近1表示算法的性能越好。

    單一參數(shù)很高并不能說明產(chǎn)品的優(yōu)劣。比如 準(zhǔn)確度,其數(shù)值與發(fā)病率有一定相關(guān)性,當(dāng)某一 類數(shù)據(jù)的樣本量遠(yuǎn)大于另一類時(shí),即使另一類全 部判斷錯(cuò)誤也不會(huì)對(duì)準(zhǔn)確度產(chǎn)生太大影響,所以即 使分?jǐn)?shù)很高,也無法對(duì)于特定類別的識(shí)別能力進(jìn) 行判斷。所以大部分情況下可用多個(gè)參數(shù)同時(shí)用于 產(chǎn)品性能的評(píng)估,比如用靈敏度和特異性兩個(gè)參數(shù)來評(píng)價(jià)產(chǎn)品的性能。一般成熟的產(chǎn)品算法的評(píng)估 閾值是一定的,也就是靈敏度和特異性是[敏感詞]的。 特定閾值下的參數(shù)只能體現(xiàn)產(chǎn)品應(yīng)用性能的優(yōu)劣, 并不能評(píng)價(jià)產(chǎn)品算法的優(yōu)劣,比如一個(gè)優(yōu)質(zhì)算法在 一個(gè)存在偏倚的數(shù)據(jù)集上進(jìn)行訓(xùn)練,產(chǎn)品出廠時(shí)并 沒有選擇最優(yōu)的閾值,這導(dǎo)致召回率等參數(shù)沒達(dá)到 預(yù)期。所以為了進(jìn)一步評(píng)價(jià)算法的好壞通常采用 ROC、Precision-Recall(P-R)曲線等來對(duì)產(chǎn)品進(jìn)行 評(píng)價(jià)[7]。在醫(yī)用范疇,多數(shù)情況下正負(fù)樣本比例差 距較大(與發(fā)病率相關(guān),Precision-Recall曲線在正 負(fù)樣本不均衡的情況下會(huì)出現(xiàn)較大波動(dòng)),且ROC 曲線包含混淆矩陣的所有信息(Precision-Recall曲 線缺少混淆矩陣的真陰性個(gè)數(shù)信息),因此ROC曲 線更常見。它通過調(diào)節(jié)算法的閾值來計(jì)算不同閾值 下的靈敏度和特異性,以1減特異性為橫坐標(biāo),靈 敏度為縱坐標(biāo),繪制ROC曲線,ROC曲線不僅能體 現(xiàn)算法在不同閾值下的泛化能力,同時(shí),還通過計(jì) 算曲線[敏感詞]積(AUC)對(duì)不同的AI產(chǎn)品用一個(gè)參數(shù) 進(jìn)行比較。

    2 分割評(píng)估參數(shù)

    人工智能輔助檢測(cè)功能多應(yīng)用于影像識(shí)別類 產(chǎn)品,其作用在于準(zhǔn)確地識(shí)別圖像中的病灶位置 并進(jìn)行邊界分割,其分割性能多采用分割結(jié)果與 參考標(biāo)準(zhǔn)比較,比如在FDA發(fā)布的計(jì)算機(jī)輔助探測(cè) (Computer-assisted Detection Devices)的510(k) 提交指導(dǎo)原則[8]中提到了用分割區(qū)域的位置關(guān)系進(jìn) 行評(píng)價(jià)計(jì)算。目前比較算法中被廣泛應(yīng)用的評(píng)價(jià)方 式有兩種:Jaccard系數(shù)[也稱之為交并比(IoU)]和 Dice系數(shù)[9-10]。

    交并比是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交 集與并集(見圖1)的比率,見式(4):

    3.png


    Dice系數(shù)是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交 集與二者區(qū)域平均值的比率,見式(5):

    4.png

    5.png

    A. 參考標(biāo)準(zhǔn)的分割面積;B. 人工智能算法的分割面積;C. 參考標(biāo)準(zhǔn)與人工智能算法分割面積的重疊部分。
    圖1 尺寸分割評(píng)價(jià)參數(shù)舉例

    從公式(4)和(5)可以看出,雖然二者都 是在0~1變化的數(shù)值,但相同情況下IoU數(shù)值要低 于Dice系數(shù),見式(6):

    6.png



    IoU比Dice系數(shù)提供了更寬的數(shù)值評(píng)估范圍, 尤其是在分割結(jié)果較差的情況下,IoU能更好地評(píng) 估分割圖像中的微小變化,對(duì)于不同產(chǎn)品的評(píng)價(jià)提 供了更好的區(qū)分度;如果一個(gè)AI產(chǎn)品的分割性能進(jìn) 行了提升,隨著重疊面積的增加,Dice系數(shù)呈線性 變化,而IoU呈非線性變化,這對(duì)于同一產(chǎn)品分割 性能的評(píng)價(jià),尤其在算法整改后的評(píng)價(jià)上,Dice更為直觀。 對(duì)于分割性能,在檢出類AI產(chǎn)品如肺結(jié)節(jié)識(shí) 別上,有可能會(huì)通過區(qū)域分割指標(biāo)來判斷真陽性 (TP)和假陽性(FP),進(jìn)而計(jì)算靈敏度、特異 性等參數(shù),就是要確定分割性能參數(shù)閾值的大小, 這涉及了標(biāo)記匹配的內(nèi)容[11]。比如交并比不低于某 一小于1的數(shù),這個(gè)數(shù)值直接決定了是否被命中, 進(jìn)而影響靈敏度、[敏感詞]度等參數(shù)。我們能判斷越接 近于1,算法是越[敏感詞]的,但是我們無法確切定義 哪個(gè)百分比對(duì)于臨床醫(yī)生的使用是足夠了,也就是 檢出來了,這部分還有待進(jìn)一步研究。 此外,還可以把算法分割結(jié)果與參考標(biāo)準(zhǔn)當(dāng) 成兩個(gè)像素集,二者重疊像素點(diǎn)記為TP,參考標(biāo) 準(zhǔn)去掉TP部分為FN,算法分割結(jié)果去掉TP部分為 FP,這樣可以用召回率[見式(7)]和[敏感詞]度[見式(8)]兩個(gè)參數(shù)對(duì)分割結(jié)果進(jìn)行評(píng)價(jià),見圖2。這 類似于對(duì)于病灶檢出的評(píng)價(jià)方式。

    7.png

    8.png


    當(dāng)召回率為1時(shí),參考標(biāo)準(zhǔn)被完全包裹在算法 分割區(qū)域范圍內(nèi),如圖3所示;當(dāng)[敏感詞]度為1時(shí),算 法分割區(qū)域被完全包裹在參考標(biāo)準(zhǔn)范圍內(nèi),如圖4 所示。通過兩個(gè)參數(shù)不僅可以分析分割結(jié)果的相關(guān) 度,還可以對(duì)分割的位置及形狀進(jìn)行判斷,IoU和 Dice雖然能分析分割結(jié)果的相關(guān)度,但通過參數(shù)不 能判斷分割面積的大小和相互包含關(guān)系。

    9.png


    3 檢出算法的曲線評(píng)估參數(shù)

    檢出類算法一般會(huì)在一幅圖像上診斷出多個(gè) 異常,這種病灶檢出的方式無法采用ROC曲線進(jìn)行 評(píng)價(jià),因?yàn)榧訇栃缘膫€(gè)數(shù)是沒有限制的。這種情況 一般采用FROC曲線來進(jìn)行評(píng)價(jià)。其繪制方法是在 不同的閾值下,計(jì)算算法的召回率和平均假陽個(gè)數(shù) (平均每個(gè)病人所含有的假陽個(gè)數(shù))。以召回率為 縱坐標(biāo),平均假陽個(gè)數(shù)為橫坐標(biāo),繪制曲線。對(duì)于 曲線評(píng)價(jià),我們不僅希望從曲線的趨勢(shì)圖或曲線上 特定點(diǎn)來評(píng)價(jià)算法的好壞,我們更希望通過曲線提 取出一個(gè)綜合參數(shù),用這個(gè)參數(shù)對(duì)算法進(jìn)行評(píng)價(jià), 比如ROC曲線的AUC。對(duì)于FROC,同樣可以計(jì)算 曲線下的面積,但這種方式可能需要調(diào)節(jié)多個(gè)閾 值,計(jì)算量較大。且假陽結(jié)節(jié)的數(shù)量會(huì)因?yàn)楫a(chǎn)品的 性能不同而不同,這導(dǎo)致FROC曲線橫坐標(biāo)(平均 假陽個(gè)數(shù))終點(diǎn)不一致,這樣計(jì)算的面積很難進(jìn)行 橫向比較。為解決這一問題,可以采用給橫坐標(biāo)一 個(gè)限制,如橫坐標(biāo)都采用平均假陽個(gè)數(shù)8個(gè),這樣 面積的理想值就進(jìn)行了統(tǒng)一,但損失了一部分閾值 下的數(shù)據(jù)考量。另一個(gè)問題,對(duì)于較好或較差的算 法,平均假陽個(gè)數(shù)8個(gè)可能會(huì)太多或者太少,給評(píng)價(jià)帶來一定的局限。我們還可采用曲線上召回率的 平均值,這種對(duì)于線性度較好的曲線是個(gè)不錯(cuò)的選 擇,但對(duì)于線性度較差的曲線,可能會(huì)存在偏差。

    Precision-Recall曲線是以召回率為橫坐標(biāo),精 確度為縱坐標(biāo)繪制的曲線。曲線構(gòu)造和ROC曲線類 似[10],曲線[敏感詞]積理想值為1。該曲線的評(píng)價(jià)方式 很好地繼承了ROC曲線的優(yōu)點(diǎn),能夠?qū)崿F(xiàn)不同算法 性能的評(píng)估和統(tǒng)計(jì)比較。

    FROC與P-R曲線都包含了TP、FP、FN的信 息,兩種曲線有著各自的特點(diǎn),見圖5、圖6。在 FROC曲線上能更為直觀地找到曲線的拐點(diǎn),這對(duì) 于產(chǎn)品研發(fā)階段合理的閾值調(diào)節(jié)具有很大的幫助。 但曲線在閾值無限小的情況下,召回率趨于定值, 而平均假陽個(gè)數(shù)是在不斷增加的,無法通過計(jì)算 FROC曲線下的面積對(duì)AI算法進(jìn)行評(píng)估,這一點(diǎn)上 P-R曲線更具優(yōu)勢(shì)。P-R曲線理想狀態(tài)下曲線[敏感詞] 積為1,隨著閾值的減小[敏感詞]度趨于0,可以通過曲 線[敏感詞]積對(duì)不同算法進(jìn)行比較[12]。此外,P-R曲線 的橫坐標(biāo)和縱坐標(biāo)都和TP的數(shù)量密切相關(guān),如果 數(shù)據(jù)集陽性樣本數(shù)量變化時(shí),曲線的變化有可能會(huì) 大于FROC曲線。

    10.png


    4 總結(jié)

    統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)是人工智能算法質(zhì)量評(píng)估重 要的研究?jī)?nèi)容之一,這有助于實(shí)現(xiàn)AI算法的橫向比 較,使評(píng)價(jià)更為客觀。本文討論了不同評(píng)估參數(shù)的 定義及適用場(chǎng)景,簡(jiǎn)述了它們各自的優(yōu)缺點(diǎn),但目 前還沒有形成統(tǒng)一的標(biāo)準(zhǔn)。相信隨著人工智能在醫(yī) 療領(lǐng)域的普及,以及臨床實(shí)際應(yīng)用經(jīng)驗(yàn)與應(yīng)用模式 (如人+AI工作、AI單獨(dú)工作)的不斷進(jìn)步,評(píng)價(jià) 標(biāo)準(zhǔn)會(huì)逐步統(tǒng)一和提高。但現(xiàn)階段,任何對(duì)于AI算 法的評(píng)估,不僅要給出數(shù)據(jù)集的情況描述,還應(yīng)給 出全面的質(zhì)量評(píng)估算法的描述,不能直接給出一個(gè) 最終結(jié)果。

    參考文獻(xiàn):

    [1] Eric J Topol. High-performance Medicine:The Convergence of Human and Artificial Intelligence[J]. Nature Medicine,2009,25:44-56.
    [2] Setio A AA,Traverso A,De Bel T,et al. Validation, Comparison,and Combination of Algorithms for Automatic Detection of Pulmonary Nodules in Computed Tomography Images:The LUNA16 Challenge[J]. Medical Image Analysis,2017,42:1-13.
    [3] Gulshan V,Peng L,Coram M,et al. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs[J]. JAMA,2016,316(22):2402–2410.
    [4] Petrick N,Sahiner B,Armato SG,et al. Evaluation of Computer-aided Detection and Diagnosis Systems[J]. MedPhys,2013,40(8):87001.
    [5] 中華醫(yī)學(xué)會(huì)眼科學(xué)會(huì)眼底病學(xué)組. 我國(guó)糖尿病視網(wǎng)膜病變臨床診療指南(2014年)[J]. 中華眼科雜志, 2014,50(11):851-865.
    [6] 孟祥峰,王浩,王權(quán),等. 影像類人工智能醫(yī)療器械評(píng) 價(jià)方法研究[J]. 中國(guó)醫(yī)療設(shè)備,2018,33(12):23- 26,30.
    [7] Jesse Davis,Mark Goadrich. The Relationship Between Precision-recall and ROC Curves[C].Appearing in Proceedings of the 23rd International Conference on Machine Learning:Pittsburgh,PA,2006.
    [8] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data–Premarket Notification [510(k)] Submissions[S]. Washington DC: Food and Drug Administration,2009.
    [9] Chang H H,Zhuang A H,Valentino D J,et al. Performance Measure Characterization for Evaluating Neuroimage Segmentation Algorithms[J]. NeuroImage, 2009,47(1):122-135.
    [10] Cárdenes R,de LuisGarcía R,Bachcuadra M. A Multidimensional Segmentation Evaluation for Medical Image Data[J]. Comput Methods Programs Biomed, 2009,96(2):108-124.
    [11] Kallergi M,Carney G M,Gaviria J. Evaluating the Performance of Detection Algorithms in Digital Mammography[J]. Medical Physics,1999,26(2): 267.
    [12] Sahiner B,Chen W,Pezeshk A,et al. Semi-parametric Estimation of the Area Under the Precision-recall Curve[C]. Spie Medical Imaging,2016.

    作者:孟祥峰,王浩,張超,任海萍 * (中國(guó)食品藥品檢定研究院,北京 100050)



    CopyRight ? 2025 東莞市高升電子精密科技有限公司 All Rights Reserved.    粵ICP備17051568號(hào)-12
    <samp id="ei6kk"><tbody id="ei6kk"></tbody></samp>
  • <cite id="ei6kk"></cite>