暴躁老妈高清免费观看电视剧大全,最近中文字幕完整版hd,小草影视在线观看,三年大全免费大片三年大片一集,7777影院免费播放电视剧大全下载 ,免费观看已满十八岁电视剧动漫

人工智能醫(yī)療器械輔助診斷及探測(cè)性能評(píng)估參數(shù)的討論

發(fā)布人：管理員發(fā)布時(shí)間：2022-09-27

摘要目的：人工智能醫(yī)療器械的應(yīng)用越來越廣泛，但目前并沒有對(duì)其性能的評(píng)價(jià)標(biāo)準(zhǔn)。希望通過本文研究為人工智能醫(yī)療器械的客觀評(píng)估提供幫助。
方法：從不同的應(yīng)用角度對(duì)人工智能醫(yī)療器械評(píng)估參數(shù)進(jìn)行了梳理，比較了各個(gè)參數(shù)的特點(diǎn)和使用場(chǎng)景。
結(jié)果與結(jié)論：不同的評(píng)估參數(shù)所適用的場(chǎng)景不同，評(píng)估結(jié)果也存在差異，在進(jìn)行人工智能產(chǎn)品評(píng)價(jià)時(shí)應(yīng)根據(jù)產(chǎn)品特性合理選擇。

關(guān)鍵詞：人工智能醫(yī)療器械；性能評(píng)價(jià)；分類；分割

人工智能醫(yī)療器械作為一種新興的醫(yī)療器械，在輔助診斷、輔助篩查等諸多領(lǐng)域?qū)崿F(xiàn)了突破?；谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)可以幫助醫(yī)生識(shí)別 CT影像、病理切片、皮膚損傷、視網(wǎng)膜圖像、心電圖、內(nèi)窺鏡檢查、面部和生命體征[1-3]。人工智能產(chǎn)品一般是對(duì)樣本數(shù)據(jù)進(jìn)行分類或?qū)颖緮?shù)據(jù)的異常特征進(jìn)行標(biāo)記或提取。對(duì)于它們的評(píng)估多為算法的評(píng)估結(jié)果與參考標(biāo)準(zhǔn)（臨床“金標(biāo)準(zhǔn)”或有經(jīng)驗(yàn)臨床醫(yī)生的診斷結(jié)果）進(jìn)行比較[4]，使用召回率、特異性、準(zhǔn)確度等參數(shù)的數(shù)值大小或曲線關(guān)系來表示產(chǎn)品的質(zhì)量水平。對(duì)于人工智能產(chǎn)品不同的功能，如分類、分割、檢出；或者不同的應(yīng)用場(chǎng)景，如體檢應(yīng)用、門診應(yīng)用；或者不同的評(píng)價(jià)目的如產(chǎn)品研發(fā)過程的評(píng)價(jià)、迭代后性能的評(píng)價(jià)、不同產(chǎn)品的比較評(píng)價(jià)，都應(yīng)該依據(jù)自身特點(diǎn)合理地選擇評(píng)價(jià)參數(shù)，因?yàn)椴煌膮?shù)所體現(xiàn)產(chǎn)品的能力是不一樣的。

目前，我國(guó)雖組建了人工智能醫(yī)療器械歸口單位，相應(yīng)的標(biāo)準(zhǔn)也在不斷的規(guī)劃中，但現(xiàn)階段國(guó) 內(nèi)外尚未建立人工智能醫(yī)療器械的評(píng)價(jià)標(biāo)準(zhǔn)與方法規(guī)范。本文對(duì)工智能產(chǎn)品的評(píng)估參數(shù)進(jìn)行了分析，簡(jiǎn)述了各個(gè)參數(shù)的特點(diǎn)，這將有助于進(jìn)一步明晰影像類人工智能產(chǎn)品的評(píng)價(jià)工作，為人工智能產(chǎn)品的研發(fā)和質(zhì)控提供指導(dǎo)。

1 分類評(píng)估參數(shù)

人工智能（Artificial Intelligence，AI）醫(yī)療器械的輔助篩查、輔助識(shí)別或輔助診斷等功能多是給出患者數(shù)據(jù)的狀態(tài)分類，如二分類的陰性（非患病）、陽性（患病），或多分類如糖尿病視網(wǎng)膜病變篩查的0期~VI期[5]。對(duì)于分類問題可采用混淆矩陣的方法[6]，見表1，進(jìn)而計(jì)算靈敏度、特異性、準(zhǔn)確率等參數(shù)。

Ni,j（i=1～n，j=1～n）為真實(shí)分類為i類，被AI 產(chǎn)品判為j類的個(gè)數(shù)；Psen,i為第i類為陽性，其他類為陰性的靈敏度；Pspe,i為第i類為陽性，其他類為陰性的特異性。

靈敏度指參考標(biāo)準(zhǔn)中實(shí)際的陽性樣本被正確判斷的比率，見式（1），用來評(píng)估人工智能產(chǎn)品對(duì)目標(biāo)疾病的識(shí)別能力。相反，特異性是指參考標(biāo)準(zhǔn)中實(shí)際的陰性樣本被正確判斷的比率，見式（2），用來評(píng)估人工智能產(chǎn)品對(duì)非目標(biāo)疾病的識(shí) 別能力。而準(zhǔn)確度是指所有樣本被正確判斷的比率，見式（3）。這些參數(shù)都是0~1的數(shù)值，越接近1表示算法的性能越好。

單一參數(shù)很高并不能說明產(chǎn)品的優(yōu)劣。比如準(zhǔn)確度，其數(shù)值與發(fā)病率有一定相關(guān)性，當(dāng)某一類數(shù)據(jù)的樣本量遠(yuǎn)大于另一類時(shí)，即使另一類全部判斷錯(cuò)誤也不會(huì)對(duì)準(zhǔn)確度產(chǎn)生太大影響，所以即使分?jǐn)?shù)很高，也無法對(duì)于特定類別的識(shí)別能力進(jìn) 行判斷。所以大部分情況下可用多個(gè)參數(shù)同時(shí)用于產(chǎn)品性能的評(píng)估，比如用靈敏度和特異性兩個(gè)參數(shù)來評(píng)價(jià)產(chǎn)品的性能。一般成熟的產(chǎn)品算法的評(píng)估閾值是一定的，也就是靈敏度和特異性是[敏感詞]的。特定閾值下的參數(shù)只能體現(xiàn)產(chǎn)品應(yīng)用性能的優(yōu)劣，并不能評(píng)價(jià)產(chǎn)品算法的優(yōu)劣，比如一個(gè)優(yōu)質(zhì)算法在一個(gè)存在偏倚的數(shù)據(jù)集上進(jìn)行訓(xùn)練，產(chǎn)品出廠時(shí)并沒有選擇最優(yōu)的閾值，這導(dǎo)致召回率等參數(shù)沒達(dá)到預(yù)期。所以為了進(jìn)一步評(píng)價(jià)算法的好壞通常采用 ROC、Precision-Recall（P-R）曲線等來對(duì)產(chǎn)品進(jìn)行評(píng)價(jià)[7]。在醫(yī)用范疇，多數(shù)情況下正負(fù)樣本比例差距較大（與發(fā)病率相關(guān)，Precision-Recall曲線在正負(fù)樣本不均衡的情況下會(huì)出現(xiàn)較大波動(dòng)），且ROC 曲線包含混淆矩陣的所有信息（Precision-Recall曲線缺少混淆矩陣的真陰性個(gè)數(shù)信息），因此ROC曲線更常見。它通過調(diào)節(jié)算法的閾值來計(jì)算不同閾值下的靈敏度和特異性，以1減特異性為橫坐標(biāo)，靈敏度為縱坐標(biāo)，繪制ROC曲線，ROC曲線不僅能體現(xiàn)算法在不同閾值下的泛化能力，同時(shí)，還通過計(jì) 算曲線[敏感詞]積（AUC）對(duì)不同的AI產(chǎn)品用一個(gè)參數(shù) 進(jìn)行比較。

2 分割評(píng)估參數(shù)

人工智能輔助檢測(cè)功能多應(yīng)用于影像識(shí)別類產(chǎn)品，其作用在于準(zhǔn)確地識(shí)別圖像中的病灶位置并進(jìn)行邊界分割，其分割性能多采用分割結(jié)果與參考標(biāo)準(zhǔn)比較，比如在FDA發(fā)布的計(jì)算機(jī)輔助探測(cè) （Computer-assisted Detection Devices）的510（k）提交指導(dǎo)原則[8]中提到了用分割區(qū)域的位置關(guān)系進(jìn) 行評(píng)價(jià)計(jì)算。目前比較算法中被廣泛應(yīng)用的評(píng)價(jià)方式有兩種：Jaccard系數(shù)[也稱之為交并比（IoU）]和 Dice系數(shù)[9-10]。

交并比是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交集與并集（見圖1）的比率，見式（4）：

Dice系數(shù)是指參考標(biāo)準(zhǔn)和人工智能算法區(qū)域交集與二者區(qū)域平均值的比率，見式（5）：

A. 參考標(biāo)準(zhǔn)的分割面積；B. 人工智能算法的分割面積；C. 參考標(biāo)準(zhǔn)與人工智能算法分割面積的重疊部分。
圖1 尺寸分割評(píng)價(jià)參數(shù)舉例

從公式（4）和（5）可以看出，雖然二者都是在0～1變化的數(shù)值，但相同情況下IoU數(shù)值要低于Dice系數(shù)，見式（6）：

IoU比Dice系數(shù)提供了更寬的數(shù)值評(píng)估范圍，尤其是在分割結(jié)果較差的情況下，IoU能更好地評(píng) 估分割圖像中的微小變化，對(duì)于不同產(chǎn)品的評(píng)價(jià)提供了更好的區(qū)分度；如果一個(gè)AI產(chǎn)品的分割性能進(jìn) 行了提升，隨著重疊面積的增加，Dice系數(shù)呈線性變化，而IoU呈非線性變化，這對(duì)于同一產(chǎn)品分割性能的評(píng)價(jià)，尤其在算法整改后的評(píng)價(jià)上，Dice更為直觀。對(duì)于分割性能，在檢出類AI產(chǎn)品如肺結(jié)節(jié)識(shí) 別上，有可能會(huì)通過區(qū)域分割指標(biāo)來判斷真陽性（TP）和假陽性（FP），進(jìn)而計(jì)算靈敏度、特異性等參數(shù)，就是要確定分割性能參數(shù)閾值的大小，這涉及了標(biāo)記匹配的內(nèi)容[11]。比如交并比不低于某一小于1的數(shù)，這個(gè)數(shù)值直接決定了是否被命中，進(jìn)而影響靈敏度、[敏感詞]度等參數(shù)。我們能判斷越接近于1，算法是越[敏感詞]的，但是我們無法確切定義哪個(gè)百分比對(duì)于臨床醫(yī)生的使用是足夠了，也就是檢出來了，這部分還有待進(jìn)一步研究。此外，還可以把算法分割結(jié)果與參考標(biāo)準(zhǔn)當(dāng) 成兩個(gè)像素集，二者重疊像素點(diǎn)記為TP，參考標(biāo) 準(zhǔn)去掉TP部分為FN，算法分割結(jié)果去掉TP部分為 FP，這樣可以用召回率[見式（7）]和[敏感詞]度[見式（8）]兩個(gè)參數(shù)對(duì)分割結(jié)果進(jìn)行評(píng)價(jià)，見圖2。這類似于對(duì)于病灶檢出的評(píng)價(jià)方式。

當(dāng)召回率為1時(shí)，參考標(biāo)準(zhǔn)被完全包裹在算法分割區(qū)域范圍內(nèi)，如圖3所示；當(dāng)[敏感詞]度為1時(shí)，算法分割區(qū)域被完全包裹在參考標(biāo)準(zhǔn)范圍內(nèi)，如圖4 所示。通過兩個(gè)參數(shù)不僅可以分析分割結(jié)果的相關(guān) 度，還可以對(duì)分割的位置及形狀進(jìn)行判斷，IoU和 Dice雖然能分析分割結(jié)果的相關(guān)度，但通過參數(shù)不能判斷分割面積的大小和相互包含關(guān)系。

3 檢出算法的曲線評(píng)估參數(shù)

檢出類算法一般會(huì)在一幅圖像上診斷出多個(gè) 異常，這種病灶檢出的方式無法采用ROC曲線進(jìn)行評(píng)價(jià)，因?yàn)榧訇栃缘膫€(gè)數(shù)是沒有限制的。這種情況一般采用FROC曲線來進(jìn)行評(píng)價(jià)。其繪制方法是在不同的閾值下，計(jì)算算法的召回率和平均假陽個(gè)數(shù) （平均每個(gè)病人所含有的假陽個(gè)數(shù)）。以召回率為縱坐標(biāo)，平均假陽個(gè)數(shù)為橫坐標(biāo)，繪制曲線。對(duì)于曲線評(píng)價(jià)，我們不僅希望從曲線的趨勢(shì)圖或曲線上特定點(diǎn)來評(píng)價(jià)算法的好壞，我們更希望通過曲線提取出一個(gè)綜合參數(shù)，用這個(gè)參數(shù)對(duì)算法進(jìn)行評(píng)價(jià)，比如ROC曲線的AUC。對(duì)于FROC，同樣可以計(jì)算曲線下的面積，但這種方式可能需要調(diào)節(jié)多個(gè)閾值，計(jì)算量較大。且假陽結(jié)節(jié)的數(shù)量會(huì)因?yàn)楫a(chǎn)品的性能不同而不同，這導(dǎo)致FROC曲線橫坐標(biāo)（平均假陽個(gè)數(shù)）終點(diǎn)不一致，這樣計(jì)算的面積很難進(jìn)行橫向比較。為解決這一問題，可以采用給橫坐標(biāo)一個(gè)限制，如橫坐標(biāo)都采用平均假陽個(gè)數(shù)8個(gè)，這樣面積的理想值就進(jìn)行了統(tǒng)一，但損失了一部分閾值下的數(shù)據(jù)考量。另一個(gè)問題，對(duì)于較好或較差的算法，平均假陽個(gè)數(shù)8個(gè)可能會(huì)太多或者太少，給評(píng)價(jià)帶來一定的局限。我們還可采用曲線上召回率的平均值，這種對(duì)于線性度較好的曲線是個(gè)不錯(cuò)的選擇，但對(duì)于線性度較差的曲線，可能會(huì)存在偏差。

Precision-Recall曲線是以召回率為橫坐標(biāo)，精確度為縱坐標(biāo)繪制的曲線。曲線構(gòu)造和ROC曲線類似[10]，曲線[敏感詞]積理想值為1。該曲線的評(píng)價(jià)方式很好地繼承了ROC曲線的優(yōu)點(diǎn)，能夠?qū)崿F(xiàn)不同算法性能的評(píng)估和統(tǒng)計(jì)比較。

FROC與P-R曲線都包含了TP、FP、FN的信息，兩種曲線有著各自的特點(diǎn)，見圖5、圖6。在 FROC曲線上能更為直觀地找到曲線的拐點(diǎn)，這對(duì) 于產(chǎn)品研發(fā)階段合理的閾值調(diào)節(jié)具有很大的幫助。但曲線在閾值無限小的情況下，召回率趨于定值，而平均假陽個(gè)數(shù)是在不斷增加的，無法通過計(jì)算 FROC曲線下的面積對(duì)AI算法進(jìn)行評(píng)估，這一點(diǎn)上 P-R曲線更具優(yōu)勢(shì)。P-R曲線理想狀態(tài)下曲線[敏感詞] 積為1，隨著閾值的減小[敏感詞]度趨于0，可以通過曲線[敏感詞]積對(duì)不同算法進(jìn)行比較[12]。此外，P-R曲線的橫坐標(biāo)和縱坐標(biāo)都和TP的數(shù)量密切相關(guān)，如果數(shù)據(jù)集陽性樣本數(shù)量變化時(shí)，曲線的變化有可能會(huì) 大于FROC曲線。

4 總結(jié)

統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)是人工智能算法質(zhì)量評(píng)估重要的研究?jī)?nèi)容之一，這有助于實(shí)現(xiàn)AI算法的橫向比較，使評(píng)價(jià)更為客觀。本文討論了不同評(píng)估參數(shù)的定義及適用場(chǎng)景，簡(jiǎn)述了它們各自的優(yōu)缺點(diǎn)，但目前還沒有形成統(tǒng)一的標(biāo)準(zhǔn)。相信隨著人工智能在醫(yī) 療領(lǐng)域的普及，以及臨床實(shí)際應(yīng)用經(jīng)驗(yàn)與應(yīng)用模式（如人+AI工作、AI單獨(dú)工作）的不斷進(jìn)步，評(píng)價(jià) 標(biāo)準(zhǔn)會(huì)逐步統(tǒng)一和提高。但現(xiàn)階段，任何對(duì)于AI算法的評(píng)估，不僅要給出數(shù)據(jù)集的情況描述，還應(yīng)給出全面的質(zhì)量評(píng)估算法的描述，不能直接給出一個(gè) 最終結(jié)果。

參考文獻(xiàn)：

[1] Eric J Topol. High-performance Medicine：The Convergence of Human and Artificial Intelligence[J]. Nature Medicine，2009，25：44-56.
[2] Setio A AA，Traverso A，De Bel T，et al. Validation， Comparison，and Combination of Algorithms for Automatic Detection of Pulmonary Nodules in Computed Tomography Images：The LUNA16 Challenge[J]. Medical Image Analysis，2017，42：1-13.
[3] Gulshan V，Peng L，Coram M，et al. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs[J]. JAMA，2016，316（22）：2402–2410.
[4] Petrick N，Sahiner B，Armato SG，et al. Evaluation of Computer-aided Detection and Diagnosis Systems[J]. MedPhys，2013，40（8）：87001.
[5] 中華醫(yī)學(xué)會(huì)眼科學(xué)會(huì)眼底病學(xué)組. 我國(guó)糖尿病視網(wǎng)膜病變臨床診療指南（2014年）[J]. 中華眼科雜志， 2014，50（11）：851-865.
[6] 孟祥峰，王浩，王權(quán)，等. 影像類人工智能醫(yī)療器械評(píng) 價(jià)方法研究[J]. 中國(guó)醫(yī)療設(shè)備，2018，33（12）：23- 26，30.
[7] Jesse Davis，Mark Goadrich. The Relationship Between Precision-recall and ROC Curves[C].Appearing in Proceedings of the 23rd International Conference on Machine Learning：Pittsburgh，PA，2006.
[8] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data–Premarket Notification [510(k)] Submissions[S]. Washington DC： Food and Drug Administration，2009.
[9] Chang H H，Zhuang A H，Valentino D J，et al. Performance Measure Characterization for Evaluating Neuroimage Segmentation Algorithms[J]. NeuroImage， 2009，47（1）：122-135.
[10] Cárdenes R，de LuisGarcía R，Bachcuadra M. A Multidimensional Segmentation Evaluation for Medical Image Data[J]. Comput Methods Programs Biomed， 2009，96（2）：108-124.
[11] Kallergi M，Carney G M，Gaviria J. Evaluating the Performance of Detection Algorithms in Digital Mammography[J]. Medical Physics，1999，26（2）： 267.
[12] Sahiner B，Chen W，Pezeshk A，et al. Semi-parametric Estimation of the Area Under the Precision-recall Curve[C]. Spie Medical Imaging，2016.

作者：孟祥峰，王浩，張超，任海萍 * （中國(guó)食品藥品檢定研究院，北京 100050）