2020 年,新冠肺炎肆虐全球。為了能協(xié)助醫(yī)生快速而精確地篩查潛在患者,各國(guó)的計(jì)算機(jī)科學(xué)家們發(fā)布了上千種機(jī)器學(xué)習(xí)算法,并聲稱這些算法能根據(jù)胸部 X 光片、CT 圖像診斷或預(yù)測(cè)新冠肺炎。
然而,近日由劍橋大學(xué)領(lǐng)銜的一項(xiàng)最新研究卻發(fā)現(xiàn),這些算法存在著算法偏見和不可重復(fù)性等重大問題,并不具有臨床價(jià)值。
當(dāng)?shù)貢r(shí)間 3 月 15 日,這篇名為 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 的論文發(fā)表于自然子刊《自然機(jī)器智能》(Nature Machine Intelligence)上。
(來源:Nature Machine Intelligence)
這項(xiàng)由劍橋大學(xué)科學(xué)家們領(lǐng)導(dǎo)完成的研究,涵蓋了從 2020 年 1 月 1 日到同年 10 月 3 日內(nèi)所有科學(xué)論文和預(yù)印本提到的相關(guān)機(jī)器學(xué)習(xí)算法。同一時(shí)間段內(nèi),在 BioRxiv、medRxiv 和 arxiv 上刊登的所有手稿以及 EMBASE 和 MEDLINE 的所有條目也被納入了研究范圍。
在 2212 篇用機(jī)器算法診斷新冠肺炎的論文中,研究人員最終確定了 62 篇質(zhì)量相對(duì)較高的論文進(jìn)行討論,其中 37 篇論文為深度學(xué)習(xí)算法,23 篇論文為傳統(tǒng)的機(jī)器學(xué)習(xí)算法,2 篇為混合算法。
但遺憾的是,由于算法偏見和不可重復(fù)性等問題,沒有一個(gè)具有潛在的臨床應(yīng)用價(jià)值。
論文第一作者、劍橋大學(xué)應(yīng)用數(shù)學(xué)和理論物理系博士邁克爾(Michael Roberts)在接受采訪時(shí)表示:“任何機(jī)器學(xué)習(xí)算法(的應(yīng)用價(jià)值)都取決于訓(xùn)練它所使用的數(shù)據(jù),特別是對(duì)于像新冠肺炎這樣的新流行病來說,數(shù)據(jù)的多樣性是至關(guān)重要的?!?/FONT>
算法偏見和不可重復(fù)性
一般來說,算法偏見是指算法在數(shù)據(jù)集構(gòu)建、目標(biāo)制定與特征選取、數(shù)據(jù)標(biāo)注等環(huán)節(jié)中產(chǎn)生的信息偏差,導(dǎo)致算法失去公平和準(zhǔn)確性。在這項(xiàng)研究中,劍橋大學(xué)人員使用 “預(yù)測(cè)性算法的偏見風(fēng)險(xiǎn)評(píng)估工具”(PROBAST),從參與者、預(yù)測(cè)因素、結(jié)論和分析等四個(gè)方面系統(tǒng)性地評(píng)估了 62 個(gè)算法的偏見性風(fēng)險(xiǎn)。結(jié)果發(fā)現(xiàn),有 55 個(gè)算法在至少一個(gè)方面有較高的算法偏見。
拿參與者舉例,研究人員認(rèn)為從公共數(shù)據(jù)集里獲得的胸部 X 光片和 CT 影像具有選擇性偏見,因?yàn)闊o法確認(rèn)患者是否真的新冠肺炎呈陽性。又比如,相當(dāng)一部分算法采用了兒童的相關(guān)影像作為 “非新冠肺炎” 對(duì)照組。事實(shí)上相比于成人,兒童感染新冠肺炎的幾率要小得多。因此這種設(shè)計(jì)上的偏差會(huì)讓算法產(chǎn)生很大的偏見。
除了算法偏見以外,算法的性能,也就是預(yù)測(cè)結(jié)果的可重復(fù)性,也是劍橋大學(xué)在這項(xiàng)研究中關(guān)注的重點(diǎn)之一。一般來說有兩種方法來驗(yàn)證算法的性能,即內(nèi)部驗(yàn)證和外部驗(yàn)證。內(nèi)部驗(yàn)證是指測(cè)試數(shù)據(jù)與開發(fā)數(shù)據(jù)屬于相同來源;外部驗(yàn)證是指測(cè)試數(shù)據(jù)屬于不同來源。研究人員發(fā)現(xiàn),在 62 篇論文中,有 48 篇只考慮了內(nèi)部驗(yàn)證,有 13 篇使用了外部測(cè)試數(shù)據(jù)集(其中 12 篇使用了真正的外部測(cè)試數(shù)據(jù)集,1 篇使用了與訓(xùn)練算法完全相同的數(shù)據(jù)來進(jìn)行測(cè)試)。
對(duì)此,論文作者劍橋大學(xué)醫(yī)學(xué)院博士路德(James Rudd)指出:“在新冠疫情初期,人們對(duì)信息的渴求是如此強(qiáng)烈,以至于一些論文無疑是倉(cāng)促出版的。但是,如果你的算法只是基于一家醫(yī)院的數(shù)據(jù)之上的話,那么它很可能不適用于另一個(gè)城市的某家醫(yī)院。這些數(shù)據(jù)需要多樣性,最好是國(guó)際化的。否則,當(dāng)你的機(jī)器學(xué)習(xí)算法被更廣泛地測(cè)試時(shí)肯定是要失敗的?!?/FONT>
在這篇論文中,研究人員特別指出了 “科學(xué)怪人數(shù)據(jù)集”(Frankenstein datasets)的問題?!翱茖W(xué)怪人數(shù)據(jù)集” 是指從不同的數(shù)據(jù)集合并而成并重新命名分布的數(shù)據(jù)集,這樣的數(shù)據(jù)集涉及到復(fù)雜的數(shù)據(jù)來源重復(fù)問題。例如,訓(xùn)練某算法的數(shù)據(jù)集集合了 N 個(gè)子集而成,但算法開發(fā)人員沒有意識(shí)到其中一個(gè)子集還包含了其他子集的成分。這種對(duì)數(shù)據(jù)集的重新打包雖然實(shí)用,但會(huì)不可避免地導(dǎo)致算法在相同或重疊的數(shù)據(jù)集上進(jìn)行訓(xùn)練,進(jìn)而出現(xiàn)問題。
圖 | 用于模型測(cè)試的圖像數(shù)量
除了算法偏見和預(yù)測(cè)結(jié)果的不可重復(fù)性之外,這些論文的另一個(gè)普遍問題是缺乏放射科醫(yī)生和臨床醫(yī)生的參與。羅伯茨認(rèn)為:“不論你是使用機(jī)器學(xué)習(xí)來預(yù)測(cè)天氣或研究疾病如何發(fā)展,確保不同領(lǐng)域的專家一起參與并保持溝通是非常重要的,這樣才能專注于研究正確的問題?!?5 點(diǎn)建議
毫無疑問,機(jī)器學(xué)習(xí)算法在醫(yī)療方面有著巨大潛力和廣闊的市場(chǎng)前景。在過去的一年間,全球范圍內(nèi)的算法開發(fā)人員也為抗擊新冠肺炎做出了巨大的努力。
出于嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,劍橋大學(xué)研究人員對(duì) 2020 年相關(guān)機(jī)器算法文獻(xiàn)的系統(tǒng)性問題給出了 5 點(diǎn)建議:
(1)用于算法開發(fā)的數(shù)據(jù)使用和常見陷阱;(2)評(píng)估被訓(xùn)練算法;(3)預(yù)測(cè)模型的可重復(fù)性;(4)手稿中的文獻(xiàn);(5)同行評(píng)議過程。
其中,他們尤其強(qiáng)調(diào)需要謹(jǐn)慎使用公共數(shù)據(jù)庫(kù)。由于數(shù)據(jù)來源和 “科學(xué)怪人數(shù)據(jù)集” 的原因,公共數(shù)據(jù)庫(kù)會(huì)導(dǎo)致高風(fēng)險(xiǎn)的算法偏見。他們認(rèn)為,算法開發(fā)人員應(yīng)該著眼于廣泛采用不同人群的統(tǒng)計(jì)數(shù)據(jù),這是一個(gè)經(jīng)常被忽視但卻非常重要的偏見性來源。除此之外,外部數(shù)據(jù)的檢驗(yàn)也必不可少,任何用于診斷或預(yù)測(cè)的模型都必須足夠穩(wěn)健,以便為目標(biāo)人群的任意樣本得出可靠結(jié)果。
論文還指出,清楚地認(rèn)識(shí)到新冠肺炎檢測(cè)相關(guān)的人工智能算法與明確的臨床需求之間需求關(guān)系是技術(shù)轉(zhuǎn)化的關(guān)鍵。因此,開發(fā)人工智能算法需要臨床專業(yè)知識(shí)和計(jì)算機(jī)知識(shí)的互補(bǔ),同時(shí)也需要高質(zhì)量的醫(yī)療數(shù)據(jù)。
盡管研究人員在新冠肺炎 AI 模型中發(fā)現(xiàn)了缺陷,但研究人員表示,通過一些關(guān)鍵的修改,機(jī)器學(xué)習(xí)可以成為抗擊這種流行病的強(qiáng)大工具 。在未來的臨床場(chǎng)景中,被改進(jìn)的算法可以更好地被驗(yàn)證。
參考資料:https://www.nature.com/articles/s42256-021-00307-0
文章來源于學(xué)術(shù)頭條 ,作者劉芳
(轉(zhuǎn)載)