2020年7月9日,在世界人工智能大會上,陶大程教授(澳大利亞科學院院士)在科學前沿全體會議上和觀眾連線,并做了《預見·可信 AI》的報告。在報告中,陶教授回顧了深度學習理論的發(fā)展,并介紹了最近在深度學習理論研究方面的進展,具體包括,為什么深層結(jié)構(gòu)優(yōu)于淺層結(jié)構(gòu)?為什么隨即梯度下降算法對于理解深度學習的泛化能力非常重要?以及深度學習模型的損失曲面有什么樣的幾何性質(zhì)?
注:陶大程,人工智能和信息科學領域國際知名學者,澳大利亞科學院院士、歐洲科學院(Academia Europaea)外籍院士、ACM Fellow(Association for Computing Machinery,美國計算機學會)、IEEE Fellow,悉尼大學工程學院教授、優(yōu)必選悉尼大學人工智能中心主任、優(yōu)必選 AI首席科學家。此外,他還是 IEEE SMC 認知計算技術委員會前主席。
以下是演講全文:
深度學習讓很多領域進入了“自動化革命”的時代,例如機器視覺、自然語言處理、語音識別等。
如上動圖,展示了目前深度學習在機器視覺領域的一些進展,例如物體檢測、實例分割、場景分割、道路檢測、文字檢測和識別等等。以上進展給我們的啟示是:深度學習的存在確實讓之前非常困難的機器視覺任務變得容易。而現(xiàn)在存在的問題是:許多應用領域?qū)I算法的安全性有很高的要求,例如自動駕駛系統(tǒng),一個微小的錯誤都有可能會導致致命的災難。由于現(xiàn)有算法缺乏適當?shù)睦碚摶A,我們對這些算法“為什么能成功”并沒有準確的把握;另外,AI應用領域也持續(xù)遇到一些挑戰(zhàn),這都使得大眾對AI的信任不斷減少。 那么如何解決這個問題呢?根本性的解決方法是建立完整的人工智能的理論基礎。
1、人工智能理論基礎回顧
人工智能理論基礎的進展,在深度學習方面,主要有兩點:首先傳統(tǒng)機器學習的基礎理論相對比較成熟和完善;其次,深度學習主導了第三次的人工智能熱潮,驅(qū)動了很多的實際應用落地。目前深度學習的基礎理論研究還處在初級階段。深度學習的成功主要建立在實驗之上,缺乏堅實的理論基礎。那么理論分析深度學習算法為什么如此困難? 這里引用一句MIT 托馬斯教授的一句話,“從前,我們需要比模型參數(shù)更多的訓練數(shù)據(jù)才能得到有意義的擬合”。
那么深度學習的情況是什么樣的呢?如上圖對比,左邊是2017年效果最好的神經(jīng)網(wǎng)絡,大概有幾千萬個參數(shù);右邊是現(xiàn)在常用的數(shù)據(jù)集,CORD-19數(shù)據(jù)庫只有6000個數(shù)據(jù)點。ImageNet作為機器視覺領域最大的數(shù)據(jù)庫之一僅有1000多萬個數(shù)據(jù)點。其他大多機器視覺領域的數(shù)據(jù)集只有幾萬個數(shù)據(jù)點。即使是ImageNet這樣的大規(guī)模數(shù)據(jù)庫,與深度學習的參數(shù)相對比,數(shù)量仍然不足。為何深度學習模型如此過度參數(shù)化,但表現(xiàn)卻如此優(yōu)異?當前有研究工作從模型容量和復雜度的角度出發(fā)對神經(jīng)網(wǎng)絡進行了分析。過去統(tǒng)計學習也有結(jié)論:如果模型的容量或者復雜度較小,那么模型的泛化能力就能夠得到保證。如果可以證明深度學習模型的容量(或者復雜度)與參數(shù)的數(shù)量不直接相關,就能在一定程度上解釋“為什么深度學習如此成功”。
先看傳統(tǒng)機器學習中復雜度度量的常用工具:VC維。2017年Harvey等人從VC維的角度出發(fā),分析了神經(jīng)網(wǎng)絡的泛化性能,得到了兩個上界。這兩個上界直接和模型的參數(shù)數(shù)量相關,這就使得泛化誤差的上界很大,甚至比損失函數(shù)的最大值還要大,因此這樣的上限是非常松的。這樣的結(jié)論在一定程度上告訴我們:從VC維角度出發(fā),論證過程會非常難。但是,作為開拓性的研究,這個工作的意義很大。
2018年,Golowich等人用Rademacher復雜度得到了一個泛化誤差的上界。結(jié)論表示:上界不直接與模型的規(guī)模相關,但是和模型參數(shù)的模以及網(wǎng)絡的深度相關。2019年,Liang等人探索了Fisher-Rao范數(shù),得出的結(jié)論是Fisher-Rao有許多良好的性質(zhì),例如Fisher-Rao范數(shù)的不變性。
今年,我們團隊在ICLR 2020中發(fā)表了一篇使用Fisher-Rao范數(shù)證明RNN的泛化邊界。Fisher-Rao和matrix-1 norm可以有效的幫助我們控制上限的尺度。這給我們帶來的啟發(fā)是:在訓練樣本中增加一些噪音,可以提升模型的泛化能力,但是不能加入太多的噪音,因為會使訓練誤差變大。我們的Fisher-Rao Norm依賴一個關于梯度的結(jié)構(gòu)化引理。該引理表示:參數(shù)的??梢员惶荻鹊拇笮】刂谱?,該引理幫助我們有效刻畫了梯度對深度學習模型泛化能力的影響,也幫助我們更好的理解泛化能力和訓練能力之間的關系。
基于模型容量,模型復雜度的泛化誤差的上界,通常表明小模型的泛化能力比較好。但是這和深度學習的實驗和表現(xiàn)不非常一致。例如,Neyshabur在2015年的工作和Novak在2018年的實驗證明了:“大型網(wǎng)絡不僅表現(xiàn)出良好的測試性能,并且隨著網(wǎng)絡規(guī)模的增加,泛化能力也在提升?!绷硗?。在2016年Canziani統(tǒng)計了一些競賽中的模型和實驗也得到了相同的結(jié)論。
從信息論的角度出發(fā),我們團隊得到了一個泛化誤差的上界。其中的理論分析主要基于三個方面,首先和傳統(tǒng)的淺層學習模型,例如支撐向量機不同,深度神經(jīng)網(wǎng)絡具有層級特征映射結(jié)構(gòu),這樣的層級結(jié)構(gòu)能有效幫助網(wǎng)絡避免過擬合。 其次,傳統(tǒng)的泛化誤差上界是通過模型的函數(shù)空間復雜度進行估計,忽略了數(shù)據(jù)的分布,僅考慮模型函數(shù)空間中最壞的情況。
最后,實際中模型的泛化能力和數(shù)據(jù)分布是相關的。受到最近信息論和自適應數(shù)據(jù)分析的研究的啟發(fā),我們用神經(jīng)網(wǎng)絡學到的特征和最后一層神經(jīng)網(wǎng)絡參數(shù)的互信息,來bound泛化誤差。 最終,我們得出的結(jié)論是:網(wǎng)絡的輸出對于輸入的依賴性越小,其泛化能力就越強。在信息論中強數(shù)據(jù)處理不等式的保證下:只要網(wǎng)絡的每一層的映射是不可逆的(也就是信息衰減),那么神經(jīng)網(wǎng)絡所學習到的特征和最后一層參數(shù)的互信息,就會隨著層數(shù)的增加而逐漸減少。因此網(wǎng)絡越深,模型的泛化能力也就變得越強。隨著網(wǎng)絡層數(shù)的增加,在映射過程中模型會丟失對于數(shù)據(jù)擬合有用的信息。在這種情況下,訓練數(shù)據(jù)集擬合誤差就會變大。因此,深度網(wǎng)絡的泛化能力雖然逐漸增強,但是要想整個神經(jīng)網(wǎng)絡的性能好,還需要保證訓練誤差足夠小。
2、通用近似定理一覽
盡管如此,信息衰減的要求是非常強的,畢竟現(xiàn)在的深度學習中,我們經(jīng)常需要引入skip connections,因此這方面的研究還要進一步深入。另外,也需要明確一下:神經(jīng)網(wǎng)絡的容量非常龐大,甚至具有通用的近似能力。1989年的三個獨立工作,同時證明了神經(jīng)網(wǎng)絡的“通用近似定理”。Hornik在1993年也證明了,如果網(wǎng)絡無限寬,即使淺層網(wǎng)絡也可以近似任何連續(xù)函數(shù)。2017年,Lu等人也證明了有限寬的神經(jīng)網(wǎng)絡也具有通用近似能力,而在今年他的團隊又證明了神經(jīng)網(wǎng)絡可以近似任何分布。這些例子都說明了一個問題:如果參數(shù)可以任意取的話,神經(jīng)網(wǎng)絡網(wǎng)絡的容量會非常龐大。這里又出現(xiàn)一個問題,參數(shù)是不是可以任意取? 目前神經(jīng)網(wǎng)絡的參數(shù)都是通過隨機梯度下降算法(SGD)學到的,所以參數(shù)的取值并不是“任意的”。因此雖然神經(jīng)網(wǎng)絡本身的假設空間非常大,但是隨機梯度下降只能探索到空間中的一小部分。這樣來看,隨機梯度下降算法是解釋深度學習泛化能力的關鍵。
3、隨機梯度下降解釋深度學習泛化能力
我們在2019年NeurIPS上的文章指出:隨機梯度下降的優(yōu)化過程形成路徑可以用偏微分方程進行表示。SGD優(yōu)化的過程可以描述為:T+1時刻的參數(shù)-T時刻的參數(shù)=學習率*函數(shù)的梯度。顯然,這個表達式就是偏微分方程。由于Batch是隨機的,初始化是隨機的,對于梯度的建模也引入了噪聲。這意味著,當前的梯度等于整個數(shù)據(jù)集上梯度的平均值加上一個不確定的噪聲。目前大家會假設是該噪聲是正態(tài)(高斯)分布,最近也有研究用別的分布來建模噪聲。
SGD的優(yōu)化路徑可以用隨機過程的穩(wěn)態(tài)分布來給隨機梯度下降算法學到的模型進行建模。然后,我們就可以利用PAC-Bayes得到泛化誤差的上界。由此,我們得出結(jié)論:泛化能力和學習率與Batch Size之間存在正比例相關關系。這個關系也說明了超參數(shù)的調(diào)整有一定的規(guī)律可循。
我們在CIFAR-10和CIFAR-100上基于ResNet和VGG兩個網(wǎng)絡訓練了1600個模型,來驗證“正相關”關系。上圖是所有模型的測試精度分析,每一個小圖由20個模型畫成。我們用測試精度表示泛化能力,因為訓練精度幾乎是100%。左邊顯示學習率不變的條件下,測試精度和Batch大小之間的關系:隨著Batch Size的增加,測試精度下降。右邊是Batch Size不變的條件下,測試精度和學習率之間的關系:隨著學習率的增加,測試精度提升。
上圖是測試精度和Batch Size、學習率之間的比值的關系,每種顏色各由400個模型畫成。顯然,隨著比值的增加,測試精度下降。
4、深入理解損失曲面的幾何結(jié)構(gòu)
所以,利用偏微分方程對SGD的優(yōu)化軌跡進行建模,對理解深度學習非常有價值。同時這也要求我們深入理解損失曲面的幾何結(jié)構(gòu),因為損失曲面的幾何結(jié)構(gòu)決定了偏微分方程在損失曲面上的軌跡。這主要有兩方面的原因:首先,隨機偏微分方程包含了損失函數(shù)以及損失函數(shù)的各階導數(shù),所以損失曲面的幾何結(jié)構(gòu)直接影響了隨機偏方程的結(jié)構(gòu)。其次,損失曲面也決定了隨機偏微分方程的邊際條件,因此損失曲面決定了隨機梯度下降算法“輸出的解”的性質(zhì)。因此透徹理解損失曲面的幾何結(jié)構(gòu),對于研究深度學習的優(yōu)化以及泛化能力非常重要。
在2018年Novak等人用實驗說明:神經(jīng)網(wǎng)絡的泛化性能和損失曲面的幾何結(jié)構(gòu)相關:神經(jīng)網(wǎng)絡的泛化性能和輸入空間的區(qū)域個數(shù)相關。然而,非線性激活函數(shù)使得損失曲面極端的非凸,并且不光滑,這使得優(yōu)化算法的理論分析非常困難。這種混亂的局面使得目前已有的優(yōu)化算法的理論分析變得非常困難。比如,為什么凸優(yōu)化的算法可以去優(yōu)化神經(jīng)網(wǎng)絡這種非凸的問題?但是,深度學習模型在很多實際問題中,的確有很好的使用效果。由此可以想象,混亂的局面之下可能存在某種未被發(fā)現(xiàn)的秩序。
關于損失曲面的幾何結(jié)構(gòu),對于線性網(wǎng)絡(即激活函數(shù)是線性函數(shù)的網(wǎng)絡)現(xiàn)有的結(jié)論是:線性網(wǎng)絡在平方損失函數(shù)下,所有的局部極小值都是同樣好的,也即局部最小值就是全局最小值。如果非線性網(wǎng)絡也能找到類似的性質(zhì),那么后面對于深度學習的理論分析就會比較順利?,F(xiàn)有的研究對線性和非線性有著有趣的辯論,例如非線性是不重要,因為非線性網(wǎng)絡繼承了線性網(wǎng)絡的性質(zhì)。但是另一些文章則指出實際情況并非如此。
在2019年,Yun等人證明了單層的神經(jīng)網(wǎng)絡損失曲面有無窮多的次優(yōu)局部極小值。此結(jié)論需要有4個條件保證:1.單個隱藏層;2.平方損失;3.一維輸出;4.兩段線性激活。
我們今年在ICLR 2020的文章中,顯著擴展了這四個條件:1.任意深度;2.任意可微分損失;3.任意維輸出;4.任意分段線性激活。
那么之前猜測的秩序有可能是什么?Soudry和Hoffer在2018年指出,ReLU網(wǎng)絡的損失平面被劃分為若干光滑的多線性區(qū)域。
我們在文章中進一步指出:在每一個區(qū)域中,每一個局部極小值都是全局最小值;在每一個區(qū)域中,所有的局部極小值也匯聚成了一個極小值峽谷。第三,一個峽谷上所有的點構(gòu)成一個等價類;第四,此等價類還存在著平行峽谷;第五,所有的等價類構(gòu)成一個商空間。其實,這里的第二條性質(zhì)就解釋了模式連接。即隨機梯度下降找到的局部極小值的附近,存在著一些經(jīng)驗風險差別很小的點,并且這些點連成了一條線。很遺憾,目前這些幾何性質(zhì)只對單個隱藏層的神經(jīng)網(wǎng)絡成立,對于多隱藏層的深度網(wǎng)絡,還有很多工作要做。
5、OMT:大佬對話談深度學習用于3維重建
在陶大程教授分享之后。復旦大學類腦人工智能科學與技術研究院院長、上海腦科學與類腦研究中心副主任馮建峰,上海科技大學信息科學與技術學院教授、執(zhí)行院長虞晶怡和陶大程教授進行交流。
虞晶怡:陶院士這次報告非常精彩,整個報告聚焦于理論層面,當前有很多工作利用深度學習進行快速的3D估算,從而加速整個的判斷過程。您對此有何看法?
陶大程:對于物體跟蹤和檢測,三維重構(gòu)可以提供很多非常有價值的信息:(1)物體在場景中的位置信息,幫助提高基于二維圖像的物體跟蹤和檢測的定位精度;(2)物體和物體之間的前后順序信息(在實際三維場景中,物體處在不同的layer上),幫助減少遮擋的影響并提升區(qū)分不同物體的能力;(3)通過三維重構(gòu),我們可以獲得更加精細的物體的特征,幫助提高被跟蹤檢測的物體的表達能力。今天的深度學習成功的主要原因,在于其很強的特征表達能力。目前深度學習的泛化能力在理論上有很多問題還沒有解答。對于這些問題的回答,需要大家更加深入的研究深度學習的基礎理論:讓我們充分理解深度學習什么時候能成功,讓我們有效界定某一個特定的深度模型的使用范圍、讓我們知道該如何選擇訓練的技巧、以及讓我們更加高效的去調(diào)整參數(shù)等等。
(轉(zhuǎn)載)