編者按:物理學(xué)作為一個(gè)基礎(chǔ)科學(xué),與人們的生活息息相關(guān)。揭示物質(zhì)世界微觀粒子運(yùn)動(dòng)規(guī)律的量子物理,更能夠讓人類進(jìn)一步認(rèn)識(shí)和理解世界的本質(zhì)。如果把能夠深度挖掘數(shù)據(jù)規(guī)律的人工智能技術(shù)應(yīng)用到量子物理領(lǐng)域,將會(huì)產(chǎn)生怎樣的火花?近日,清華大學(xué)高等研究院翟薈教授受邀來到微軟亞洲研究院,分享了量子物理研究與人工智能方法相結(jié)合的前沿探索。本文為大家整理了翟教授演講的精彩內(nèi)容。
物理學(xué)是傳統(tǒng)的實(shí)驗(yàn)科學(xué),主要研究目標(biāo)是從實(shí)驗(yàn)數(shù)據(jù)中挖掘自然界的規(guī)律。這些實(shí)驗(yàn)數(shù)據(jù)可能來自物理實(shí)驗(yàn)室,也有可能來自日常觀察。實(shí)驗(yàn)數(shù)據(jù)往往只是現(xiàn)象,那要如何透過現(xiàn)象來看本質(zhì)?答案是利用大腦提取規(guī)律的能力。
例如,早在幾百年前,天文學(xué)家第谷對(duì)天體的運(yùn)動(dòng)做了很多觀測(cè),積累了大量的天體運(yùn)動(dòng)數(shù)據(jù)。隨后,他的學(xué)生開普勒用自己的大腦,從這些數(shù)據(jù)中發(fā)現(xiàn)了開普勒三定律,并為之后物理學(xué)家們發(fā)現(xiàn)牛頓力學(xué)奠定了基礎(chǔ);通過吸收光譜的數(shù)據(jù),“看出”光的吸收能量滿足1/n^2的離散化規(guī)律,從而啟發(fā)了量子力學(xué)的誕生。
機(jī)器學(xué)習(xí)作為對(duì)數(shù)據(jù)進(jìn)行分析處理的一項(xiàng)技術(shù),從挖掘信息和提取規(guī)律的角度來看,它和物理學(xué)有很大的相似之處。我們主要研究了物理學(xué)和機(jī)器學(xué)習(xí)之間的三個(gè)聯(lián)系:
第一,將機(jī)器學(xué)習(xí)方法應(yīng)用到量子物理及其他物理學(xué)分支;
第二,借用物理學(xué)概念和描述解釋機(jī)器學(xué)習(xí)的方法和原理;
第三,面向未來,將機(jī)器學(xué)習(xí)方法應(yīng)用到未來的量子計(jì)算機(jī)上。
應(yīng)用機(jī)器學(xué)習(xí),解決物理問題
當(dāng)我們談?wù)摍C(jī)器學(xué)習(xí)的時(shí)候,經(jīng)常提到 AlphaGo 和圖像識(shí)別。AlphaGo 的本質(zhì)其實(shí)是優(yōu)化問題,即在一個(gè)多參數(shù)空間里,通過優(yōu)化參數(shù)找到一個(gè)最優(yōu)解。這其實(shí)可以對(duì)應(yīng)物理學(xué)研究中實(shí)驗(yàn)參數(shù)的控制問題,通常實(shí)驗(yàn)室中需要調(diào)節(jié)的參數(shù)很多,傳統(tǒng)的物理實(shí)驗(yàn)還需要“手工”調(diào)節(jié),非常耗費(fèi)精力。而且物理實(shí)驗(yàn)的結(jié)果通常以圖片形式展示,例如天體照片,光譜信號(hào)圖等。如何從這些圖片中挖掘出信息和特征,恰好可以借助采用了機(jī)器學(xué)習(xí)的圖像識(shí)別技術(shù)。
因此,從數(shù)據(jù)挖掘的角度來看,機(jī)器學(xué)習(xí)和物理問題非常匹配。但從大數(shù)據(jù)的角度來看,由于物理問題中的數(shù)據(jù)量偏少,機(jī)器學(xué)習(xí)在處理物理問題時(shí)還存在著挑戰(zhàn)。所以,我認(rèn)為接下來兩個(gè)領(lǐng)域交叉研究的核心可能是:在數(shù)據(jù)量不多的情況下,如何將機(jī)器學(xué)習(xí)方法成功地應(yīng)用到物理學(xué)中。
機(jī)器學(xué)習(xí)在物理問題的一個(gè)應(yīng)用是控制參數(shù)優(yōu)化,主要價(jià)值是提供更加經(jīng)濟(jì)有效地收集訓(xùn)練數(shù)據(jù)的思路。在實(shí)驗(yàn)參數(shù)控制問題中,數(shù)學(xué)描述是優(yōu)化可量化的控制參數(shù),能夠幫助實(shí)驗(yàn)系統(tǒng)達(dá)到控制目標(biāo)。實(shí)驗(yàn)控制參數(shù)與實(shí)驗(yàn)?zāi)繕?biāo)之間的映射函數(shù)非常復(fù)雜,為了找到復(fù)雜映射函數(shù)的極值點(diǎn),我們用神經(jīng)網(wǎng)絡(luò)來擬合此復(fù)雜函數(shù),但是由于數(shù)據(jù)點(diǎn)不足,很難在全空間將此函數(shù)精確擬合。但是我們關(guān)心的并不是全空間的函數(shù),只需要找到其極值點(diǎn)即可。因此,利用 Active Learning 的思想,根據(jù)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果收集包含更多函數(shù)極值點(diǎn)附近信息的訓(xùn)練數(shù)據(jù),然后將這些數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再不斷調(diào)整神經(jīng)網(wǎng)絡(luò)對(duì)函數(shù)極值點(diǎn)附近的預(yù)測(cè),從而提高準(zhǔn)確率。
我們將此方法應(yīng)用到冷原子系統(tǒng)的蒸發(fā)冷卻實(shí)驗(yàn)中,其實(shí)驗(yàn)原理是:通過調(diào)節(jié)實(shí)驗(yàn)系統(tǒng)中的光強(qiáng),實(shí)現(xiàn)對(duì)熱原子的降溫,達(dá)到量子簡(jiǎn)并或制備玻色-愛因斯坦凝聚體(BEC)。在與山西大學(xué)研究小組的合作中,我們只收集了一兩百組數(shù)據(jù),就能夠在玻色子中通過蒸發(fā)冷卻實(shí)現(xiàn) BEC 的制備。該方法不僅可以應(yīng)用在物理實(shí)驗(yàn)系統(tǒng)中,還可以普適地應(yīng)用到各種控制問題,通過很少的數(shù)據(jù)集優(yōu)化控制參數(shù)。
圖1:蒸發(fā)冷卻過程示意圖,通過調(diào)節(jié)控制參數(shù)降低勢(shì)阱深度實(shí)現(xiàn)降溫
利用機(jī)器學(xué)習(xí)擴(kuò)充物理問題的數(shù)據(jù)量也是一個(gè)重要的應(yīng)用方向。對(duì)于一個(gè)物理系統(tǒng),由于已知其大致物理性質(zhì),因此可以通過已知理論模擬產(chǎn)生大量數(shù)據(jù),從而用于數(shù)據(jù)識(shí)別模型的訓(xùn)練。但物理理論與實(shí)際系統(tǒng)存在差別,例如實(shí)際中會(huì)存在各種噪音、樣品雜質(zhì)、系統(tǒng)不穩(wěn)定等因素,這就導(dǎo)致理論與實(shí)驗(yàn)不是完全吻合。這時(shí),數(shù)據(jù)識(shí)別模型的訓(xùn)練原則是,不僅要準(zhǔn)確識(shí)別數(shù)據(jù),還要求模型對(duì)實(shí)際數(shù)據(jù)的識(shí)別盡可能有較高的置信度,不要“模棱兩可”。
根據(jù)此原則,在模擬數(shù)據(jù)中訓(xùn)練好的識(shí)別模型在對(duì)真實(shí)的實(shí)驗(yàn)數(shù)據(jù)預(yù)測(cè)中,也能產(chǎn)生很好的結(jié)果。我們將此方法引用到了掃描隧道顯微鏡(STM)實(shí)驗(yàn)圖片中,希望分析材料中的雜質(zhì)位置(STM 是在物理實(shí)驗(yàn)中分析材料最基礎(chǔ)、最常用的實(shí)驗(yàn)方法之一)。如圖2所示,利用我們提出的機(jī)器學(xué)習(xí)方法,在很少的 STM 數(shù)據(jù)圖片中,我們也能夠高準(zhǔn)確率預(yù)測(cè)到雜質(zhì)位置。
圖2:(左圖)實(shí)驗(yàn)與理論數(shù)據(jù)結(jié)合的神經(jīng)網(wǎng)絡(luò)模型;(右圖)不同數(shù)據(jù)和結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確率
利用物理概念,理解機(jī)器學(xué)習(xí)
和社會(huì)學(xué)問題截然不同,物理學(xué)背后有一個(gè)可以量化的規(guī)律,并可以用確定的數(shù)學(xué)公式描述出來。我們能夠用機(jī)器學(xué)習(xí)分析物理數(shù)據(jù)、發(fā)現(xiàn)物理規(guī)律,那么如何用物理學(xué)中的概念解釋機(jī)器學(xué)習(xí)的結(jié)果呢?
一個(gè)方面,我們用神經(jīng)網(wǎng)絡(luò)對(duì)量子系統(tǒng)中的拓?fù)鋽?shù)進(jìn)行學(xué)習(xí),通過對(duì)一維拓?fù)淞坷@數(shù)(Winding number)和二維拓?fù)鋽?shù)(Chern number)的學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)能夠?qū)τ?xùn)練集以外的拓?fù)淞窟M(jìn)行準(zhǔn)確預(yù)測(cè)。通過分析神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)計(jì)算,我們發(fā)現(xiàn)它確實(shí)學(xué)會(huì)了用數(shù)學(xué)公式計(jì)算拓?fù)鋽?shù)。
圖3:訓(xùn)練繞數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
表1:卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果
另一方面,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)量子波函數(shù)的演化進(jìn)行學(xué)習(xí),在對(duì)波函數(shù)的演化有很準(zhǔn)確的預(yù)測(cè)以后,我們通過自動(dòng)編碼器對(duì)隱層的信息進(jìn)行高度概括和提取,發(fā)現(xiàn)RNN對(duì)波函數(shù)的演化類似于量子力學(xué)中的薛定諤方程。這和人們基于邏輯總結(jié)的物理知識(shí)是一致的。由此,我們實(shí)現(xiàn)了利用物理知識(shí)對(duì)機(jī)器學(xué)習(xí)進(jìn)行分析和解讀。
圖4:RNN-AE架構(gòu)學(xué)習(xí)薛定諤方程
基于量子計(jì)算,發(fā)展機(jī)器學(xué)習(xí)
量子計(jì)算是一個(gè)新興發(fā)展的領(lǐng)域,近兩年受到了廣泛關(guān)注。由于量子力學(xué)保證,波函數(shù)的演化是一個(gè)幺正演化,屬于線性變換,而經(jīng)典神經(jīng)網(wǎng)絡(luò)是非線性函數(shù),屬于非線性變換。因此,在量子神經(jīng)網(wǎng)絡(luò)中,波函數(shù)的信息是沒有損失的,系統(tǒng)總的熵是守恒的。
所以我們可以從信息擴(kuò)散的角度出發(fā),研究在量子神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的過程中信息的擴(kuò)散方式。由此理解量子神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)學(xué)習(xí)過程,并且?guī)椭覀冊(cè)O(shè)計(jì)量子神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
圖5:量子神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)與信息擴(kuò)散
這里我們介紹了機(jī)器學(xué)習(xí)與量子物理在三個(gè)方面的結(jié)合:借助機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)處理的優(yōu)勢(shì)用于發(fā)現(xiàn)背后的量子物理規(guī)律,可以幫助我們發(fā)現(xiàn)新的物理規(guī)律;對(duì)于特定量子物理問題進(jìn)行研究,改進(jìn)機(jī)器學(xué)習(xí)中的算法,能夠在小數(shù)據(jù)量的情況下幫助我們更高效地達(dá)到目標(biāo),節(jié)約資源,突破傳統(tǒng)方法的極限;基于量子計(jì)算的框架對(duì)機(jī)器學(xué)習(xí)算法的研究,可以為未來在量子計(jì)算機(jī)上實(shí)現(xiàn)機(jī)器學(xué)習(xí)起到一定的推動(dòng),促進(jìn)量子機(jī)器學(xué)習(xí)的發(fā)展。相信 AI 與量子物理的疊加,會(huì)“顛覆”兩個(gè)領(lǐng)域乃至相關(guān)科學(xué)領(lǐng)域的發(fā)展。
翟薈 清華大學(xué)高等研究院教授
1998年進(jìn)入清華大學(xué)物理系基礎(chǔ)科學(xué)班,2002年本科畢業(yè),2005年1月在清華大學(xué)高等研究中心獲物理學(xué)博士學(xué)位。2005-2007年美國(guó)俄亥俄州立大學(xué)博士后,2007-2009年美國(guó)加州大學(xué)伯克利分校和洛倫茲伯克利國(guó)家實(shí)驗(yàn)室博士后。2009年起任清華大學(xué)高等研究院研究員,2012年獲得長(zhǎng)聘,2015年任高等研究院教授。2016年被評(píng)為教育部長(zhǎng)江學(xué)者特評(píng)教授,2019年獲得中國(guó)物理學(xué)會(huì)饒毓泰獎(jiǎng)。發(fā)表 SCI 論文百余篇 SCI 總引用約5000余次,Google Scholar 總引用8200余次。
(轉(zhuǎn)載)