xx色综合,国产午夜亚洲精品不卡网站,成年在线欧美,最近免费中文字幕mv在线视频3 ,亚洲综合人成网免费视频

工業(yè)機(jī)器人

Google X教你用模擬器訓(xùn)練機(jī)器人,準(zhǔn)確率超93%,ICRA2021已發(fā)表

ainet.cn   2021年06月15日

  前言:機(jī)器人的訓(xùn)練相比自然語(yǔ)言處理、視覺(jué)等領(lǐng)域來(lái)說(shuō)更加困難,因?yàn)樾枰獙?shí)際搭建一個(gè)環(huán)境,更多的時(shí)間來(lái)試錯(cuò)。而使用模擬器來(lái)模擬機(jī)器人,訓(xùn)練出來(lái)的模型想要直接應(yīng)用到真實(shí)環(huán)境之間還需要消除他們之間的gap。

  機(jī)器人研究中的強(qiáng)化和模仿學(xué)習(xí)方法可以實(shí)現(xiàn)自主環(huán)境導(dǎo)航和高效的目標(biāo)操作,這反過(guò)來(lái)又為實(shí)際應(yīng)用開(kāi)辟了廣闊的前景。

  先前的工作已經(jīng)展示了使用深層神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端學(xué)習(xí)的機(jī)器人是如何通過(guò)理解相機(jī)的觀察來(lái)采取行動(dòng)和解決任務(wù),從而可靠和安全地與我們周?chē)姆墙Y(jié)構(gòu)化世界進(jìn)行互動(dòng)的。

  然而,端到端的學(xué)習(xí)方法雖然可以對(duì)復(fù)雜的機(jī)器人操作任務(wù)進(jìn)行概括和規(guī)模化,但是它們需要成千上萬(wàn)個(gè)真實(shí)世界的機(jī)器人訓(xùn)練片段,這是很難獲得的。

  人們可以嘗試通過(guò)模擬實(shí)際運(yùn)行環(huán)境來(lái)緩解這種限制(即不需要真正地搭建一個(gè)機(jī)器人),從而使虛擬機(jī)器人能夠在更大規(guī)模的數(shù)據(jù)上更快地學(xué)習(xí),但是模擬無(wú)法與真實(shí)世界完全匹配,自然而然地,模擬于現(xiàn)實(shí)之間存在一個(gè)gap,這也是成為了機(jī)器人研究中的新挑戰(zhàn)。

  造成這種差距的一個(gè)重要原因是模擬中呈現(xiàn)的圖像與真實(shí)的機(jī)器人攝像機(jī)觀測(cè)值之間的差異,這導(dǎo)致機(jī)器人在現(xiàn)實(shí)世界中表現(xiàn)不佳。

  到目前為止,用于彌補(bǔ)這種差距的工作采用了一種叫做像素級(jí)域適應(yīng)(pixel-level domain adaptation)的技術(shù),這種技術(shù)將合成圖像轉(zhuǎn)換成像素級(jí)的真實(shí)圖像。

  一個(gè)經(jīng)典的模型是 GraspGAN,它使用了一個(gè)生成式對(duì)抗網(wǎng)絡(luò)(GAN) 用來(lái)生成圖像,可以為每個(gè)領(lǐng)域的特定數(shù)據(jù)集的模擬圖像和真實(shí)圖像之間的轉(zhuǎn)換建模。

  這些偽裝成真實(shí)的圖像(GAN生成的)糾正了一些與真實(shí)圖像相似的缺陷,因此通過(guò)模擬學(xué)習(xí)的策略在真實(shí)機(jī)器人身上能夠顯著提升效果,縮小模擬到真實(shí)之間的差距。

  然而,它們用于模擬到實(shí)際傳輸數(shù)據(jù)時(shí)還有一個(gè)限制,由于 GANs 是在像素級(jí)上傳輸圖像,機(jī)器人任務(wù)學(xué)習(xí)所必需的多像素特征或結(jié)構(gòu)可能被任意修改甚至刪除。

  為了解決上述問(wèn)題,X與Everyday Robot Project項(xiàng)目合作,引入了 RL-CycleGAN 和 RetinaGAN 兩個(gè)新模型,它們訓(xùn)練了機(jī)器人特定一致性的 GANs,使它們不會(huì)隨意修改機(jī)器人任務(wù)學(xué)習(xí)所需的視覺(jué)特征,從而彌合了模擬和真實(shí)之間的視覺(jué)差異。

  X,以前也稱為Google X及Research at Google,是一個(gè)由谷歌公司運(yùn)行的秘密實(shí)驗(yàn)室,位于加利福尼亞州舊金山灣區(qū)某處,實(shí)驗(yàn)室的工作由谷歌公司聯(lián)合創(chuàng)始人之一謝爾蓋·布林督導(dǎo)。

  論文中還展示了這些一致性如何保留了對(duì)策略學(xué)習(xí)至關(guān)重要的特征,消除了手工設(shè)計(jì)、也無(wú)需針對(duì)不同任務(wù)進(jìn)行調(diào)整,能夠允許機(jī)器人在類似于真實(shí)環(huán)境中訓(xùn)練,這種方法能夠在不同任務(wù)、領(lǐng)域和學(xué)習(xí)算法之間都取得不錯(cuò)的效果。

  RL-CycleGAN

  在RL-CycleGAN模型中,主要關(guān)注如何從sim-to-real的遷移,并展示了如何利用強(qiáng)化學(xué)習(xí)訓(xùn)練得到的一個(gè)抓取模型取得了sota性能。

  RL-CycleGAN利用 CycleGAN 的一個(gè)變體來(lái)進(jìn)行模擬到真實(shí)的適應(yīng),確保真實(shí)圖像和模擬圖像之間任務(wù)相關(guān)特征的一致性。

  CycleGAN通過(guò)確保修改后的圖像能夠恢復(fù)到原始區(qū)域與原始圖像完全相同來(lái)保持圖像內(nèi)容,這就是所謂的循環(huán)一致性。

  為了進(jìn)一步鼓勵(lì)改編后的圖像對(duì)機(jī)器人有用,CycleGAN與一個(gè)強(qiáng)化學(xué)習(xí)機(jī)器人代理人聯(lián)合訓(xùn)練,以確保機(jī)器人的行動(dòng)在GAN-adaption之后是相同的。

  也就是說(shuō),任務(wù)特定的特征,如機(jī)器人手臂或可識(shí)別的物體位置是不變的,但是 GAN 仍然可以改變光照或者不影響任務(wù)級(jí)別決策的域之間的紋理差異。

  評(píng)價(jià) RL-CycleGAN 在機(jī)器人不分無(wú)差別(indiscriminate)的抓取任務(wù)中的表現(xiàn),經(jīng)過(guò)580,000次與RL-CycleGAN 相適應(yīng)的實(shí)際試驗(yàn)和模擬訓(xùn)練,該機(jī)器人抓取物體的成功率達(dá)到94% ,超過(guò)了現(xiàn)有最先進(jìn)的模擬實(shí)際方法 GraspGAN 的89% 成功率和未經(jīng)模擬使用實(shí)際數(shù)據(jù)的87% 成功率。

  僅有28,000個(gè)試驗(yàn),rl-cyclegg 方法達(dá)到了86% ,與之前的基線數(shù)據(jù)20倍相當(dāng)。

  RetinaGAN

  在RetinaGAN中,擴(kuò)展了之前的工作,將模仿學(xué)習(xí)應(yīng)用在在一個(gè)開(kāi)門(mén)(door opening)的任務(wù)中。

  雖然 RL-CycleGAN 能夠十分可靠地利用任務(wù)感知,利用強(qiáng)化學(xué)習(xí)將各個(gè)領(lǐng)域的任務(wù)仿真轉(zhuǎn)換為真實(shí),一個(gè)自然而然的問(wèn)題出現(xiàn)了: 我們能否開(kāi)發(fā)一種更加靈活的仿真轉(zhuǎn)換技術(shù),廣泛應(yīng)用于不同的任務(wù)和機(jī)器人學(xué)習(xí)技術(shù)?

  在 ICRA 2021會(huì)議上提出的 RetinaGAN, 一種對(duì)象感知的 Sim-to-Real 傳輸方法中,提出了一種任務(wù)解耦、算法解耦的 GAN 方法來(lái)實(shí)現(xiàn)sim-to-real傳輸,而不是關(guān)注機(jī)器人對(duì)物體的感知。

  RetinaGAN 通過(guò)感知一致性,增強(qiáng)對(duì)對(duì)象語(yǔ)義感知,通過(guò)目標(biāo)檢測(cè)預(yù)測(cè)所有圖像中所有對(duì)象的包圍盒位置。

  在一個(gè)理想的近似真實(shí)模型中,我們期望對(duì)象檢測(cè)器能夠預(yù)測(cè) GAN 轉(zhuǎn)換前后相同的盒子位置,因?yàn)閷?duì)象不會(huì)發(fā)生結(jié)構(gòu)性變化。

  通過(guò)反向傳播的方法,RetinaGAN 被訓(xùn)練成這樣一種理想狀態(tài): 當(dāng) a)模擬圖像從模擬轉(zhuǎn)換為真實(shí)圖像,然后再轉(zhuǎn)換回模擬圖像,b)當(dāng)真實(shí)圖像從真實(shí)圖像轉(zhuǎn)換為模擬圖像,然后再轉(zhuǎn)換回真實(shí)圖像時(shí),對(duì)物體的感知具有一致性。我們發(fā)現(xiàn)這種基于對(duì)象的一致性比 RL-CycleGAN 所要求的任務(wù)特定的一致性更廣泛地適用。

  評(píng)估 RetinaGAN 在真實(shí)機(jī)器人上的應(yīng)用為了建立一個(gè)更加靈活的模擬真實(shí)傳輸技術(shù),我們以多種方式評(píng)估 RetinaGAN,以了解它在哪些任務(wù)和什么條件下能夠?qū)崿F(xiàn)模擬真實(shí)傳輸。

  我們首先將 RetinaGAN 應(yīng)用于抓取任務(wù),RetinaGAN 更注重強(qiáng)調(diào)了真實(shí)的物體紋理、陰影和光照的轉(zhuǎn)換,同時(shí)保持了可感知物體的視覺(jué)質(zhì)量和顯著性。

  將事先訓(xùn)練好的 RetinaGAN 模型與分布式強(qiáng)化學(xué)習(xí)方法 Q2-Opt 結(jié)合起來(lái),訓(xùn)練一個(gè)基于視覺(jué)的任務(wù)模型,用于實(shí)例抓取。

  在真實(shí)機(jī)器人上,經(jīng)過(guò)10萬(wàn)次訓(xùn)練后,該策略能夠成功地抓住目標(biāo)實(shí)例,成功率達(dá)到80% ーー優(yōu)于先前的適應(yīng)方法 RL-CycleGAN 和 CycleGAN (兩者均達(dá)到68%)和無(wú)領(lǐng)域適應(yīng)的訓(xùn)練(灰條下: sim 數(shù)據(jù)為19% ,real數(shù)據(jù)為22% ,混合數(shù)據(jù)為54%)。這給了我們信心,感知一致性是一個(gè)有價(jià)值的策略模擬到真實(shí)的轉(zhuǎn)移。此外,僅有10,000次訓(xùn)練(8% 的數(shù)據(jù)) ,RetinaGAN 的 RL 策略成功率達(dá)到66% ,與之前的方法相比,數(shù)據(jù)顯著減少。

  接下來(lái),我們將 RetinaGAN 與一種不同的學(xué)習(xí)方法,行為克隆(behavioral cloning) 結(jié)合起來(lái):打開(kāi)會(huì)議室的大門(mén),讓操作人員進(jìn)行演示。

  利用模擬和真實(shí)演示的圖像,我們訓(xùn)練 RetinaGAN 將合成圖像轉(zhuǎn)換為逼真的圖像,從而縮小模擬與真實(shí)之間的差距。

  然后我們訓(xùn)練了一個(gè)行為克隆模型來(lái)模擬人類操作者在真實(shí)的和 retinagan 適應(yīng)的模擬演示中的任務(wù)解決行為。當(dāng)通過(guò)預(yù)測(cè)要采取的行動(dòng)來(lái)評(píng)估這個(gè)模型時(shí),機(jī)器人93% 的時(shí)間進(jìn)入真正的會(huì)議室,超過(guò)了75% 以下的基線。

  這項(xiàng)工作已經(jīng)證明了局域網(wǎng)上的額外約束可以解決視覺(jué)模擬實(shí)際差距,而不需要特定任務(wù)的調(diào)整,這些方法達(dá)到較高的實(shí)際機(jī)器人成功率與較少的數(shù)據(jù)收集。Rl-CycleGAN 將合成圖像轉(zhuǎn)換為真實(shí)的圖像,這種轉(zhuǎn)換具有自動(dòng)保留任務(wù)相關(guān)特性的 rl 一致性損失。

  RetinaGAN 是一種對(duì)象感知的類真實(shí)適應(yīng)技術(shù),它可以在不同的環(huán)境和任務(wù)之間進(jìn)行有效的適應(yīng),不依賴于任務(wù)學(xué)習(xí)方法。由于 RetinaGAN 沒(méi)有受過(guò)任何特定任務(wù)知識(shí)的訓(xùn)練,因此我們展示了如何在新的物體推送任務(wù)中重用它。我們希望這項(xiàng)工作能夠進(jìn)一步推廣到解決非結(jié)構(gòu)化環(huán)境中與任務(wù)無(wú)關(guān)的機(jī)器人操作問(wèn)題。

  參考資料:https://ai.googleblog.com/2021/06/toward-generalized-sim-to-real-transfer.html

(轉(zhuǎn)載)

標(biāo)簽:機(jī)器人 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書(shū)下載
億萬(wàn)克
專題報(bào)道
2025全景工博會(huì)
2025全景工博會(huì)

第二十五屆中國(guó)國(guó)際工業(yè)博覽會(huì)(簡(jiǎn)稱“中國(guó)工博會(huì),CIIF”)將于今年9月23至27日在國(guó)家會(huì)展中心(上海)舉行。 [更多]

智能制造標(biāo)桿企業(yè)展播
智能制造標(biāo)桿企業(yè)展播

為了講述我國(guó)實(shí)體經(jīng)濟(jì)推進(jìn)高質(zhì)量發(fā)展的鮮活實(shí)例,發(fā)揮好典型企業(yè)實(shí)施智能制造的示范作用,提振廣大制造業(yè)企業(yè)推進(jìn)轉(zhuǎn)型升級(jí)的信心... [更多]

2025世界人工智能大會(huì)
2025世界人工智能大會(huì)

2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議(簡(jiǎn)稱“WAIC 2025”)將于7月在上海世博中心和世博展覽館舉行... [更多]