當(dāng)機(jī)器人遇見強(qiáng)化學(xué)習(xí),會(huì)碰出怎樣的火花?
一名叫Cassie的機(jī)器人,給出了生動(dòng)演繹。
最近,24歲的中國(guó)南昌小伙李鐘毓和其所在團(tuán)隊(duì),用強(qiáng)化學(xué)習(xí)教Cassie走路,目前它已學(xué)會(huì)蹲伏走路和載重走路等。
塑料瓶分揀機(jī)器人相關(guān)論文以《雙足機(jī)器人魯棒參數(shù)化運(yùn)動(dòng)控制的強(qiáng)化學(xué)習(xí)》(ReinforcementLearningforRobustParameterizedLocomotionControlofBipedalRobots)為題,已被機(jī)器人國(guó)際學(xué)術(shù)頂會(huì)ICRA收錄。
通過(guò)強(qiáng)化學(xué)習(xí),它能自己走路,并能進(jìn)行自我恢復(fù)。在現(xiàn)實(shí)世界中,通過(guò)反復(fù)試驗(yàn)來(lái)訓(xùn)練大型機(jī)器人會(huì)很危險(xiǎn),為解決這些問(wèn)題,李鐘毓所在小組使用了兩個(gè)不同的仿真環(huán)境。
研究中,一個(gè)虛擬版本的Cassie,通過(guò)與環(huán)境交互產(chǎn)生的大量數(shù)據(jù),來(lái)學(xué)習(xí)穩(wěn)定的步態(tài)。
習(xí)得的步態(tài)控制器,被轉(zhuǎn)移到名為SimMechanics的第二個(gè)仿真環(huán)境中進(jìn)行驗(yàn)證,該環(huán)境有更高的準(zhǔn)確性,可用以模擬現(xiàn)實(shí)世界的物理過(guò)程,但是會(huì)減慢仿真運(yùn)行速度。
而通過(guò)使用在仿真環(huán)境中學(xué)習(xí)的步態(tài)控制器,Cassie能非常平穩(wěn)地行走,且無(wú)需進(jìn)行任何額外微調(diào)。它不僅能像人類一樣前后左右地走,還能蹲著走,也能承受意料之外的負(fù)載,更能從強(qiáng)行推動(dòng)造成的失穩(wěn)狀態(tài)中恢復(fù)過(guò)來(lái)。
比如,在測(cè)試期間,Cassie損壞了它右腿的兩個(gè)電機(jī),但它仍能調(diào)整其步行策略、并進(jìn)行適應(yīng)。
機(jī)器人如何更魯棒?答案是強(qiáng)化學(xué)習(xí)
Cassie是李鐘毓所在的HybridRoboticsGroup實(shí)驗(yàn)室、從美國(guó)AgilityRobotics公司買來(lái)的,它大概有一米多高,內(nèi)部擁有十個(gè)電機(jī),以及二十個(gè)自由度。
生產(chǎn)分揀機(jī)器人的上市公司據(jù)他介紹,Cassie于2017年首次開始出售,他從2019年開始接觸,目前已經(jīng)研究?jī)赡暧杏唷?/p>
買來(lái)后,其主要用于測(cè)試和驗(yàn)證不同算法,如控制算法和導(dǎo)航控制算法等。在李鐘毓這里,Cassie更像是一個(gè)研究平臺(tái)。
藥品分揀機(jī)器人選哪家事實(shí)上,足式機(jī)器人的核心正是控制算法。研究中,李鐘毓主要使用Python進(jìn)行編程,主體代碼由其所在小組搭建,剩余一部分基于其他學(xué)者的開源代碼。
由于是二足機(jī)器人,算法控制上會(huì)更難。而該研究的創(chuàng)新點(diǎn)在于,用強(qiáng)化學(xué)習(xí)的方法,得到控制二足機(jī)器人步態(tài)的算法,相比傳統(tǒng)基于模型的算法,性能可得到顯著提升。
由此帶來(lái)的魯棒性也比較強(qiáng),怎么推它都不會(huì)倒,即便在幾乎快要摔倒的情況下,也能快速恢復(fù)穩(wěn)定狀態(tài),這也是業(yè)內(nèi)首次展示出二足機(jī)器人如此穩(wěn)定的性能。
在強(qiáng)化學(xué)習(xí)之前,傳統(tǒng)基于模型的方法,需要很多時(shí)間和技巧給機(jī)器人做建模,尤其對(duì)于二足機(jī)器人而言,一旦其自身性質(zhì)和周圍環(huán)境發(fā)生改變,比如電機(jī)壞了、地面摩擦力有變化,模型很有可能就會(huì)失效。
其次,對(duì)于雙足式的機(jī)器人系統(tǒng),其非線性非常高,并且由于是高自由度的混合系統(tǒng),每一次踏步都會(huì)受到地面沖擊力,因此很難獲得精確模型。
而要想做一個(gè)實(shí)時(shí)控制算法,就要使用相對(duì)完整的動(dòng)力學(xué)模型。但是,即便具備好的模型,部署在非常高自由度的非線性系統(tǒng)上,也很難做到較快的實(shí)時(shí)計(jì)算。
分揀機(jī)器人都有哪些公司因此,使用傳統(tǒng)方法時(shí),很多學(xué)者都會(huì)做出權(quán)衡取舍,比如往往用簡(jiǎn)化模型來(lái)做控制算法。
分揀機(jī)器人的出現(xiàn)這樣做出的算法有兩個(gè)缺點(diǎn):一是無(wú)法完整利用動(dòng)力學(xué)模型,無(wú)法充分發(fā)揮機(jī)器人系統(tǒng)的靈敏性;二是基于模型的算法,一旦超過(guò)其穩(wěn)定區(qū)域,算法就會(huì)輕易崩潰。
而強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)在于,通過(guò)相對(duì)完整的機(jī)器人動(dòng)力系統(tǒng),Cassie在仿真環(huán)境反復(fù)嘗試后,就能獲得大量和環(huán)境交互的數(shù)據(jù),從而學(xué)會(huì)用穩(wěn)定步態(tài)行走。
圖|本次研究的核心:基于強(qiáng)化學(xué)習(xí)的步態(tài)控制器
如上圖所示,這是本次研究提出的基于學(xué)習(xí)的步行控制器,控制器的輸入包括所期望的步態(tài)參數(shù)、期望的轉(zhuǎn)彎偏航速度、由期望的步態(tài)參數(shù)解碼的參考步態(tài)、一段時(shí)間內(nèi)的觀察到的機(jī)器人狀態(tài)以及控制器的輸出。
另?yè)?jù)悉,控制器可輸出十個(gè)電機(jī)的期望位置,通過(guò)低通濾波器后,可被發(fā)送到各個(gè)關(guān)節(jié)處的PD控制器產(chǎn)生期望的電機(jī)力矩。
兩大創(chuàng)新,讓Cassie可模仿各種步態(tài)
李鐘毓告訴DeepTech,該研究主要有兩大創(chuàng)新點(diǎn)。
第一個(gè)創(chuàng)新點(diǎn),在于采用了步態(tài)庫(kù),里面有各種各樣不同的步行速度和步行高度的步態(tài),比如有1米每秒的前進(jìn)速度、0.3米每秒的側(cè)向行走速度、和0.7米的步行高度下的步態(tài)。這樣就能在步態(tài)庫(kù)中各取所需,從而讓機(jī)器人模仿不同的參考步態(tài),同時(shí)還能追蹤參考步態(tài)的速度和步行高度。
通過(guò)步態(tài)庫(kù),在訓(xùn)練中使用神經(jīng)網(wǎng)絡(luò)所代表的控制器,就能控制不同的步行速度和步行高度,比如往前或者往后。此外,不同步態(tài)之間還可實(shí)現(xiàn)來(lái)回切換。
此外,步態(tài)庫(kù)還能提供更多參考動(dòng)作,Cassie在仿真學(xué)習(xí)時(shí),就能見到各種步態(tài),同時(shí)還能學(xué)會(huì)在各種動(dòng)作下保持平衡。
如下圖所示,Cassie滑了一跤,幾乎差點(diǎn)摔倒,但在用安全繩把自己拉起來(lái)后,它能迅速恢復(fù)穩(wěn)定步態(tài),這個(gè)能力是前所未有的,而且李鐘毓也并未就該能力,專門訓(xùn)練過(guò)它。
也就是說(shuō),這是Cassie通過(guò)在訓(xùn)練中模仿各種步態(tài),并讓自己從不同步態(tài)的過(guò)渡中“自摸學(xué)會(huì)”的能力,這在大部分基于模型控制算法的機(jī)器人身上很難實(shí)現(xiàn)。
試想一下,如果機(jī)器人自己倒在地上,沒(méi)有人扶它,無(wú)論對(duì)它自己還是對(duì)周圍人都非常危險(xiǎn)。
第二個(gè)創(chuàng)新點(diǎn)在于,結(jié)合了機(jī)器人的歷史輸入和輸出,從而實(shí)現(xiàn)對(duì)Cassie和其所在環(huán)境的在線系統(tǒng)辨識(shí)。
這樣,控制器就能讓Cassie適應(yīng)不同的環(huán)境,比如不同地面的摩擦力。
測(cè)試中,Cassie的兩個(gè)電機(jī)壞了,但它仍能快速適應(yīng)系統(tǒng)變化。再比如,把不同重物放在Cassie身上,即便拉著后面的安全架,它也能迅速適應(yīng)這種變化。
據(jù)悉,該研究由李鐘毓所在的、由Prof.KoushilSreenath帶領(lǐng)的課題組,和伯克利大學(xué)Prof.SergeyLevine、以及Prof.PieterAbbeel兩個(gè)課題組合作。
李鐘毓所在的小組,專注于機(jī)器人和控制算法領(lǐng)域,其他兩個(gè)小組則是強(qiáng)化學(xué)習(xí)方面的專家。此外,該工作的成功也離不開團(tuán)隊(duì)成員程旭欣、XueBinPeng、GlenBerseth的共同努力。
可應(yīng)用于災(zāi)后搜救和快遞“最后一公里”
相比其他機(jī)器人,Cassie有更大的運(yùn)動(dòng)空間,因?yàn)槿祟惿鐣?huì)的環(huán)境,主要圍繞人類需求而建造。而二足控制算法,能讓Cassie在人類環(huán)境中更好地運(yùn)動(dòng)比如爬樓梯,這也是輪式機(jī)器人無(wú)法實(shí)現(xiàn)的。
具體應(yīng)用中,當(dāng)發(fā)生地震時(shí),Cassie能在塌房中做救援工作;或者在“最后一公里”的快遞中,在此之前先用快遞車運(yùn)送到固定地方,但因?yàn)槭占艘话阍谑覂?nèi),這時(shí)Cassie就能替代快遞小哥,把快遞當(dāng)面送給用戶。
此外,Cassie這類二足機(jī)器人,形態(tài)上和人類相似,人類也更傾向于和它們做更好的交互,比如可以給其設(shè)計(jì)富有感情的動(dòng)作,冷冰冰的機(jī)器也能變得更有溫度。
李鐘毓之前的論文《動(dòng)畫Cassie:一個(gè)可讀的動(dòng)力學(xué)機(jī)器人角色》(AnimatedCassie:ADynamicRelatableRoboticCharacter),首次用動(dòng)畫軟件給Cassie設(shè)計(jì)了富有表情的動(dòng)作,并使用基于模型的軌跡優(yōu)化的算法,設(shè)計(jì)出來(lái)的動(dòng)作能讓Cassie在現(xiàn)實(shí)世界中復(fù)現(xiàn)出來(lái),上述論文也入選了IROS2020最佳娛樂(lè)應(yīng)用論文。
快遞分揀機(jī)器人結(jié)構(gòu)據(jù)悉,這也是首次在二足機(jī)器人上做這種嘗試,Cassie也因此能用肢體語(yǔ)言表達(dá)感情和人交互。
未來(lái),李鐘毓會(huì)就Cassie的算法技術(shù)做以局部開源,相關(guān)研究方法已經(jīng)以論文形式發(fā)表,以推動(dòng)足式機(jī)器人的進(jìn)步。
看好中國(guó)機(jī)器人發(fā)展態(tài)勢(shì),博士畢業(yè)后或?qū)⒒貒?guó)發(fā)展
談及研究中難忘的事情,李鐘毓表示,當(dāng)時(shí)仿真訓(xùn)練做了很久都“顆粒無(wú)收”,不過(guò)此前也沒(méi)有學(xué)者能一次就做成功。
仿真訓(xùn)練模型,非常難以部署到真實(shí)世界中。畢竟真實(shí)環(huán)境和仿真環(huán)境的差異非常大。為此,他折騰很久都沒(méi)有眉目,導(dǎo)師也勸他再做不出來(lái)就要換方向。
但他秉持“不是有希望才堅(jiān)持,而是堅(jiān)持才有希望”的想法,首次把訓(xùn)練得到的控制器部署在Cassie就取得了成功。
實(shí)驗(yàn)成功后,他激動(dòng)得給導(dǎo)師發(fā)了一條短信,導(dǎo)師知道后也非常振奮。這等于無(wú)需進(jìn)行算法調(diào)參,開發(fā)好就能直接部署到機(jī)器人上。
李鐘毓生于1996年,來(lái)自江西南昌,本科就讀于浙江大學(xué)竺可楨學(xué)院,學(xué)習(xí)機(jī)械電子工程,大四時(shí)申請(qǐng)到去卡內(nèi)基梅隆大學(xué)機(jī)器人研究所做科研實(shí)習(xí)。
在那里,他專門在機(jī)器人Ballbot的開發(fā),該機(jī)器人能在一個(gè)球上保持平衡,并能帶領(lǐng)盲人避開障礙物,這也為他后續(xù)工作夯實(shí)了基礎(chǔ)。
由于表現(xiàn)優(yōu)秀,本科畢業(yè)后,CMU的導(dǎo)師把其推薦到伯克利大學(xué)機(jī)械系控制和機(jī)器人方向直博。
今年他在讀博二,雖然畢業(yè)去向還未明朗,但他認(rèn)為回國(guó)是很好的選擇。因?yàn)樗J(rèn)為,中國(guó)現(xiàn)在有非常成熟的機(jī)器人平臺(tái),兩足機(jī)器人也有著很好的發(fā)展空間。
原文標(biāo)題:24歲浙大畢業(yè)生研發(fā)兩足機(jī)器人,已學(xué)會(huì)蹲伏走路和載重走路,應(yīng)用于“最后一公里快遞”和災(zāi)后搜救|專訪
無(wú)人分揀機(jī)器人垃圾分揀機(jī)器人市場(chǎng)快遞分揀機(jī)器人的實(shí)際意義