2025-06-19 17:19
發(fā)布
由于機(jī)器學(xué)習(xí)算法,一只機(jī)器人狗可以在短短20分鐘內(nèi)學(xué)習(xí)在不熟悉和難以提高的地形(例如草,樹皮和遠(yuǎn)足徑)上行走。
大多數(shù)自主機(jī)器人必須經(jīng)過人類仔細(xì)編程或在模擬場景中進(jìn)行廣泛測試,然后才能執(zhí)行現(xiàn)實(shí)世界中的任務(wù),例如走上巖石山或濕滑的斜坡 - 當(dāng)他們遇到陌生的環(huán)境時,他們傾向于掙扎。
現(xiàn)在,加州大學(xué)伯克利分校的Sergey Levine及其同事表明,使用一種機(jī)器學(xué)習(xí)的機(jī)器人稱為“深鋼筋學(xué)習(xí)”可以弄清楚如何在幾個不同的環(huán)境中走到20分鐘的時間里,例如草坪,一層樹皮,一層樹皮,記憶泡沫墊和一條遠(yuǎn)足步道。
機(jī)器人使用一種稱為Q-學(xué)習(xí)的算法,該算法不需要目標(biāo)地形的工作模型。這種機(jī)器學(xué)習(xí)算法通常用于模擬。萊文說:“我們不需要了解環(huán)境的物理學(xué)實(shí)際運(yùn)作方式,我們只是將機(jī)器人放入環(huán)境中并打開環(huán)境?!?/p>
取而代之的是,機(jī)器人會對其執(zhí)行的每個動作獲得一定的獎勵,具體取決于預(yù)定義的目標(biāo)的成功。它不斷地重復(fù)此過程,同時比較其先前的成功,直到學(xué)習(xí)走路為止。
“從某種意義上說,這與人們的學(xué)習(xí)方式非常相似,”加州大學(xué)伯克利分校的團(tuán)隊(duì)成員Ilya Kostrikov說?!芭c某些環(huán)境互動,獲得一些實(shí)用性,基本上只是考慮您過去的經(jīng)驗(yàn),并嘗試了解可以改善的事情?!?/p>
盡管機(jī)器人可以學(xué)習(xí)在遇到的每個新表面上行走,但萊文說,如果機(jī)器人要學(xué)習(xí)其他技能,團(tuán)隊(duì)將需要微調(diào)模型的獎勵系統(tǒng)。
克里斯·沃特金斯(Chris Watkins)在倫敦大學(xué)皇家霍洛威(Royal Holloway)的克里斯·沃特金斯(Chris Watkins)說,由于必須同時進(jìn)行相互作用的不同變量和數(shù)據(jù),因此在現(xiàn)實(shí)世界中進(jìn)行深入的學(xué)習(xí)工作非常困難。
沃特金斯說:“我認(rèn)為這給人留下了深刻的印象。”“老實(shí)說,我有些驚訝的是,您可以使用像Q學(xué)習(xí)一樣簡單的東西來學(xué)習(xí)技能,例如在實(shí)時經(jīng)驗(yàn)很少,如此迅速的不同表面上行走。”
參考: arxiv.org/abs/2208.07860