蓋世汽車(chē)訊 在動(dòng)畫(huà)片《杰森一家》中,機(jī)器人女仆羅西可以無(wú)縫切換,從打掃房間、做飯?jiān)俚降估?。但在現(xiàn)實(shí)生活中,訓(xùn)練通才機(jī)器人仍是一項(xiàng)重大挑戰(zhàn)。通常情況下,工程師會(huì)收集特定于某個(gè)機(jī)器人和任務(wù)的數(shù)據(jù),然后利用這些數(shù)據(jù)在受控環(huán)境中訓(xùn)練機(jī)器人。然而,收集這些數(shù)據(jù)的成本高且耗時(shí),而且機(jī)器人可能很難適應(yīng)以前從未見(jiàn)過(guò)的環(huán)境或任務(wù)。
通過(guò)結(jié)合大量數(shù)據(jù),這種方法可以訓(xùn)練機(jī)器人執(zhí)行各種任務(wù),而無(wú)需每次都從頭開(kāi)始。該方法比傳統(tǒng)技術(shù)更快、成本更低,因?yàn)樾枰奶囟ㄈ蝿?wù)數(shù)據(jù)要少得多。此外,在模擬和現(xiàn)實(shí)世界實(shí)驗(yàn)中,其表現(xiàn)比從頭開(kāi)始訓(xùn)練高出20%以上。電子工程和計(jì)算機(jī)科學(xué)研究生Lirui Wang表示:“在機(jī)器人技術(shù)領(lǐng)域,人們經(jīng)常聲稱(chēng)沒(méi)有足夠的訓(xùn)練數(shù)據(jù)。但在我看來(lái),另一個(gè)大問(wèn)題是這些數(shù)據(jù)來(lái)自這么多不同的域、模式和機(jī)器人硬件。這項(xiàng)工作展示了如何將這些數(shù)據(jù)整合在一起以訓(xùn)練機(jī)器人?!?/p>
受大語(yǔ)言模型啟發(fā)
機(jī)器人“策略”通過(guò)傳感器觀察,如攝像頭圖像或本體感知測(cè)量,跟蹤機(jī)器人手臂的速度和位置,然后告訴機(jī)器人如何移動(dòng)以及移動(dòng)到何處。通常情況下,人們通過(guò)模仿學(xué)習(xí)來(lái)訓(xùn)練策略,這意味著需要人類(lèi)演示動(dòng)作或遠(yuǎn)程操作機(jī)器人以生成數(shù)據(jù),這些數(shù)據(jù)被反饋到學(xué)習(xí)策略的AI模型中。由于這種方法使用少量特定于任務(wù)的數(shù)據(jù),因此機(jī)器人在環(huán)境或任務(wù)發(fā)生變化時(shí)經(jīng)常會(huì)失敗。
為了開(kāi)發(fā)更好的方法,研究人員從GPT-4等大語(yǔ)言模型中汲取靈感。這些模型使用大量不同的語(yǔ)言數(shù)據(jù)來(lái)進(jìn)行預(yù)訓(xùn)練,接著輸入少量特定任務(wù)數(shù)據(jù)進(jìn)行微調(diào)?;谌绱硕鄶?shù)據(jù)進(jìn)行預(yù)訓(xùn)練,有助于模型適應(yīng)并良好執(zhí)行各種任務(wù)。Wang表示:“在語(yǔ)言使用域,數(shù)據(jù)全部都是句子。在機(jī)器人技術(shù)中,考慮到數(shù)據(jù)中的所有異質(zhì)性,如果想要以類(lèi)似的方式進(jìn)行預(yù)訓(xùn)練,我們需要一種不同的架構(gòu)?!?/p>
機(jī)器人數(shù)據(jù)接受多種形式,如攝像頭圖像、語(yǔ)言指令和深度圖。同時(shí),每個(gè)機(jī)器人都具有獨(dú)特的機(jī)械性,它們的手臂、夾持器和傳感器的數(shù)量和方向都不同。此外,收集數(shù)據(jù)的環(huán)境差異很大。MIT團(tuán)隊(duì)開(kāi)發(fā)了一種名為異構(gòu)預(yù)訓(xùn)練轉(zhuǎn)換器的新架構(gòu),可以統(tǒng)一來(lái)自不同模式和域的數(shù)據(jù)。研究人員將一個(gè)機(jī)器學(xué)習(xí)模型(稱(chēng)為轉(zhuǎn)換器)置于架構(gòu)中心,以處理視覺(jué)和本體感覺(jué)輸入。轉(zhuǎn)換器與構(gòu)成大語(yǔ)言模型主干的模型屬于同一類(lèi)型。
研究人員將視覺(jué)和本體感覺(jué)數(shù)據(jù)對(duì)齊為同類(lèi)型輸入,以供轉(zhuǎn)換器處理。每個(gè)輸入都使用相同固定數(shù)量的通證(token)表示。然后,轉(zhuǎn)換器將所有輸入映射到共享空間,通過(guò)處理和學(xué)習(xí)更多的數(shù)據(jù)成長(zhǎng)為巨大的預(yù)訓(xùn)練模型。轉(zhuǎn)換器越大,其性能就越好。用戶只需向HPT提供關(guān)于機(jī)器人的設(shè)計(jì)、設(shè)置和他們希望其執(zhí)行任務(wù)的少量數(shù)據(jù)。然后,HPT會(huì)將轉(zhuǎn)換器在預(yù)訓(xùn)練中獲得的知識(shí)轉(zhuǎn)移到學(xué)習(xí)新任務(wù)中。
實(shí)現(xiàn)靈巧的動(dòng)作
開(kāi)發(fā)HPT的最大挑戰(zhàn)之一是創(chuàng)建大規(guī)模數(shù)據(jù)集來(lái)預(yù)訓(xùn)練轉(zhuǎn)換器,其中包括四類(lèi)52個(gè)數(shù)據(jù)集,包括人類(lèi)演示視頻和模擬。研究人員還需要開(kāi)發(fā)一種有效方法,將來(lái)自傳感器陣列的原始本體感覺(jué)信號(hào)轉(zhuǎn)化為轉(zhuǎn)換器可以處理的數(shù)據(jù)。Wang表示:“本體感覺(jué)是實(shí)現(xiàn)許多靈巧動(dòng)作的關(guān)鍵。我們架構(gòu)中的通證數(shù)量總是相同的,所以我們同樣重視本體感覺(jué)和視覺(jué)?!?/p>
當(dāng)測(cè)試HPT時(shí),與每次從頭開(kāi)始訓(xùn)練相比,它在模擬和現(xiàn)實(shí)世界任務(wù)中的表現(xiàn)提高20%以上。即使任務(wù)與預(yù)訓(xùn)練數(shù)據(jù)非常不同,HPT仍然可以提高性能??▋?nèi)基梅隆大學(xué)機(jī)器人研究所副教授David Held(未參與這項(xiàng)工作)表示:“本文提供了一種新穎的方法,以訓(xùn)練跨多個(gè)機(jī)器人實(shí)施例的單一策略。這可以跨多種數(shù)據(jù)集進(jìn)行訓(xùn)練,使機(jī)器人能夠?qū)W習(xí)方法,從而明顯擴(kuò)大它們可以進(jìn)行訓(xùn)練的數(shù)據(jù)集規(guī)模。它還允許模型快速適應(yīng)新的機(jī)器人實(shí)施例,隨著新的機(jī)器人設(shè)計(jì)不斷涌現(xiàn),這具有重要意義?!?/p>
未來(lái),研究人員希望探討如何通過(guò)數(shù)據(jù)多樣性來(lái)提高HPT的性能。他們還希望增強(qiáng)HPT,使其能夠處理未標(biāo)記數(shù)據(jù),如同GPT-4和其他大語(yǔ)言模型。David Held表示:“我們的夢(mèng)想是擁有一個(gè)通用機(jī)器人大腦,人們可以下載并將其用于自己的機(jī)器人,而無(wú)需進(jìn)行任何訓(xùn)練。雖然這還處于早期階段,但我們將繼續(xù)努力,并希望通過(guò)擴(kuò)展實(shí)現(xiàn)機(jī)器人策略突破,就像大語(yǔ)言模型一樣?!?/p>
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。