極客網(wǎng)·極客觀察8月29日 過去幾年里,AI聊天機(jī)器人飛速進(jìn)化,現(xiàn)在很多人將它當(dāng)成個人助手、客服代表和治療專家。驅(qū)動聊天機(jī)器人運行的是大語言模型(LLM),它以機(jī)器學(xué)習(xí)算法作為基礎(chǔ),算法根據(jù)互聯(lián)網(wǎng)海量數(shù)據(jù)而訓(xùn)練。
一些科技人士預(yù)測,只要短短幾年,利用機(jī)器學(xué)習(xí)算法就能孵化各種機(jī)器人,比如外科手術(shù)機(jī)器人、替代工廠工人的機(jī)器人、家庭管家機(jī)器人等。但加州大學(xué)伯克利分校機(jī)器人專家肯·戈德伯格(Ken Goldberg)并不認(rèn)同這種說法。
8月27日,戈德伯格在《Science Robotics》雜志發(fā)表兩篇論文,指出想讓人形機(jī)器人獲得可以在真實世界應(yīng)用的技能,速度會極慢——與AI聊天機(jī)器人獲得技能的速度相差極遠(yuǎn),核心原因在于可供人形機(jī)器人訓(xùn)練的數(shù)據(jù)太少了,與AI聊天機(jī)器人之間差了10萬年。
在第二篇論文中,來自麻省理工學(xué)院、佐治亞理工學(xué)院和蘇黎世聯(lián)邦理工學(xué)院的機(jī)器人專家討論了機(jī)器人的未來發(fā)展方向,他們展開激烈爭論。爭論的焦點在于:到底是采集更多數(shù)據(jù)來訓(xùn)練人形機(jī)器人,還是依靠傳統(tǒng)工程方法給機(jī)器人編程,讓它完成現(xiàn)實任務(wù)?
以下是加州大學(xué)新聞網(wǎng)站與戈德伯格的對話:
問:最近,馬斯克等科技領(lǐng)袖談到了人形機(jī)器人的未來,比如,他認(rèn)為在未來五年內(nèi)機(jī)器人將會超越人類外科醫(yī)生。你認(rèn)同這種預(yù)測嗎?
戈德伯格:機(jī)器人技術(shù)的確在快速進(jìn)化,但遠(yuǎn)未達(dá)到馬斯克所說的程度。現(xiàn)在的熱潮存在炒作,宣傳的內(nèi)容超出了機(jī)器人的實際能力。
在視覺和語言領(lǐng)域,ChatGPT展示了驚人成就,但大多研究者對公眾認(rèn)知感到擔(dān)憂——公眾認(rèn)為問題既然已經(jīng)解決,明年就能實現(xiàn)突破,實際上太樂觀了。
我并不是說馬斯克描繪的未來永遠(yuǎn)不會實現(xiàn),只是說未來兩年、五年或者十年不會發(fā)生。
問:未來如果想讓人形機(jī)器人做手術(shù),或者擔(dān)任私人管家,存在哪些限制?會在哪些方面遇到困難?
戈德伯格:最重要的難點在于靈活性,比如讓人形機(jī)器人拿起物體。想拿起一只杯子或者更換燈泡是一件很難的事,現(xiàn)在還沒有機(jī)器人能做到。
這里有一個悖論,我們管它叫Moravec悖論,也就是說一件事人類可以毫不費力做到,所以我理所當(dāng)然認(rèn)為機(jī)器人應(yīng)該也能做到。
如果讓人工智能玩國際象棋和圍棋,表現(xiàn)比人還好,我們就會問:“為什么機(jī)器人不能拿起一個杯子呢?”看起來拿杯子比下棋容易得多。
然而事實并非如此,想拿起杯子,需要對杯子在空間中的位置有清晰感知,需要將手指移動到準(zhǔn)確位置,然后以適當(dāng)?shù)姆绞侥笞?,難度相當(dāng)大。
問:在論文中,你說數(shù)據(jù)之間存在10萬年的差距。所謂的數(shù)據(jù)差距是什么,AI聊天機(jī)器人與人形機(jī)器人在實際操作能力上差距又是如何造成的?
戈德伯格:為了計算數(shù)據(jù)缺口,我查看了互聯(lián)網(wǎng)上的文本數(shù)據(jù)量,計算一個人需要多長時間才能閱讀完。答案是10萬年,要十萬年才能讀完。我們用這么多的數(shù)據(jù)訓(xùn)練LLM。
我們用10萬年的數(shù)據(jù)訓(xùn)練文本模型,但想訓(xùn)練機(jī)器人,10萬年數(shù)據(jù)微不足道??梢源_定的是,訓(xùn)練機(jī)器人更復(fù)雜,我們需要更多數(shù)據(jù)。
有人認(rèn)為,可以觀察人類相關(guān)視頻,從中獲取數(shù)據(jù)。但如果只是看視頻圖像,根本無法知道動作細(xì)節(jié)是怎樣的,從2D轉(zhuǎn)化為3D也是極具挑戰(zhàn)的事。所以這一難題無法解決。
還有一個辦法是讓機(jī)器人運動,獲得模擬數(shù)據(jù)。如果機(jī)器人只是奔跑或者表演雜技,用這種方法還不錯。你可以讓機(jī)器人在模擬環(huán)境中進(jìn)行后空翻操作,收集大量數(shù)據(jù),在特定情況下,這些數(shù)據(jù)能應(yīng)用于機(jī)器人。但就靈活性而言,仍然遠(yuǎn)遠(yuǎn)不夠。
現(xiàn)在有了些工作可以遠(yuǎn)程操作,像操縱木偶一樣操縱機(jī)器人,完成各種任務(wù)。中國和美國的倉庫里已經(jīng)有類似的工作,但對于人類來說,這樣的工作十分枯燥。每工作8小時,就能獲得8小時數(shù)據(jù),但要獲得10萬年的數(shù)據(jù)量,太過漫長。
問:如果不收集數(shù)據(jù),能不能推動人形機(jī)器人發(fā)展?
戈德伯格:目前的機(jī)器人技術(shù)處在范式轉(zhuǎn)變階段,有點像物理學(xué)發(fā)展到量子力學(xué)一樣。行業(yè)分成兩派,展開激烈爭論。機(jī)器人技術(shù)正處在爭論之中。
一派認(rèn)為,人形機(jī)器人的發(fā)展依賴于優(yōu)秀工程學(xué)技術(shù),比如物理學(xué)、數(shù)學(xué)、環(huán)境建模。另一派認(rèn)為,機(jī)器人根本不需要使用傳統(tǒng)工具和方法,只要有數(shù)據(jù),就能讓人形機(jī)器人走向完美。
第二派鼓舞人心,背后有大量資金支持,但到了研究時,大家爭論不休,在傳統(tǒng)方法和新方法之間有許多爭吵。
問:你認(rèn)為未來的方向是什么?
戈德伯格:我認(rèn)為工程、數(shù)學(xué)、科學(xué)仍然極為重要,因為有了這些,機(jī)器人才能運行,然后我們就可以收集數(shù)據(jù)。
當(dāng)機(jī)器人執(zhí)行任務(wù)時,如果表現(xiàn)達(dá)到消費者可接受水平,就能將機(jī)器人投入市場,接下來在實際運行中持續(xù)收集數(shù)據(jù)。
谷歌Waymo無人駕駛汽車采用上述模式,Ambi包裹分揀機(jī)器人也一樣,它在倉庫真實環(huán)境中運行,持續(xù)收集數(shù)據(jù),不斷迭代升級。(小刀)
- 2025數(shù)博會·DATA之夜:聚焦具身智能,共探數(shù)據(jù)智能新未來
- “2025數(shù)博會·DATA之夜”在貴陽舉行 數(shù)據(jù)筑基,匯聚具身智能向新“源動力”
- 人形機(jī)器人進(jìn)步為啥“慢吞吞”?原來差了10萬年數(shù)據(jù)“營養(yǎng)餐”
- 人形機(jī)器人為何進(jìn)展緩慢?伯克利專家:因為數(shù)據(jù)量差了10萬年
- 人形機(jī)器人銷量破萬,是風(fēng)口還是泡沫?
- 商湯科技發(fā)布元蘿卜下棋機(jī)器人瘋狂動物城朱迪系列,培養(yǎng)孩子“聰明、堅韌、樂觀”三重成長力
- 智元宇樹搶用英偉達(dá)Jetson Thor,機(jī)器人芯片國產(chǎn)化進(jìn)程亟待提速
- 天太機(jī)器人斬獲萬臺訂單,人形機(jī)器人市場泡沫隱現(xiàn)?
- 45萬一臺!智元機(jī)器人G1開售,真智能還是智商稅?
- 臨時抱佛腳奪冠?宇樹機(jī)器人倉促參賽引質(zhì)疑
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。