對(duì)話王田苗:具身智能發(fā)展期待出現(xiàn)機(jī)器人通用基礎(chǔ)大模型
具身智能近日引發(fā)了學(xué)界和產(chǎn)業(yè)界的討論。在2024中關(guān)村論壇年會(huì)“互聯(lián)網(wǎng)3.0:未來互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展論壇”上,北航機(jī)器人研究所名譽(yù)所長(zhǎng)、中關(guān)村智友研究院院長(zhǎng)王田苗表示,具身智能時(shí)代來臨,機(jī)器人從過去以“硬核”為主,正加速向大腦與小腦“智能軟化”發(fā)展,期待通過機(jī)器人大模型研發(fā),加快提高機(jī)器人智能化水平和對(duì)不同場(chǎng)景的適應(yīng)性。
具身智能這一概念,最早是在1950年由圖靈提出的,然而真正引起廣泛重視卻是由于近年來AI大模型的發(fā)展與應(yīng)用。王田苗認(rèn)為,具身智能就是實(shí)現(xiàn)思考、感知、行動(dòng)三個(gè)空間有機(jī)智能融合的機(jī)器或系統(tǒng),既具有人機(jī)交互與自然語言理解的能力,同時(shí)又可以通過感知、認(rèn)知、決策與時(shí)變環(huán)境及對(duì)象進(jìn)行實(shí)時(shí)校準(zhǔn)互動(dòng),協(xié)助人完成相應(yīng)的決策與行動(dòng)任務(wù)。
王田苗說,最近五年發(fā)生了很多跟具身智能相關(guān)的重大科技事件。大模型實(shí)現(xiàn)了語義邏輯推理,使機(jī)器人執(zhí)行復(fù)雜任務(wù)成為可能;人形機(jī)器人的結(jié)構(gòu)、電機(jī)驅(qū)動(dòng)、視覺感知有了重大的突破,使其有望在制造業(yè)、商業(yè)、危險(xiǎn)作業(yè)、家庭養(yǎng)老等領(lǐng)域發(fā)揮作用;同時(shí),腦機(jī)接口技術(shù)通過對(duì)腦電信號(hào)進(jìn)行編解碼,有望助力殘疾人實(shí)現(xiàn)對(duì)外部設(shè)備的控制。
“這三件事都已經(jīng)走到了具身智能的門口,正在敲擊著具身智能的大門。”他說,在未來智能時(shí)代的十年間,三大革命性的智能終端將分別是AR/VR頭顯、無人駕駛汽車及通用機(jī)器人。
他認(rèn)為,大模型不應(yīng)該只停留在對(duì)話上,應(yīng)該通過機(jī)器人或者具身智能與物理世界結(jié)合起來。如果機(jī)器人能夠從語義和邏輯上深度理解搬運(yùn)、傳動(dòng)帶以及它們所運(yùn)載的物品,就意味著機(jī)器人可能通過任務(wù)啟發(fā),自動(dòng)編程并執(zhí)行。
在接受記者采訪時(shí),王田苗表示,在基礎(chǔ)研究方面,具身智能發(fā)展期待出現(xiàn)機(jī)器人通用基礎(chǔ)大模型。
:2024年3月17日,OpenAI與人形機(jī)器人初創(chuàng)公司Figure合作推出了Figure01機(jī)器人,其展示的理解、判斷、行動(dòng)和自我評(píng)估能力引發(fā)關(guān)注。目前,全球和我國(guó)具身智能研發(fā)處于什么階段?
王田苗:我個(gè)人覺得正處于一個(gè)夯實(shí)基礎(chǔ)和即將迎來落地爆發(fā)的時(shí)代,很多問題都在探索與突破之中。比如語言文本性模型中,隨著參數(shù)的持續(xù)增加,其語義邏輯推理能力也將相應(yīng)提高。但目前還沒有出現(xiàn)這樣的機(jī)器人通用基礎(chǔ)大模型。另外,感知、決策、行動(dòng)需要通過智能實(shí)體來實(shí)現(xiàn),這也是目前全球正研究的問題。在應(yīng)用場(chǎng)景上,具身智能將可能在物流分揀、醫(yī)療、農(nóng)業(yè)、工業(yè)、養(yǎng)老等領(lǐng)域?qū)崿F(xiàn)漸進(jìn)式落地。
人們期待著利用大模型、腦機(jī)接口、通用機(jī)器人等加快具身智能在工業(yè)生產(chǎn)、危險(xiǎn)作業(yè)和家庭中的應(yīng)用。目前來看,我國(guó)的優(yōu)勢(shì)有望在這三方面特別突出。一方面,我國(guó)生產(chǎn)機(jī)器人核心部件的性能、質(zhì)量和供應(yīng)鏈規(guī)模在全球占有優(yōu)勢(shì)。另外,具身智能的訓(xùn)練需要大量的數(shù)據(jù),我國(guó)有豐富且規(guī)模龐大的場(chǎng)景,有利于獲得更優(yōu)質(zhì)、海量、豐富的數(shù)據(jù)。
具身智能有大模型和小模型,在小模型的控制、平衡和算法上,我國(guó)和國(guó)外處于同一水平。但我們?cè)谟行┑胤揭泊嬖谝恍┎罹啵热鐝?到1的原創(chuàng)性仍有待提升,另外我們的大模型數(shù)據(jù)質(zhì)量尚未達(dá)到理想水平。
:要實(shí)現(xiàn)成熟的應(yīng)用,AI和機(jī)器人方面,分別還有哪些關(guān)鍵技術(shù)需要突破?
王田苗:一是要在基礎(chǔ)研究方面,借助語言文本大模型探索和研究機(jī)器人的通用基礎(chǔ)大模型,如果這個(gè)問題解決了,實(shí)際上就解決了機(jī)器人的大腦問題。
“一腦多機(jī)”是指一個(gè)有豐富知識(shí)的模型能夠在若干個(gè)機(jī)器人身上應(yīng)用,這不僅減少了工程師的工作量,而且提高了任務(wù)完成效率。還有一個(gè)詞語叫“一腦多形”,即在不同環(huán)境下,一個(gè)特定的任務(wù)可以靈活地由不同類型的機(jī)器人執(zhí)行,比如機(jī)械臂、輪式、足式、人形機(jī)器人都可以執(zhí)行。未來隨著一系列基礎(chǔ)問題突破后,具身智能將有望在商務(wù)、工業(yè)和家庭的場(chǎng)景中得到廣泛應(yīng)用。
同時(shí),具身智能的涵蓋范圍廣泛,其中上游的核心部件尤為關(guān)鍵,高密度、高扭矩、高爆發(fā)力、高動(dòng)態(tài)性的核心部件,如新材料、人造皮膚、人工肌肉等。
另外,具身智能的發(fā)展一定要和場(chǎng)景任務(wù)來結(jié)合。一個(gè)通用的具身智能體比如人形機(jī)器人,它的成熟還非常漫長(zhǎng)。所以首先要把任務(wù)場(chǎng)景確定下來,再結(jié)合小腦或者與特定大模型結(jié)合起來,解決勞動(dòng)能力問題。最后,具身智能還涉及安全、電源電池、數(shù)據(jù)訓(xùn)練等。
:具身智能的發(fā)展未來是否會(huì)加速“機(jī)器人取代人類”?
王田苗:從我個(gè)人感覺可能會(huì)替代部分任務(wù),但不會(huì)完全替代人類。首先會(huì)替代比較繁瑣、重復(fù)、單調(diào)、危險(xiǎn)的任務(wù)。因?yàn)閺纳鐣?huì)發(fā)展角度來理解,人是需要有工作的,所以具身智能應(yīng)該作為人類的工具,去替代人類做不愿意干的工作,提高生產(chǎn)效率。
:未來的應(yīng)用前景如何?市場(chǎng)規(guī)模有多大?
王田苗:全球范圍都掀起了具身智能特別是人形機(jī)器人關(guān)鍵技術(shù)研發(fā)的浪潮,我國(guó)也正在加速形成有競(jìng)爭(zhēng)優(yōu)勢(shì)的供應(yīng)鏈,未來隨著其成本下降50%,國(guó)外人形機(jī)器人有望從25萬美元/臺(tái)下降到15萬美元/臺(tái),中國(guó)人形機(jī)器人有望率先降到30萬人民幣/臺(tái)。
2035年,全球人形機(jī)器人出貨量有望達(dá)到70萬-300萬臺(tái)套,并在救災(zāi)搶險(xiǎn)、特殊傳染病處置、汽車制造等場(chǎng)景下發(fā)揮重要作用。