王興興:機器人最大的問題還是AI模型?大模型怎么不夠用了?
這些年,伴隨著人工智能(neng)和機(ji)器(qi)人的(de)高速發展,AI驅動已經成(cheng)為了大(da)多(duo)數(shu)人的(de)共(gong)識,然而就(jiu)最近知名機(ji)器(qi)人公司宇樹科技的(de)創始人王興興卻表示當前機(ji)器(qi)人最大(da)的(de)問(wen)題還是AI模(mo)型,這究(jiu)竟是怎(zen)么回事?為啥(sha)如此蓬(peng)勃發展的(de)大(da)模(mo)型不夠用了?
一、王興興:機器人最大的問題還是AI模(mo)型?
據澎湃新聞的報道,在(zai)2025外灘(tan)大(da)(da)會(hui)圓桌討論環(huan)節,宇樹科(ke)技創始人兼首席執行(xing)官王興(xing)興(xing)表(biao)示,在(zai)機器人領(ling)域,硬件和大(da)(da)腦不(bu)是同一層面的事(shi),現(xian)階(jie)段,機器人硬件完全足夠用(yong),“用(yong)一兩年都可(ke)以(yi)”,最大(da)(da)的問題還(huan)是AI大(da)(da)模(mo)(mo)型(xing)本身能力(li)不(bu)夠用(yong),在(zai)多模(mo)(mo)態融合方面表(biao)現(xian)還(huan)不(bu)夠理想。
王(wang)興興表示,目(mu)前純語(yu)言模(mo)(mo)型或純視頻模(mo)(mo)型的(de)效(xiao)果(guo)已經非常好(hao),但如果(guo)要把(ba)語(yu)言和(he)圖像(xiang)很(hen)好(hao)地結合起來,仍是一(yi)個(ge)較大(da)的(de)難點。在機器人領域,現階段(duan)沒(mei)有(you)很(hen)好(hao)的(de)辦法把(ba)硬(ying)件(jian)用(yong)起來。比如如何用(yong)模(mo)(mo)型控制機器人靈巧手等,目(mu)前還存在一(yi)定挑戰(zhan)。他表示,雖(sui)然AI在信息處理、文字(zi)圖像(xiang)等領域,AI應用(yong)的(de)表現已經非常好(hao),但讓AI干活的(de)領域還是荒漠,只是長了幾(ji)棵小(xiao)草,爆(bao)發性增(zeng)長的(de)前夜(ye)還未(wei)到來。
“現在是(shi)對(dui)年(nian)輕人非(fei)常友好的時代(dai),AI時代(dai)是(shi)一個(ge)非(fei)常公平的時代(dai)”,王(wang)興興認(ren)為,年(nian)輕人可以用AI模(mo)型自己學編程等。他鼓勵大家可以對(dui)AI模(mo)型的認(ren)知更(geng)激進(jin)一些,可以不僅僅把AI僅僅當作(zuo)一個(ge)工具(ju),還可以把它當作(zuo)一個(ge)全能型的工具(ju),去重新學習和接受它,把它用得(de)更(geng)好。
不過(guo)和(he)王興興有(you)類似看法(fa)的人其實并不少,網上曾經流傳著一個(ge)段子(zi)“我(wo)想AI應該(gai)是幫(bang)我(wo)做洗(xi)衣和(he)洗(xi)碗(wan)的活兒,好(hao)讓我(wo)去(qu)玩藝術、搞(gao)創(chuang)作;而不是AI去(qu)玩藝術搞(gao)創(chuang)作讓我(wo)來做洗(xi)衣洗(xi)碗(wan)的活兒”。
二、大(da)模(mo)型是怎么不夠用的?
隨著人(ren)(ren)工智(zhi)能技術的(de)(de)迅猛發展,機器人(ren)(ren)已經成(cheng)為現(xian)代科(ke)技的(de)(de)重要組成(cheng)部分。然而,盡管大模型的(de)(de)發展速度飛快,但其(qi)在實際應用中的(de)(de)表(biao)現(xian)卻仍(reng)不盡如人(ren)(ren)意,尤其(qi)是(shi)在機器人(ren)(ren)賽道(dao),這就是(shi)王興興表(biao)態的(de)(de)根源(yuan),我們該(gai)怎么看這件事呢?
首先,大(da)(da)模(mo)(mo)型雖(sui)發(fa)展(zhan)(zhan)迅猛(meng),但大(da)(da)多仍處(chu)于(yu)發(fa)展(zhan)(zhan)的(de)初級(ji)階(jie)段。近年來,大(da)(da)模(mo)(mo)型領域可(ke)(ke)謂是風起云涌,眾多科技巨頭和(he)科研(yan)團(tuan)隊紛(fen)紛(fen)投入大(da)(da)量資(zi)源進(jin)行(xing)研(yan)發(fa)。從早期的(de)簡單模(mo)(mo)型到如今參數規模(mo)(mo)龐大(da)(da)、功(gong)能日益復雜(za)的(de)大(da)(da)模(mo)(mo)型,其發(fa)展(zhan)(zhan)速度可(ke)(ke)謂令(ling)人嘆為觀(guan)止。然(ran)而,我們必須(xu)清醒地(di)認識到,目前大(da)(da)部分(fen)大(da)(da)模(mo)(mo)型依然(ran)停留在邏(luo)輯推理(li)的(de)層面。它(ta)們能夠(gou)根據輸入的(de)信(xin)息進(jin)行(xing)一定程度的(de)邏(luo)輯分(fen)析(xi)和(he)推理(li),輸出看似合理(li)的(de)結果。但這(zhe)種邏(luo)輯推理(li)更(geng)多是基于(yu)已有的(de)數據和(he)預設的(de)規則,缺乏真(zhen)正(zheng)的(de)理(li)解和(he)創新(xin)能力。
以(yi)自(zi)然語言(yan)處(chu)理(li)領域的(de)(de)(de)大模(mo)型為例,它們可(ke)以(yi)生(sheng)成流(liu)暢的(de)(de)(de)文本(ben),回(hui)答(da)各種問題,但在處(chu)理(li)一(yi)些具有(you)深度和復雜(za)性的(de)(de)(de)語義理(li)解(jie)時,往往會出現(xian)偏差。比如,對于一(yi)些隱晦的(de)(de)(de)隱喻、雙關(guan)語或(huo)者文化背景相關(guan)的(de)(de)(de)表達,大模(mo)型可(ke)能無(wu)法準確(que)把握(wo)其真正(zheng)含義。可(ke)以(yi)說,大模(mo)型在理(li)解(jie)人類(lei)語言(yan)的(de)(de)(de)豐富內涵和微妙之處(chu)方面還(huan)有(you)很長的(de)(de)(de)路要走。而且,大模(mo)型目前的(de)(de)(de)發展(zhan)仍(reng)然處(chu)于初期階段,需(xu)(xu)要不(bu)斷(duan)地(di)進行訓練和優化。每一(yi)次的(de)(de)(de)訓練都(dou)需(xu)(xu)要海量(liang)的(de)(de)(de)數據和強大的(de)(de)(de)計算資源支持,這不(bu)僅(jin)成本(ben)高昂(ang),而且訓練過程也存在諸多不(bu)確(que)定性。因此(ci),從整(zheng)體(ti)發展(zhan)水平來看,大模(mo)型距離真正(zheng)成熟還(huan)有(you)很大的(de)(de)(de)差距。
其次(ci),機(ji)(ji)器(qi)(qi)人(ren)硬件雖(sui)然已經滿足需(xu)要,但大模型思(si)維方式(shi)與人(ren)類(lei)差(cha)異巨(ju)大。在機(ji)(ji)器(qi)(qi)人(ren)硬件方面,近年來取得了顯(xian)著的(de)(de)進(jin)步。各(ge)種先(xian)進(jin)的(de)(de)傳感器(qi)(qi)、執行器(qi)(qi)和機(ji)(ji)械結構使得機(ji)(ji)器(qi)(qi)人(ren)在感知(zhi)環境、運動控制等方面具備了強大的(de)(de)能力。例如,一些工(gong)業機(ji)(ji)器(qi)(qi)人(ren)可以精(jing)確地(di)完成復雜的(de)(de)裝配任(ren)務,服務機(ji)(ji)器(qi)(qi)人(ren)能夠在室內環境中自(zi)主(zhu)導航、避障。然而,硬件的(de)(de)進(jin)步并沒有完全轉化為機(ji)(ji)器(qi)(qi)人(ren)智能水平的(de)(de)提(ti)升,關鍵問題在于大模型的(de)(de)思(si)維方式(shi)與人(ren)類(lei)思(si)維存在較大差(cha)異。
人類(lei)在(zai)(zai)處理(li)問題時(shi)(shi),往(wang)(wang)往(wang)(wang)能(neng)夠憑借直覺、經(jing)驗和創造(zao)力(li)快(kuai)速(su)做出(chu)(chu)判斷和決策。一(yi)些看似簡(jian)單的(de)(de)事(shi)情,比如識(shi)別(bie)一(yi)個物(wu)體(ti)的(de)(de)用途(tu)、理(li)解(jie)一(yi)個場景的(de)(de)氛圍,對(dui)(dui)于人類(lei)來說可(ke)能(neng)是(shi)本(ben)能(neng)反應(ying)。但對(dui)(dui)于大模(mo)型來說,這些任務(wu)卻(que)需(xu)要相(xiang)當長的(de)(de)一(yi)段時(shi)(shi)間來進行訓(xun)練。以圖像識(shi)別(bie)為例,雖然大模(mo)型在(zai)(zai)識(shi)別(bie)常見(jian)物(wu)體(ti)方(fang)面(mian)已經(jing)取得了很高的(de)(de)準(zhun)確(que)率(lv),但對(dui)(dui)于一(yi)些不常見(jian)或(huo)者具(ju)有(you)特殊含義的(de)(de)圖像,大模(mo)型可(ke)能(neng)需(xu)要大量(liang)的(de)(de)標注數據進行訓(xun)練才能(neng)準(zhun)確(que)識(shi)別(bie)。而且,大模(mo)型在(zai)(zai)處理(li)問題時(shi)(shi)通常是(shi)基于統計規律和模(mo)式匹(pi)配,缺乏對(dui)(dui)事(shi)物(wu)本(ben)質的(de)(de)理(li)解(jie)。這種思維(wei)方(fang)式上的(de)(de)差(cha)異導致(zhi)大模(mo)型在(zai)(zai)面(mian)對(dui)(dui)復雜(za)多變的(de)(de)現實場景時(shi)(shi),往(wang)(wang)往(wang)(wang)表現出(chu)(chu)力(li)不從心(xin)。
第三,大(da)(da)模型(xing)(xing)當前(qian)僅能替代基礎(chu)工(gong)作,高(gao)難度(du)任(ren)務(wu)面(mian)前(qian)力不從(cong)心(xin)。從(cong)當前(qian)大(da)(da)模型(xing)(xing)的(de)實(shi)際應用來看,其能夠替代和勝任(ren)的(de)依然(ran)是大(da)(da)量(liang)基礎(chu)性、重(zhong)復(fu)性、規(gui)則明確的(de)工(gong)作任(ren)務(wu)。例(li)如,在(zai)客(ke)服領域(yu),大(da)(da)模型(xing)(xing)可以高(gao)效處理(li)標(biao)準化的(de)問答;在(zai)內(nei)容(rong)創作中,可以生成新(xin)聞(wen)稿、營銷文(wen)案(an)等格(ge)式化文(wen)本;在(zai)工(gong)業自動化中,可執行預設(she)程序的(de)裝配與檢測。然(ran)而,一旦任(ren)務(wu)復(fu)雜度(du)提(ti)升,涉及(ji)多步驟推理(li)、跨領域(yu)知(zhi)識整合或動態環境適應,大(da)(da)模型(xing)(xing)的(de)表現便迅速(su)下降。
以家庭服務機器(qi)(qi)人(ren)為例,簡單(dan)的(de)(de)“播放(fang)音(yin)樂”“開(kai)關(guan)燈(deng)”等(deng)(deng)語音(yin)指(zhi)令可以順(shun)利完成(cheng),但我們(men)要知(zhi)道我們(men)日常(chang)生活中(zhong)的(de)(de)很多場景是模糊的(de)(de),比如說:幫(bang)我找找昨(zuo)天收到(dao)的(de)(de)快(kuai)遞(di),可能(neng)放(fang)在(zai)門口的(de)(de)鞋柜或者沙發(fa)底下等(deng)(deng)地方,這(zhe)對(dui)于機器(qi)(qi)人(ren)來說就難度(du)巨(ju)大(da)(da)了,機器(qi)(qi)人(ren)不(bu)僅需要理解時間、物品、空間位置等(deng)(deng)多重信息(xi),還需具備視覺搜索(suo)、物體識別、路(lu)徑規劃和交互反饋等(deng)(deng)綜合能(neng)力(li),這(zhe)對(dui)當前(qian)(qian)的(de)(de)大(da)(da)模型而言仍是巨(ju)大(da)(da)挑(tiao)戰(zhan)。因此(ci),我們(men)仍然(ran)需要知(zhi)道,大(da)(da)模型目前(qian)(qian)仍處(chu)于“工具化”階(jie)段,而非“智能(neng)體”階(jie)段,其能(neng)力(li)邊界(jie)清晰,難以應對(dui)真(zhen)實(shi)世界(jie)中(zhong)普遍存在(zai)的(de)(de)模糊性(xing)與不(bu)確定性(xing)。
第四,具(ju)(ju)身智能(neng)離構(gou)建(jian)符合實際工(gong)作需求的(de)大腦還有很長的(de)一(yi)段路。具(ju)(ju)身智能(neng)作為人(ren)工(gong)智能(neng)的(de)一(yi)個重要分支,旨在(zai)賦予機器人(ren)身體感(gan)知和行動的(de)能(neng)力,使其能(neng)夠(gou)在(zai)真實環境中(zhong)自主完成任務。如今,越(yue)來越(yue)多的(de)工(gong)具(ju)(ju)化機器人(ren)涌入(ru)市場(chang),它們(men)可以在(zai)特定(ding)場(chang)景下完成特定(ding)的(de)操作,比如搬運貨物(wu)、清掃(sao)地面等。
但要(yao)(yao)實現真正像(xiang)人一樣工作的機器(qi)人仍然面(mian)臨(lin)巨大困(kun)難。以做家(jia)務(wu)為例,一個合格(ge)的家(jia)庭主婦(fu)不僅要(yao)(yao)知(zhi)道如何打掃房間(jian)、洗衣服做飯,還要(yao)(yao)懂得根(gen)據家(jia)庭成員的習慣和喜好來安排日常事務(wu),甚(shen)至在遇到突發情況時(shi)能夠迅速做出反應。這(zhe)對于機器(qi)人的大模型提出了極(ji)高的要(yao)(yao)求,它(ta)需要(yao)(yao)具備全面(mian)的生活(huo)常識、情感(gan)理解和社交溝通能力(li)。
目前,雖然有(you)些機器人已經學(xue)會了扭秧(yang)歌這(zhe)(zhe)樣的(de)表演(yan)性(xing)動作,但這(zhe)(zhe)距離真(zhen)正意(yi)義上的(de)家務勞動和助理角色還有(you)很長(chang)的(de)路要(yao)走。要(yao)讓(rang)機器人真(zhen)正融入人類生活,成為得力的(de)幫手(shou),就需要(yao)為其打(da)造一個高度發達且符合實(shi)際工作需要(yao)的(de)“大腦(nao)”,而(er)這(zhe)(zhe)無疑需要(yao)大量的(de)大模型(xing)訓練(lian)和實(shi)踐積累。
第五(wu),人工智(zhi)能的(de)未來(lai)到底該向何處(chu)去?對于(yu)大(da)模(mo)型(xing)(xing)的(de)發(fa)展來(lai)說,目前簡(jian)單(dan)低質量地卷參(can)(can)(can)數已經意義不大(da)。隨著模(mo)型(xing)(xing)參(can)(can)(can)數規(gui)模(mo)的(de)不斷擴大(da),雖然在一定程度上提升了模(mo)型(xing)(xing)的(de)性能,但也帶來(lai)了諸(zhu)多問題(ti)(ti),如訓練成本高(gao)昂、模(mo)型(xing)(xing)推理速度慢(man)、可解釋性差(cha)等(deng)。而且,單(dan)純追(zhui)求參(can)(can)(can)數規(gui)模(mo)的(de)擴大(da)并(bing)不能從根本上解決大(da)模(mo)型(xing)(xing)在具(ju)身(shen)智(zhi)能應用中面臨(lin)的(de)難題(ti)(ti)。
大(da)模(mo)(mo)(mo)型(xing)們進化升級最該考慮的(de)(de)(de)事情是如(ru)何能(neng)夠(gou)(gou)真正(zheng)幫助具身智能(neng)的(de)(de)(de)落地。這需要從(cong)(cong)多個方面(mian)進行(xing)努力。一方面(mian),要優化大(da)模(mo)(mo)(mo)型(xing)的(de)(de)(de)訓(xun)練方法和(he)(he)算法,提高模(mo)(mo)(mo)型(xing)的(de)(de)(de)訓(xun)練效率和(he)(he)質量,使模(mo)(mo)(mo)型(xing)能(neng)夠(gou)(gou)在(zai)更(geng)少的(de)(de)(de)數(shu)據(ju)和(he)(he)計(ji)算資源(yuan)下獲得更(geng)好的(de)(de)(de)性能(neng)。另一方面(mian),要加強大(da)模(mo)(mo)(mo)型(xing)與機(ji)器人硬(ying)件(jian)(jian)的(de)(de)(de)深度融合,實現軟硬(ying)件(jian)(jian)的(de)(de)(de)協同優化。通過將機(ji)器人的(de)(de)(de)傳感器數(shu)據(ju)實時反饋(kui)給大(da)模(mo)(mo)(mo)型(xing),使大(da)模(mo)(mo)(mo)型(xing)能(neng)夠(gou)(gou)更(geng)好地感知環境、理(li)解(jie)任務,從(cong)(cong)而做出更(geng)準(zhun)確的(de)(de)(de)決策(ce)和(he)(he)行(xing)動。
因(yin)此,王興興所(suo)提出的問題答案無疑是肯定的,而大(da)模型的“不夠用(yong)(yong)”,并非數量(liang)不足,而是智能(neng)深度與(yu)實用(yong)(yong)性尚待質的飛躍,這才是大(da)模型該做(zuo)的事情。
更(geng)多精彩(cai)內容,關注云(yun)掌(zhang)財經公眾號(ID:yzcjapp)
- 熱股榜
-
代碼/名稱 現價 漲跌幅 加載中...