你隨便打開(kāi)手機(jī)上的大模型,問(wèn)它一個(gè)問(wèn)題:“把一只玻璃杯推到桌子邊緣,會(huì)發(fā)生什么?”
它會(huì)毫不猶豫地告訴你:杯子會(huì)掉下去,然后摔碎。
(資料圖片僅供參考)
聽(tīng)起來(lái)很聰明。但真相是,它根本不知道杯子為什么往下掉。它只是在訓(xùn)練數(shù)據(jù)里見(jiàn)過(guò)太多次“杯子”“掉落”“破碎”這幾個(gè)詞扎堆出現(xiàn),然后根據(jù)概率統(tǒng)計(jì),給出了最像正確答案的那句話。
文本世界里,這種“聰明的猜測(cè)”游刃有余。可一旦我們?cè)噲D把AI塞進(jìn)一臺(tái)需要端盤子、疊衣服、走樓梯的機(jī)器人,麻煩就來(lái)了。
過(guò)去幾年,CNN和Transformer稱得上是人工智能領(lǐng)域最耀眼的兩個(gè)名字。一個(gè)統(tǒng)治了計(jì)算機(jī)視覺(jué),一個(gè)把語(yǔ)言模型推到了前所未有的高度。但當(dāng)聚光燈從屏幕轉(zhuǎn)向現(xiàn)實(shí)世界,當(dāng)AI必須離開(kāi)數(shù)字沙盤、踏入物理環(huán)境與人真實(shí)交互時(shí),一個(gè)越來(lái)越尖銳的問(wèn)題浮出水面:這兩種我們無(wú)比依賴的架構(gòu),是不是從根本上就不適合干物理AI這檔子事?
只會(huì)認(rèn)皮相的眼睛
先說(shuō)CNN。
這套機(jī)制的設(shè)計(jì)初衷是模擬人的視覺(jué)系統(tǒng),用一堆可學(xué)習(xí)的濾波器去掃描圖像,提取邊緣、紋理、形狀,然后層層抽象直到完成識(shí)別。在ImageNet上它打敗了人類,在很多視覺(jué)任務(wù)上幾乎成了默認(rèn)方案。
但問(wèn)題恰恰出在它的設(shè)計(jì)哲學(xué)上——CNN本質(zhì)上是在學(xué)習(xí)“像素與標(biāo)簽之間的統(tǒng)計(jì)關(guān)聯(lián)”,而不是在理解“物體由什么構(gòu)成”。
來(lái)看一個(gè)簡(jiǎn)單的例子。一個(gè)小孩看到一輛被幾棵盆栽擋住一半的汽車,即便從沒(méi)見(jiàn)過(guò)這種遮擋方式,也能毫不費(fèi)力判斷那是一輛車。因?yàn)樗哪X子有一個(gè)“車由輪子、車身、車窗組成”的認(rèn)知框架,某個(gè)部件被擋住,他用其他線索照樣補(bǔ)全。可標(biāo)準(zhǔn)的CNN沒(méi)這個(gè)本事。它的判斷基于整體像素模式,一旦遮擋方式稍微變化——比如擋的不是車身而是車燈——那些精心訓(xùn)練的卷積核就亂了陣腳。
研究表明,傳統(tǒng)黑箱式深度CNN在處理部分遮擋時(shí)表現(xiàn)極不穩(wěn)定,直到研究者引入“物體部件組合”的結(jié)構(gòu)化方法,才顯著提升了對(duì)遮擋物體的識(shí)別魯棒性。換句話說(shuō),你得額外給它加料,它才勉強(qiáng)學(xué)會(huì)了人類天生就懂的事情。
把這個(gè)問(wèn)題放到物理AI的場(chǎng)景里,更要命。機(jī)器人走在路上,眼前隨時(shí)出現(xiàn)堆疊的箱子、交錯(cuò)的管道、半開(kāi)的門——全是動(dòng)態(tài)的、部分遮擋的真實(shí)場(chǎng)景。如果它只能依賴CNN輸出的像素特征做決策,而缺乏對(duì)物體構(gòu)成的內(nèi)在理解,稍微轉(zhuǎn)個(gè)身、光線變一下,原本“認(rèn)識(shí)”的東西就認(rèn)不出來(lái)了。
還有更頭疼的:CNN對(duì)紋理有一種近乎偏執(zhí)的依賴。它更傾向于根據(jù)表面紋理分類,而不是根據(jù)物體形狀。就像一個(gè)人判斷貓不看耳朵、瞳孔和胡須,只看毛色——毛色像貓的動(dòng)物全算貓,換個(gè)毛色就翻臉不認(rèn)。這種偏執(zhí),在變幻莫測(cè)的物理世界里,是致命的。
只背答案的考生
如果說(shuō)CNN的盲區(qū)在于“看見(jiàn)了卻不懂”,那Transformer的問(wèn)題更深刻——它壓根不是為了理解因果而設(shè)計(jì)的。
Transformer的核心武器是自注意力機(jī)制,能一次性捕捉序列中任意兩個(gè)位置之間的依賴關(guān)系。這在語(yǔ)言模型里簡(jiǎn)直是神器——一個(gè)詞能和幾千字外的另一個(gè)詞建立關(guān)聯(lián),對(duì)理解語(yǔ)義、生成連貫文本至關(guān)重要。但請(qǐng)注意,“注意力”算出來(lái)的只是統(tǒng)計(jì)相關(guān)性。訓(xùn)練數(shù)據(jù)里,“打雷”和“下雨”常常一起出現(xiàn),所以它們之間的注意力權(quán)重很高。但模型并不知道,是打雷導(dǎo)致了下雨,還是兩者背后另有原因。
說(shuō)穿了,Transformer是個(gè)頂級(jí)的“開(kāi)普勒”——能描述現(xiàn)象、總結(jié)規(guī)律,卻永遠(yuǎn)成不了“牛頓”。它背下了答案,卻沒(méi)學(xué)懂公式。
物理AI不需要這種死記硬背的好學(xué)生。一臺(tái)在工廠里搬運(yùn)零件的機(jī)器人,必須理解力學(xué)的基本規(guī)則:推一個(gè)箱子,箱子的移動(dòng)速度和方向取決于推力大小、摩擦系數(shù)、箱子質(zhì)量。如果模型沒(méi)有內(nèi)化這些物理因果,只是根據(jù)視覺(jué)輸入與動(dòng)作輸出的統(tǒng)計(jì)關(guān)聯(lián)做決策,那一旦地板從干燥變濕滑,或者零件材質(zhì)從金屬換成塑料——整套策略就全盤崩塌。
有研究者一針見(jiàn)血地指出,當(dāng)前的具身大模型本質(zhì)上是“記憶軌跡”而非“理解邏輯”。圖靈獎(jiǎng)得主姚期智也直言:如今具身智能最大的技術(shù)瓶頸之一,就是它們只會(huì)不斷模仿人的行為,卻缺乏可解釋的世界模型和物理因果推理過(guò)程。從“模仿”走向“推理”,這道門檻,Transformer的底層邏輯——預(yù)測(cè)下一個(gè)token——根本跨不過(guò)去。
數(shù)據(jù)的荒漠,能耗的黑洞
就算暫時(shí)把架構(gòu)層面的根本局限放在一邊,光看工程現(xiàn)實(shí),CNN和Transformer在物理AI上也已經(jīng)步履蹣跚了。
數(shù)據(jù)就是第一個(gè)繞不過(guò)去的坎。大語(yǔ)言模型之所以能成,是因?yàn)榛ヂ?lián)網(wǎng)本身就是一座取之不盡的數(shù)據(jù)礦山——維基百科、新聞、論壇、論文、代碼庫(kù),全是現(xiàn)成的、經(jīng)過(guò)標(biāo)注的文本數(shù)據(jù)。但物理AI呢?機(jī)器人需要的數(shù)據(jù)來(lái)自真實(shí)世界中的每一次交互:每一次抓取、每一步行走、每一下推拉。每一幀數(shù)據(jù)背后都是真實(shí)的物理動(dòng)作和對(duì)應(yīng)的多模態(tài)傳感反饋。
這樣的數(shù)據(jù)極難大規(guī)模采集。一臺(tái)遙操作采集設(shè)備,單條高質(zhì)量數(shù)據(jù)的成本折合高達(dá)3到5元,而全行業(yè)匯聚的高質(zhì)量具身數(shù)據(jù)僅約50萬(wàn)小時(shí),不足大語(yǔ)言模型訓(xùn)練數(shù)據(jù)的數(shù)萬(wàn)分之一。一個(gè)具備通用泛化能力的具身模型,至少需要千萬(wàn)小時(shí)級(jí)別的數(shù)據(jù)支撐。缺口擺在這里,誰(shuí)都看得到問(wèn)題的嚴(yán)重性。
數(shù)據(jù)問(wèn)題即使解決了,算力成本也不容樂(lè)觀。Transformer的注意力機(jī)制有一個(gè)廣為人知的軟肋:計(jì)算復(fù)雜度與序列長(zhǎng)度的平方成正比。在語(yǔ)言模型里,這O(n2)的復(fù)雜度已經(jīng)夠讓人頭疼了;但在物理AI場(chǎng)景里,傳感器流是連續(xù)、高頻、多模態(tài)的——視覺(jué)、觸覺(jué)、慣性測(cè)量單元、關(guān)節(jié)角度——數(shù)據(jù)源源不斷涌入。如果在機(jī)器人本體上跑一個(gè)參數(shù)量幾十億的Transformer來(lái)處理這么多維度的時(shí)序數(shù)據(jù),功耗和延遲都會(huì)飆到不可接受的水平。
有研究指出,全局注意力機(jī)制下每個(gè)token都要和所有其他token計(jì)算,而CNN里最基本的相鄰關(guān)系,在Transformer里卻需要大量冗余運(yùn)算。用一句話說(shuō):你花了大價(jià)錢買了張貴得離譜的入場(chǎng)券,換來(lái)的是拖泥帶水的決策速度。
需要新地圖
說(shuō)CNN和Transformer不適用于物理AI,不是說(shuō)它們?cè)谖锢鞟I中完全沒(méi)有用武之地。CNN可以拿來(lái)做感知端的多模態(tài)特征提取,Transformer可以用來(lái)做高層任務(wù)規(guī)劃和語(yǔ)義理解。問(wèn)題是,不能把一個(gè)本來(lái)設(shè)計(jì)來(lái)處理離散序列或靜態(tài)圖像的架構(gòu),硬塞給它“理解物理世界因果律”這種完全不匹配的期望。
物理AI需要的是能內(nèi)嵌物理規(guī)律的模型——它應(yīng)該天然懂得連續(xù)性、守恒律和因果鏈,而不是靠海量數(shù)據(jù)硬生生去擬合出這些規(guī)律的表面特征。它需要高效的時(shí)序推理能力,能在有限計(jì)算資源下完成實(shí)時(shí)閉環(huán)控制。它需要從“模仿人的動(dòng)作”升級(jí)為“理解物理的邏輯”,先想清楚再動(dòng)手。
劍橋大學(xué)一位控制理論學(xué)者打過(guò)一個(gè)讓人深思的比方:用Transformer去學(xué)習(xí)物理規(guī)律,就像用鋼琴?gòu)椧皇仔√崆僮帏Q曲——聲音可能接近,但弓弦之間那種復(fù)雜的物理耦合,是你永遠(yuǎn)彈不出來(lái)的。
眼下,物理AI的賽道才剛起跑。真正需要的東西,不是把CNN和Transformer往機(jī)器人里硬塞,而是敢于質(zhì)疑主流范式的勇氣。畢竟,物理世界不會(huì)因?yàn)槟愕哪P蛥?shù)夠多、注意力頭夠密,就放棄它對(duì)因果律的堅(jiān)持。
在一條用概率統(tǒng)計(jì)撐起來(lái)的數(shù)字長(zhǎng)廊里,你永遠(yuǎn)找不到牛頓的蘋果。
(文章來(lái)源:公眾號(hào)退一步看看)
近日,云南怒江,匹河邊境派出所轄區(qū)一男子福某飲酒后連續(xù)撥打110報(bào)警
6月11日,生意社LLDPE基準(zhǔn)價(jià)為8296 67元 噸,與本月初(8256 67元 噸)相
和訊李國(guó)培:市場(chǎng)二次探底能否成功?
和訊朱一鳴:高位題材板塊需要重點(diǎn)做好風(fēng)險(xiǎn)防控
這是2026年6月拍攝的旅居韓國(guó)大熊貓“華妮”的幼崽。6月10日,記者從中
常鋁股份,繼續(xù)停牌!籌劃控制權(quán)變更
十年深耕,無(wú)糖茶推動(dòng)國(guó)內(nèi)飲料市場(chǎng)完成一輪徹底的“去糖化”消費(fèi)普及,
證券之星消息,截至2026年6月10日收盤,華騏環(huán)保(300929)報(bào)收于11 35元
,證券之星港美股
6月10日,科森科技大宗交易成交270 14萬(wàn)股,成交額5899 86萬(wàn)元,占當(dāng)日
數(shù)據(jù)正在成為數(shù)字經(jīng)濟(jì)時(shí)代的重要資源。無(wú)論是企業(yè)經(jīng)營(yíng)中的用戶數(shù)據(jù)
在數(shù)字經(jīng)濟(jì)快速發(fā)展的背景下,數(shù)據(jù)已成為推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展的關(guān)鍵生
隨著數(shù)字經(jīng)濟(jì)不斷發(fā)展,數(shù)字資產(chǎn)管理正在成為越來(lái)越多用戶關(guān)注的重
【納斯達(dá)克100ETF招商:提示二級(jí)市場(chǎng)交易價(jià)格溢價(jià)風(fēng)險(xiǎn)】納斯達(dá)克100ETF
視頻:中國(guó)聯(lián)通FTTR全屋光寬帶,讓美好無(wú)縫連接荊楚網(wǎng)(湖北日?qǐng)?bào)網(wǎng))訊
新華社北京6月9日電(記者韋驊)由中國(guó)教育科學(xué)研究院牽頭研制的22項(xiàng)《學(xué)
6月9日,三房巷滌綸短纖價(jià)格上調(diào)100元 噸,其中半光直紡1 4D*38mm滌綸
6月9日,廈門翔鷺滌綸短纖價(jià)格上調(diào)100元 噸,其中半光直紡1 4D*38mm滌
6月9日,福建杭實(shí)經(jīng)緯滌綸短纖價(jià)格上調(diào)100元 噸,其中半光本白1 4D*38m
6月9日,海南一套80萬(wàn)噸乙二醇 二甘醇裝置周末開(kāi)始停車檢修,預(yù)計(jì)此次
交易所2026年6月9日公布的交易公開(kāi)信息顯示,退市太和因成為退市整理的
根據(jù)財(cái)通基金管理有限公司申請(qǐng),上交所于2026年6月9日盤中即時(shí)起至收市
阿里巴巴公告,公司注意到美國(guó)國(guó)防部已將阿里巴巴集團(tuán)列入中國(guó)軍工企業(yè)
紅包雨來(lái)了!本周7家銀行將分紅共331億
近日,網(wǎng)易有道靈智(海南)信息技術(shù)有限公司成立,法定代表人為金磊,

6月10日動(dòng)力煤CCTD 指數(shù)環(huán)比持平_視點(diǎn)
6月10日,動(dòng)力煤CCTD指數(shù)5500CV,863元 噸(0);5000CV,774元 噸(0

和訊李國(guó)培:市場(chǎng)二次探底能否成功?
和訊李國(guó)培:市場(chǎng)二次探底能否成功?

熱頭條丨*ST云網(wǎng):撤銷退市風(fēng)險(xiǎn)警示
*ST云網(wǎng):撤銷退市風(fēng)險(xiǎn)警示繼續(xù)被實(shí)施其他風(fēng)險(xiǎn)警示

最新消息:鄭州北車站:暢通樞紐服務(wù)
(劉鵬柴梓軒)5月下旬以來(lái),產(chǎn)糧大省河南進(jìn)入夏收、夏種、夏管“三夏”

隨信云鏈-星耀三號(hào)第1期ABS成功發(fā)行
深耕產(chǎn)業(yè)供應(yīng)鏈金融,創(chuàng)新ABS賦能實(shí)體發(fā)展。2026年6月10日,隨信云鏈-
Copyright @ 2001-2023 m.sjttj.com All Rights Reserved 商業(yè)時(shí)報(bào)網(wǎng) 版權(quán)所有 關(guān)于我們
網(wǎng)站信息內(nèi)容, 均為相關(guān)單位具有著作權(quán),未經(jīng)書(shū)面授權(quán),轉(zhuǎn)載注明出處
未經(jīng)商業(yè)時(shí)報(bào)網(wǎng)書(shū)面授權(quán),請(qǐng)勿建立鏡像,轉(zhuǎn)載請(qǐng)注明來(lái)源,違者依法必究
皖I(lǐng)CP備2022009963號(hào)-4
聯(lián)系郵箱:311 3831 582@qq.com
關(guān)于我們 | 聯(lián)系方式 | 供稿服務(wù) | 版權(quán)聲明 | 友情鏈接 | 合作伙伴 |