當大模型開始“看懂”圖像、理解語言,是否意味著AI已經(jīng)足夠強大?答案顯然是否定的。真正決定下一階段產業(yè)格局的,不是模型在屏幕里的推理能力,而是它是否能夠走進物理世界,理解環(huán)境、規(guī)劃行動,并穩(wěn)定、可靠地完成任務——即我們所謂的具身智能。
從“看見世界”到“動手改變世界”,中間跨越的是一整套從算法、數(shù)據(jù)到硬件系統(tǒng)的工程體系。圍繞這一目標,軟通天擎構建了覆蓋機器人本體、數(shù)據(jù)平臺與算法模型的全棧能力,并以軟通天擎ArtisanBrain-X0 為核心小腦模型,推動視覺-語言-動作(VLA)能力的真正落地。

軟通天擎全棧能力架構圖
從大模型能力走向具身落地:
軟通天擎的全棧布局
軟通天擎是一家聚焦具身智能的科技企業(yè),致力于成為國內領先的具身智能人形機器人產品與場景應用解決方案提供商。公司以大模型的泛化能力為核心驅動,構建覆蓋以下四大方向的全棧技術體系:
具身智能數(shù)據(jù)采集平臺
具身數(shù)據(jù)模型與算法
機器人操作系統(tǒng)
人形機器人本體硬件與關鍵部件設計制造
當前,公司聚焦三大主營業(yè)務方向:
具身智能數(shù)據(jù)基礎設施解決方案與技術服務
具身智能人形機器人本體及關鍵部件研發(fā)與生產制造(天擎 A/T 系列)
面向工業(yè)智造、康養(yǎng)、教育科研等具身智能場景應用解決方案與技術服務
在真實產業(yè)推進過程中,軟通天擎深刻認識到具身智能的落地并非簡單的模型訓練問題,而是一個系統(tǒng)工程問題。圍繞行業(yè)現(xiàn)狀,公司總結出四大核心壁壘:
本體硬件穩(wěn)定性與成本控制難題
高質量真實數(shù)據(jù)匱乏
采集—訓練—推理部署流程割裂
缺乏真正可泛化的具身大模型
針對這些問題,軟通天擎打造了“采-訓-推”一體化閉環(huán)體系,并推出Artisan一站式具身智能開發(fā)平臺,實現(xiàn)從數(shù)據(jù)采集到模型部署的全流程打通。
軟通天擎認為只有當硬件本體、數(shù)據(jù)與模型形成統(tǒng)一協(xié)同體系,具身智能才能真正實現(xiàn)規(guī)模化復制。
ArtisanBrain-X0:
跨本體泛化的小腦核心
具身智能領域長期存在一個關鍵問題——模型能力被“鎖死”在單一本體上。不同機器人結構差異巨大:自由度不同、動力學不同、控制接口不同。這導致每適配一種新本體,都需要重新采集數(shù)據(jù)、重新訓練模型,難以形成數(shù)據(jù)飛輪。ArtisanBrain-X0 正是在這樣的背景下提出跨本體統(tǒng)一建模方案。
1統(tǒng)一動作空間:打破本體差異
傳統(tǒng)機器人模型多基于關節(jié)空間建模,本體之間難以共享數(shù)據(jù)。ArtisanBrain-X0 將不同機器人控制信號統(tǒng)一抽象為末端執(zhí)行器(EE)位姿表示——即三維空間中的位置與姿態(tài)變化。這意味著:
? 單臂、雙臂、移動底盤系統(tǒng)
? 不同自由度結構
? 不同驅動形式
在模型視角中都使用同一種“動作語言”。這一抽象使模型不再依賴具體關節(jié)結構,而直接面向物理世界交互目標進行建模。
2動作Tokenizer:離散化物理行為
連續(xù)高維控制軌跡直接建模存在泛化困難,ArtisanBrain-X0 引入分組殘差量化(GRVQ)機制,將連續(xù)軌跡壓縮為離散動作原語 token。這一機制帶來三大核心收益:
? 長時序控制更加穩(wěn)定
? 計算效率顯著提升
? 動作知識可遷移共享
模型輸出的不再是復雜控制流,而是一組“接近—抓取—放置”等可解釋動作詞匯序列。
3三層閉環(huán)推理:從語言到執(zhí)行
ArtisanBrain-X0 采用分層決策架構,實現(xiàn)從自然語言到物理控制的閉環(huán):
? 高層:任務理解與語義拆解
? 中層:動作原語生成
? 底層:控制信號解碼
通過“語義一致—控制一致—執(zhí)行一致”的三層對齊機制,模型能夠穩(wěn)定完成復雜任務。在 Libero 仿真評測中,ArtisanBrain-X0 綜合成功率達 96.3%,在真實機器人測試中總體成功率達 48.9%,幾乎是基線 π0 的 2.5 倍。這意味著跨本體泛化不再停留在理論層面,而是具備真實世界可行性。
采-訓-推閉環(huán):
從模型能力到工程體系
模型能力只是第一步,真正決定產業(yè)化速度的是是否具備規(guī)?;瘡椭颇芰?。軟通天擎將 ArtisanBrain 2.0 作為“大腦”基礎模型,將 ArtisanBrain-X0 作為“小腦”執(zhí)行模塊,并集成至 ArtisanBrain Platform系統(tǒng),實現(xiàn)模型訓練與部署閉環(huán)。
1采:高質量數(shù)據(jù)資產體系
我們構建“四維融合”采集策略:
? 視覺數(shù)據(jù)(RGB、深度、點云)
? 控制數(shù)據(jù)(關節(jié)角度、末端位姿、力矩)
? 環(huán)境信號
? 仿真合成數(shù)據(jù)
通過數(shù)據(jù)治理、版本管理、自動清洗、智能標注和合成,實現(xiàn)高質量數(shù)據(jù)資產化管理。數(shù)據(jù)不再是一次性消耗品,而是成為持續(xù)驅動模型迭代的核心燃料。
2訓:自動化訓練與遷移學習
軟通天擎ArtisanBrain Training 子系統(tǒng)支持:
? 預訓練
? 小樣本微調
? 遷移學習
? 多模型適配(支持 ArtisanBrain-X0、π0.5 等)
典型工業(yè)場景適配約 48 卡天即可完成訓練與部署。通過自動觸發(fā)訓練與雙軌驗證機制(離線驗證+真機驗證),確保模型“學得快、用得穩(wěn)”。
3推:跨芯片部署與實時控制
軟通天擎ArtisanBrain Infer 子系統(tǒng)支持:
? 云端部署
? 邊緣推理
? 本體側實時控制
? OTA 升級與生命周期監(jiān)控
實現(xiàn)模型從云端到真機環(huán)境的無縫遷移,這一能力使模型具備持續(xù)演進能力。
工業(yè)柔性智造實踐:
從實驗到產線
在工業(yè)場景中,基于軟通天擎Artisan一站式具身智能開發(fā)平臺,實現(xiàn)機器人視覺-語言-動作(VLA)的閉環(huán)實踐。通過VR設備與機器人本體的協(xié)同,軟通天擎自主研發(fā)的天擎A2作業(yè)版機器人將進行高精度的動作捕捉與多模態(tài)數(shù)據(jù)采集,重點攻克顯卡、鼠標等異形物料的分揀、抓取與裝箱放置等核心工序。采集到的海量原始數(shù)據(jù)通過數(shù)據(jù)平臺進行清洗、標注與合成,轉化為高質量、標準化的工業(yè)場景數(shù)據(jù)集,再通過模型訓練、推理驗證,最終實現(xiàn)機器人全自主無人化作業(yè)。
具身智能的競爭,已經(jīng)從“模型參數(shù)規(guī)模”轉向“工程閉環(huán)能力”。從“看見”到“動手”,軟通天擎正以 ArtisanBrain-X0 為核心,構建真正可泛化、可部署、可持續(xù)進化的視覺-語言-動作(VLA)閉環(huán)體系。具身智能的時代已經(jīng)開啟,而我們正在推動它加速到來。
-
人形機器人
+關注
關注
7文章
1038瀏覽量
18541 -
軟通動力
+關注
關注
1文章
1209瀏覽量
16535 -
具身智能
+關注
關注
0文章
460瀏覽量
904
原文標題:從“看見”到“動手”:軟通天擎具身智能人形機器人的視覺-語言-動作(VLA)閉環(huán)實踐
文章出處:【微信號:isoftstone-group,微信公眾號:軟通動力】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
中國工程院院士杜善義率隊調研軟通天樞機器人
軟通天擎CEO黃鵬受邀出席2025高工機器人年會
數(shù)AI萬象 機器新生丨軟通天樞智能以空間智能重構AI產業(yè)新生態(tài)
軟通天擎亮相2025世界智能制造博覽會
高精度機器人控制的核心——基于 MYD-LT536 開發(fā)板的精密運動控制方案
RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知
科普 | 英偉達“最強”機器人大腦平臺與5G物聯(lián)網(wǎng)完成驗證測試,RedCap支持人形機器人高效連接
介電彈性體軟機器人研究:高壓放大器的應用實踐
基于軟通天擎Artisan平臺實現(xiàn)機器人VLA閉環(huán)實踐
評論