8月14日,智元機器人正式發布行業首個機器人世界模型開源平臺——Genie Envisioner(簡稱GE)。該平臺突破傳統“數據—訓練— 評估”割裂的流水線模式,宣稱首次將未來幀預測、策略學習與仿真評估整合進以視頻生成為核心的閉環架構,使機器人能在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執行。

據介紹,GE平臺通過構建統一的視頻生成世界模型,將數據收集、模型訓練、策略評估等分散環節集成到閉環系統中。其核心組件GE-Base經超百萬條數據訓練,可精準解析環境空間布局與動作意圖;GE-Act動作解碼器則實現從“看懂”到“會做”的關鍵轉化;GE-Sim則將GE-Base的生成能力擴展為動作條件的神經仿真器,通過層次化動作條件機制實現精確的視覺預測。三大組件緊密協作,構成完整的視覺中心機器人學習平臺。
依托約3000小時的真實機器人操控視頻數據,GE建立了從語言指令到視覺空間的直接映射,完整保留了機器人與環境交互的時空信息。

值得一提的是,由智元機器人主辦的智啟具身論壇近日在2025世界人工智能大會(WAIC)舉行。論壇上,智元機器人合伙人、具身業務部總裁姚卯青以飛機架構為喻,形象解析了GE平臺的核心邏輯:“機身”GE-Base經過海量機器人真機數據訓練,具備長程、多視角的視頻生成能力;兩側的“雙翼”則分別指向World Action Model和Action-conditioned World Model。

在真實測試中,搭載GE-Act的機器人已能完成“做三明治”“倒茶”“擦桌面”等多項任務。