9月2日，混元3D世界模型系列最新成員——HunyuanWorld-Voyager（簡稱混元Voyager）正式發(fā)布，這也是業(yè)界首個支持原生3D重建的超長漫游世界模型。

該模型聚焦于AI在空間智能領(lǐng)域的應(yīng)用擴展，將為虛擬現(xiàn)實、物理仿真、游戲開發(fā)等領(lǐng)域提供高保真的3D場景漫游能力。

混元Voyager突破了傳統(tǒng)視頻生成在空間一致性和探索范圍上的局限，能夠生成長距離、世界一致的漫游場景，支持將視頻直接導(dǎo)出為3D格式。

混元Voyager 3D輸入-3D輸出的特性，與此前已開源的混元世界模型1.0高度適配，可進一步擴展1.0模型漫游范圍，提升復(fù)雜場景的生成質(zhì)量，并可對生成的場景做風(fēng)格化控制和編輯。

不僅如此，混元Voyager還可支持視頻場景重建、3D物體紋理生成、視頻風(fēng)格定制化生成、視頻深度估計等多種3D理解與生成應(yīng)用，展現(xiàn)出空間智能的潛力。

當(dāng)前，可交互的視頻模型已經(jīng)展現(xiàn)出在世界模型生成上的潛力。然而，實際應(yīng)用中（如虛擬現(xiàn)實、物理仿真等）通常需要能夠建模的顯式3D場景，純視頻的生成內(nèi)容很難為用戶提供更加真實的交互形式。

另一方面，直接生成3D形式的世界場景，雖具備更好的空間結(jié)構(gòu)的一致性和交互應(yīng)用的拓展性，卻受限于3D訓(xùn)練數(shù)據(jù)稀缺與3D表征內(nèi)存效率低下等問題，無法泛化到更多的類別和更大場景中。

混元Voyager框架創(chuàng)新性地將場景深度預(yù)測引入視頻生成過程，融合了視頻生成與3D建模優(yōu)勢，基于相機可控的視頻生成技術(shù)，從初始場景視圖和用戶指定相機軌跡中，合成可自由控制視角、空間連貫的RGB-D視頻（包含RGB圖像和深度信息的點云視頻）。

用戶可通過鍵盤或者搖桿控制生成對應(yīng)的視頻畫面，并通過3D空間記憶保持畫面的高度一致性，實現(xiàn)與可交互視頻模型如Genie3等相同的功能。同時，Voyager還支持將生成視頻無損導(dǎo)出3D點云，無需依賴COLMAP等額外重建工具。

混元Voyager首次通過空間與特征結(jié)合的方式，支持原生的3D記憶和場景重建，避免了傳統(tǒng)后處理帶來的延遲和精度損失。同時，在輸入端加入3D條件保證畫面視角精準(zhǔn)，輸出端直接生成3D點云，適配多種應(yīng)用場景。額外的深度信息還能支持視頻場景重建、3D物體紋理生成、風(fēng)格化編輯和深度估計等功能。

Voyager還引入了可擴展的世界緩存機制，基于1.0模型生成的初始3D點云緩存，將其投影到目標(biāo)相機視圖，為擴散模型提供指導(dǎo)。此外，生成的視頻幀還會實時更新緩存，形成閉環(huán)系統(tǒng)，支持任意相機軌跡，同時維持幾何一致性。這不僅擴展了漫游范圍，還為1.0模型補充新視角內(nèi)容，提升整體生成質(zhì)量。

該模型在斯坦福大學(xué)李飛飛團隊發(fā)布的世界模型基準(zhǔn)測試WorldScore上位居綜合能力首位，超越現(xiàn)有開源方法，在視頻生成和3D重建任務(wù)中均表現(xiàn)出色。在視頻生成和視頻3D重建兩個任務(wù)上，Voyager也均取得更好的結(jié)果。

騰訊混元世界模型系列開源正不斷加速。7月，混元3D世界模型1.0發(fā)布并開源，成為業(yè)界首個兼容傳統(tǒng)CG管線的可漫游世界生成模型。8月，推出1.0 Lite版，降低顯存需求，支持消費級顯卡部署。僅兩周后，針對遮擋視圖和探索范圍限制，混元團隊進一步優(yōu)化，推出超長漫游世界模型Voyager。

此前，混元已陸續(xù)開源業(yè)界領(lǐng)先的文生圖、視頻生成和3D生成能力，提供接近商業(yè)模型性能的開源模型，混元3D系列開源模型下載量位居開源社區(qū)榜首。

在基礎(chǔ)模型方面，混元開源了MoE架構(gòu)的代表性模型混元large、混合推理模型Hunyuan-A13B，以及多個面向端側(cè)場景的小尺寸模型，最小僅0.5B參數(shù)。最新開源的翻譯模型Hunyuan-MT-7B，在國際翻譯比賽中斬獲31個語種中的30項冠軍。