9月2日,混元3D世界模型系列最新成員——HunyuanWorld-Voyager(簡稱混元Voyager)正式發(fā)布,這也是業(yè)界首個支持原生3D重建的超長漫游世界模型。
該模型聚焦于AI在空間智能領(lǐng)域的應(yīng)用擴展,將為虛擬現(xiàn)實、物理仿真、游戲開發(fā)等領(lǐng)域提供高保真的3D場景漫游能力。
混元Voyager突破了傳統(tǒng)視頻生成在空間一致性和探索范圍上的局限,能夠生成長距離、世界一致的漫游場景,支持將視頻直接導(dǎo)出為3D格式。
混元Voyager 3D輸入-3D輸出的特性,與此前已開源的混元世界模型1.0高度適配,可進一步擴展1.0模型漫游范圍,提升復(fù)雜場景的生成質(zhì)量,并可對生成的場景做風(fēng)格化控制和編輯。
不僅如此,混元Voyager還可支持視頻場景重建、3D物體紋理生成、視頻風(fēng)格定制化生成、視頻深度估計等多種3D理解與生成應(yīng)用,展現(xiàn)出空間智能的潛力。
當(dāng)前,可交互的視頻模型已經(jīng)展現(xiàn)出在世界模型生成上的潛力。然而,實際應(yīng)用中(如虛擬現(xiàn)實、物理仿真等)通常需要能夠建模的顯式3D場景,純視頻的生成內(nèi)容很難為用戶提供更加真實的交互形式。
另一方面,直接生成3D形式的世界場景,雖具備更好的空間結(jié)構(gòu)的一致性和交互應(yīng)用的拓展性,卻受限于3D訓(xùn)練數(shù)據(jù)稀缺與3D表征內(nèi)存效率低下等問題,無法泛化到更多的類別和更大場景中。
混元Voyager框架創(chuàng)新性地將場景深度預(yù)測引入視頻生成過程,融合了視頻生成與3D建模優(yōu)勢,基于相機可控的視頻生成技術(shù),從初始場景視圖和用戶指定相機軌跡中,合成可自由控制視角、空間連貫的RGB-D視頻(包含RGB圖像和深度信息的點云視頻)。
用戶可通過鍵盤或者搖桿控制生成對應(yīng)的視頻畫面,并通過3D空間記憶保持畫面的高度一致性,實現(xiàn)與可交互視頻模型如Genie3等相同的功能。同時,Voyager還支持將生成視頻無損導(dǎo)出3D點云,無需依賴COLMAP等額外重建工具。
混元Voyager首次通過空間與特征結(jié)合的方式,支持原生的3D記憶和場景重建,避免了傳統(tǒng)后處理帶來的延遲和精度損失。同時,在輸入端加入3D條件保證畫面視角精準(zhǔn),輸出端直接生成3D點云,適配多種應(yīng)用場景。額外的深度信息還能支持視頻場景重建、3D物體紋理生成、風(fēng)格化編輯和深度估計等功能。
Voyager還引入了可擴展的世界緩存機制,基于1.0模型生成的初始3D點云緩存,將其投影到目標(biāo)相機視圖,為擴散模型提供指導(dǎo)。此外,生成的視頻幀還會實時更新緩存,形成閉環(huán)系統(tǒng),支持任意相機軌跡,同時維持幾何一致性。這不僅擴展了漫游范圍,還為1.0模型補充新視角內(nèi)容,提升整體生成質(zhì)量。
該模型在斯坦福大學(xué)李飛飛團隊發(fā)布的世界模型基準(zhǔn)測試WorldScore上位居綜合能力首位,超越現(xiàn)有開源方法,在視頻生成和3D重建任務(wù)中均表現(xiàn)出色。在視頻生成和視頻3D重建兩個任務(wù)上,Voyager也均取得更好的結(jié)果。
騰訊混元世界模型系列開源正不斷加速。7月,混元3D世界模型1.0發(fā)布并開源,成為業(yè)界首個兼容傳統(tǒng)CG管線的可漫游世界生成模型。8月,推出1.0 Lite版,降低顯存需求,支持消費級顯卡部署。僅兩周后,針對遮擋視圖和探索范圍限制,混元團隊進一步優(yōu)化,推出超長漫游世界模型Voyager。
此前,混元已陸續(xù)開源業(yè)界領(lǐng)先的文生圖、視頻生成和3D生成能力,提供接近商業(yè)模型性能的開源模型,混元3D系列開源模型下載量位居開源社區(qū)榜首。
在基礎(chǔ)模型方面,混元開源了MoE架構(gòu)的代表性模型混元large、混合推理模型Hunyuan-A13B,以及多個面向端側(cè)場景的小尺寸模型,最小僅0.5B參數(shù)。最新開源的翻譯模型Hunyuan-MT-7B,在國際翻譯比賽中斬獲31個語種中的30項冠軍。
{{item.content}}