8月26日,阿里云正式發(fā)布全新多模態(tài)視頻生成模型通義萬相Wan2.2-S2V,并宣布開源。Wan2.2-S2V極大地簡(jiǎn)化了視頻制作過程,僅需提供一張靜態(tài)圖片和一段音頻,模型便能生成面部表情自然、口型與音頻高度一致、肢體動(dòng)作流暢絲滑的電影級(jí)數(shù)字人視頻。支持分鐘級(jí)長(zhǎng)視頻穩(wěn)定生成,不止嘴動(dòng),手勢(shì)、表情、姿態(tài)都能動(dòng)。而且模型在訓(xùn)練中充分挖掘跨域泛化能力,可自然驅(qū)動(dòng)卡通人物、動(dòng)物形象、二次元角色、藝術(shù)風(fēng)格化人像,不再局限于真人肖像。無論是萌寵說話,還是動(dòng)漫角色唱歌,Wan2.2-S2V都能精準(zhǔn)還原音畫同步效果。其提供480P與720P兩檔分辨率,兼顧效率與畫質(zhì),適用于短視頻、數(shù)字人、輕量影視等場(chǎng)景。
本項(xiàng)目不接受聯(lián)合體投標(biāo)。
8月13日,特斯拉在X平臺(tái)發(fā)布了其 FSD 技術(shù)迄今為止行程最長(zhǎng)的演示視頻,展示了從舊金山灣區(qū)到洛杉磯的零干預(yù)駕駛之旅。視頻顯示在整個(gè)駕駛過程中,車輛無需駕駛員干預(yù)。
5月14日,阿里巴巴正式開源通義萬相Wan2.1-VACE。據(jù)了解,這是目前業(yè)界功能最全的視頻生成與編輯模型,單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長(zhǎng)延展等多種生成和編輯能力。該模型擁有1.3B和14B兩個(gè)版本,其中1.3B版本可在消費(fèi)級(jí)顯卡運(yùn)行。
5月13日晚間,特斯拉官方微博發(fā)布人形機(jī)器人擎天柱(Optimus)“跳舞”視頻,并表示其人形機(jī)器人優(yōu)化“仿真到現(xiàn)實(shí)”(Sim-to-Real)的訓(xùn)練代碼,通過強(qiáng)化學(xué)習(xí)完成訓(xùn)練。
5月9日,騰訊混元團(tuán)隊(duì)發(fā)布并開源全新的多模態(tài)定制化視頻生成工具HunyuanCustom。該模型基于混元視頻生成大模型(HunyuanVideo)打造,在主體一致性效果超過現(xiàn)有的開源方案,并可媲美頂尖閉源模型。HunyuanCustom融合了文本、圖像、音頻、視頻等多模態(tài)輸入生視頻的能力,是一款具備高度控制力和生成質(zhì)量的智能視頻創(chuàng)作工具。
3月20日,階躍星辰開源圖生視頻模型——Step-Video-TI2V,一款基于30B參數(shù)Step-Video-T2V訓(xùn)練的圖生視頻模型,支持生成102幀、5秒、540P分辨率的視頻,具備運(yùn)動(dòng)幅度可控和鏡頭運(yùn)動(dòng)可控兩大核心特點(diǎn),同時(shí)天生具備一定的特效生成能力。與此同時(shí),Step-Video-TI2V已完成與華為昇騰計(jì)算平臺(tái)的適配,并在魔樂社區(qū)(Modelers)上線。
2月25日,阿里云宣布視頻生成大模型萬相2.1(Wan)開源,此次開源采用Apache2.0協(xié)議,14B和1.3B兩個(gè)參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開源,同時(shí)支持文生視頻和圖生視頻任務(wù),全球開發(fā)者可在Github、HuggingFace、魔搭社區(qū)下載體驗(yàn)。
天眼查知識(shí)產(chǎn)權(quán)信息顯示,近日,阿里巴巴有限公司申請(qǐng)的“一種圖生視頻方法和裝置”專利公布。摘要顯示,本發(fā)明實(shí)施例將包含目標(biāo)對(duì)象的源圖像輸入第一視頻生成模型得到素材視頻,根據(jù)素材視頻確定幀間變換矩陣序列,然后從源圖像中得到目標(biāo)對(duì)象對(duì)應(yīng)的對(duì)象掩碼圖像,將幀間變換矩陣序列應(yīng)用于對(duì)象掩碼圖像可得到多張掩碼圖像從而組成掩碼圖像序列,將幀間變換矩陣序列應(yīng)用于源圖像可得到多張目標(biāo)對(duì)象圖像從而組成目標(biāo)對(duì)象圖像序列,根據(jù)源圖像、掩碼圖像序列和目標(biāo)對(duì)象圖像序列確定目標(biāo)輸入數(shù)據(jù),將目標(biāo)輸入數(shù)據(jù)輸入支持局部重繪的第二視頻生成模型,得到對(duì)應(yīng)的目標(biāo)視頻。通過兩次模型生成視頻,實(shí)現(xiàn)了智能化端到端的圖生視頻,無需引入預(yù)設(shè)運(yùn)動(dòng)參數(shù)即可在保持目標(biāo)對(duì)象不擴(kuò)散的同時(shí),實(shí)現(xiàn)運(yùn)動(dòng)軌跡多樣性。
12月17日消息,谷歌今日宣布,其最新的AI視頻生成模型Veo 2正式亮相。據(jù)介紹,Veo 2模型能夠生成最高4K(4096 x 2160像素)分辨率、時(shí)長(zhǎng)達(dá)到2分鐘的視頻片段,相較于OpenAI的Sora模型,分辨率提升了4倍,視頻時(shí)長(zhǎng)增加了6倍。Veo 2模型不僅能夠在給定文本提示或文本和參考圖像的情況下生成視頻,還能更真實(shí)地模擬運(yùn)動(dòng)、流體動(dòng)力學(xué)和光的屬性,實(shí)現(xiàn)不同的鏡頭和電影效果,以及“細(xì)致入微”的人類表情。
Meta周一表示,它正在更新雷朋Meta智能眼鏡,該眼鏡具有實(shí)時(shí)人工智能視頻功能和實(shí)時(shí)語言翻譯功能。從周一開始,該公司開始推出v11軟件更新。該公司表示,在實(shí)時(shí)AI會(huì)話中,Meta AI可以看到用戶所看到的內(nèi)容,并更自然地與他們交談。用戶可以獲得實(shí)時(shí)、免提的幫助,無需說“Hey Meta”就可以提出問題,并可以自如參考他們之前討論過的內(nèi)容。用戶也可以隨時(shí)打斷,詢問后續(xù)問題或改變?cè)掝}。
12月17日消息,今日,圖森未來宣布正式發(fā)布圖生視頻大模型“Ruyi”,并將Ruyi-Mini-7B版本正式開源,用戶可以從huggingface上下載使用。據(jù)介紹,Ruyi是一個(gè)基于DiT架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:一個(gè)Casual VAE模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個(gè)Diffusion Transformer負(fù)責(zé)壓縮后的視頻生成。模型的總參數(shù)量約為7.1B,使用了約200M個(gè)視頻片段進(jìn)行訓(xùn)練。Ruyi是圖森未來正式發(fā)布的第一款“圖生視頻”模型。
12月10日消息,字節(jié)跳動(dòng)視頻生成模型PixelDance已在豆包電腦版正式開啟內(nèi)測(cè),部分用戶已開通體驗(yàn)入口。內(nèi)測(cè)頁(yè)面顯示,用戶每日可免費(fèi)生成十支視頻。
12月10日消息,當(dāng)?shù)貢r(shí)間周一,OpenAI宣布正式向用戶開放其AI視頻生成模型Sora。該系統(tǒng)可根據(jù)文本提示生成視頻。Sora將于當(dāng)天晚些時(shí)候向美國(guó)及其他市場(chǎng)ChatGPT付費(fèi)用戶開放。新版工具Sora Turbo可生成最長(zhǎng)20秒視頻,并且可以提供這些視頻的多種變體。
12月3日消息,騰訊混元大模型今日宣布混元視頻生成大模型HunYuan Video正式上線,并開源。該模型參數(shù)量130億,具備原生轉(zhuǎn)場(chǎng)和切鏡能力,一次生成視頻時(shí)長(zhǎng)為5s。從視頻生成效果看,HunYuan Video生成視頻遠(yuǎn)景幅度大、動(dòng)作流暢,在人文場(chǎng)景/人造場(chǎng)所、人、多主體組合這些類目上有較明顯優(yōu)勢(shì),其次在物品和動(dòng)物/微生物類目也有一定優(yōu)勢(shì)。據(jù)混元大模型相關(guān)負(fù)責(zé)人介紹,HunYuan Video此次上線的版本以文生視頻為主,生成視頻分辨率當(dāng)前為720P,此后不排除加更1080P/4k/8k分辨率版本,也不排除增加圖生視頻、視頻自動(dòng)配樂等功能。目前該模型已上線騰訊元寶APP,用戶可在AI應(yīng)用中的“AI視頻”板塊申請(qǐng)?jiān)囉谩?
本采購(gòu)包不接受聯(lián)合體投標(biāo)。
預(yù)算金額24202萬元。
本項(xiàng)目不接受聯(lián)合體投標(biāo)。