5月14日,阿里巴巴正式開源通義萬相Wan2.1-VACE。據(jù)了解,這是目前業(yè)界功能最全的視頻生成與編輯模型,單一模型可同時支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等多種生成和編輯能力。該模型擁有1.3B和14B兩個版本,其中1.3B版本可在消費級顯卡運行。
12月17日消息,今日,圖森未來宣布正式發(fā)布圖生視頻大模型“Ruyi”,并將Ruyi-Mini-7B版本正式開源,用戶可以從huggingface上下載使用。據(jù)介紹,Ruyi是一個基于DiT架構的圖生視頻模型,它由兩部分構成:一個Casual VAE模塊負責視頻數(shù)據(jù)的壓縮和解壓,一個Diffusion Transformer負責壓縮后的視頻生成。模型的總參數(shù)量約為7.1B,使用了約200M個視頻片段進行訓練。Ruyi是圖森未來正式發(fā)布的第一款“圖生視頻”模型。
4月27日消息,在2024中關村論壇年會未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型 Vidu。Vidu不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點,這也是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并在加速迭代提升中。
3月15日,騰訊和清華大學、香港科技大學聯(lián)合推出全新圖生視頻模型“Follow-Your-Click“,基于輸入模型的圖片,只需點擊對應區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉(zhuǎn)換成視頻。