預(yù)算金額838萬(wàn)元。
5月14日,阿里巴巴正式開(kāi)源通義萬(wàn)相Wan2.1-VACE。據(jù)了解,這是目前業(yè)界功能最全的視頻生成與編輯模型,單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長(zhǎng)延展等多種生成和編輯能力。該模型擁有1.3B和14B兩個(gè)版本,其中1.3B版本可在消費(fèi)級(jí)顯卡運(yùn)行。
5月13日晚間,特斯拉官方微博發(fā)布人形機(jī)器人擎天柱(Optimus)“跳舞”視頻,并表示其人形機(jī)器人優(yōu)化“仿真到現(xiàn)實(shí)”(Sim-to-Real)的訓(xùn)練代碼,通過(guò)強(qiáng)化學(xué)習(xí)完成訓(xùn)練。
5月9日,騰訊混元團(tuán)隊(duì)發(fā)布并開(kāi)源全新的多模態(tài)定制化視頻生成工具HunyuanCustom。該模型基于混元視頻生成大模型(HunyuanVideo)打造,在主體一致性效果超過(guò)現(xiàn)有的開(kāi)源方案,并可媲美頂尖閉源模型。HunyuanCustom融合了文本、圖像、音頻、視頻等多模態(tài)輸入生視頻的能力,是一款具備高度控制力和生成質(zhì)量的智能視頻創(chuàng)作工具。
3月20日,階躍星辰開(kāi)源圖生視頻模型——Step-Video-TI2V,一款基于30B參數(shù)Step-Video-T2V訓(xùn)練的圖生視頻模型,支持生成102幀、5秒、540P分辨率的視頻,具備運(yùn)動(dòng)幅度可控和鏡頭運(yùn)動(dòng)可控兩大核心特點(diǎn),同時(shí)天生具備一定的特效生成能力。與此同時(shí),Step-Video-TI2V已完成與華為昇騰計(jì)算平臺(tái)的適配,并在魔樂(lè)社區(qū)(Modelers)上線。
2月25日,阿里云宣布視頻生成大模型萬(wàn)相2.1(Wan)開(kāi)源,此次開(kāi)源采用Apache2.0協(xié)議,14B和1.3B兩個(gè)參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開(kāi)源,同時(shí)支持文生視頻和圖生視頻任務(wù),全球開(kāi)發(fā)者可在Github、HuggingFace、魔搭社區(qū)下載體驗(yàn)。
天眼查知識(shí)產(chǎn)權(quán)信息顯示,近日,阿里巴巴有限公司申請(qǐng)的“一種圖生視頻方法和裝置”專利公布。摘要顯示,本發(fā)明實(shí)施例將包含目標(biāo)對(duì)象的源圖像輸入第一視頻生成模型得到素材視頻,根據(jù)素材視頻確定幀間變換矩陣序列,然后從源圖像中得到目標(biāo)對(duì)象對(duì)應(yīng)的對(duì)象掩碼圖像,將幀間變換矩陣序列應(yīng)用于對(duì)象掩碼圖像可得到多張掩碼圖像從而組成掩碼圖像序列,將幀間變換矩陣序列應(yīng)用于源圖像可得到多張目標(biāo)對(duì)象圖像從而組成目標(biāo)對(duì)象圖像序列,根據(jù)源圖像、掩碼圖像序列和目標(biāo)對(duì)象圖像序列確定目標(biāo)輸入數(shù)據(jù),將目標(biāo)輸入數(shù)據(jù)輸入支持局部重繪的第二視頻生成模型,得到對(duì)應(yīng)的目標(biāo)視頻。通過(guò)兩次模型生成視頻,實(shí)現(xiàn)了智能化端到端的圖生視頻,無(wú)需引入預(yù)設(shè)運(yùn)動(dòng)參數(shù)即可在保持目標(biāo)對(duì)象不擴(kuò)散的同時(shí),實(shí)現(xiàn)運(yùn)動(dòng)軌跡多樣性。
12月17日消息,谷歌今日宣布,其最新的AI視頻生成模型Veo 2正式亮相。據(jù)介紹,Veo 2模型能夠生成最高4K(4096 x 2160像素)分辨率、時(shí)長(zhǎng)達(dá)到2分鐘的視頻片段,相較于OpenAI的Sora模型,分辨率提升了4倍,視頻時(shí)長(zhǎng)增加了6倍。Veo 2模型不僅能夠在給定文本提示或文本和參考圖像的情況下生成視頻,還能更真實(shí)地模擬運(yùn)動(dòng)、流體動(dòng)力學(xué)和光的屬性,實(shí)現(xiàn)不同的鏡頭和電影效果,以及“細(xì)致入微”的人類表情。
Meta周一表示,它正在更新雷朋Meta智能眼鏡,該眼鏡具有實(shí)時(shí)人工智能視頻功能和實(shí)時(shí)語(yǔ)言翻譯功能。從周一開(kāi)始,該公司開(kāi)始推出v11軟件更新。該公司表示,在實(shí)時(shí)AI會(huì)話中,Meta AI可以看到用戶所看到的內(nèi)容,并更自然地與他們交談。用戶可以獲得實(shí)時(shí)、免提的幫助,無(wú)需說(shuō)“Hey Meta”就可以提出問(wèn)題,并可以自如參考他們之前討論過(guò)的內(nèi)容。用戶也可以隨時(shí)打斷,詢問(wèn)后續(xù)問(wèn)題或改變?cè)掝}。
12月17日消息,今日,圖森未來(lái)宣布正式發(fā)布圖生視頻大模型“Ruyi”,并將Ruyi-Mini-7B版本正式開(kāi)源,用戶可以從huggingface上下載使用。據(jù)介紹,Ruyi是一個(gè)基于DiT架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:一個(gè)Casual VAE模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個(gè)Diffusion Transformer負(fù)責(zé)壓縮后的視頻生成。模型的總參數(shù)量約為7.1B,使用了約200M個(gè)視頻片段進(jìn)行訓(xùn)練。Ruyi是圖森未來(lái)正式發(fā)布的第一款“圖生視頻”模型。
12月10日消息,字節(jié)跳動(dòng)視頻生成模型PixelDance已在豆包電腦版正式開(kāi)啟內(nèi)測(cè),部分用戶已開(kāi)通體驗(yàn)入口。內(nèi)測(cè)頁(yè)面顯示,用戶每日可免費(fèi)生成十支視頻。
12月10日消息,當(dāng)?shù)貢r(shí)間周一,OpenAI宣布正式向用戶開(kāi)放其AI視頻生成模型Sora。該系統(tǒng)可根據(jù)文本提示生成視頻。Sora將于當(dāng)天晚些時(shí)候向美國(guó)及其他市場(chǎng)ChatGPT付費(fèi)用戶開(kāi)放。新版工具Sora Turbo可生成最長(zhǎng)20秒視頻,并且可以提供這些視頻的多種變體。
12月3日消息,騰訊混元大模型今日宣布混元視頻生成大模型HunYuan Video正式上線,并開(kāi)源。該模型參數(shù)量130億,具備原生轉(zhuǎn)場(chǎng)和切鏡能力,一次生成視頻時(shí)長(zhǎng)為5s。從視頻生成效果看,HunYuan Video生成視頻遠(yuǎn)景幅度大、動(dòng)作流暢,在人文場(chǎng)景/人造場(chǎng)所、人、多主體組合這些類目上有較明顯優(yōu)勢(shì),其次在物品和動(dòng)物/微生物類目也有一定優(yōu)勢(shì)。據(jù)混元大模型相關(guān)負(fù)責(zé)人介紹,HunYuan Video此次上線的版本以文生視頻為主,生成視頻分辨率當(dāng)前為720P,此后不排除加更1080P/4k/8k分辨率版本,也不排除增加圖生視頻、視頻自動(dòng)配樂(lè)等功能。目前該模型已上線騰訊元寶APP,用戶可在AI應(yīng)用中的“AI視頻”板塊申請(qǐng)?jiān)囉谩?
本采購(gòu)包不接受聯(lián)合體投標(biāo)。
預(yù)算金額24202萬(wàn)元。
本項(xiàng)目不接受聯(lián)合體投標(biāo)。
3個(gè)包總預(yù)算為6599萬(wàn)元。
預(yù)算金額為1322.9963萬(wàn)元。
據(jù)潞晨科技微信公眾號(hào)9月26日消息,潞晨科技宣布完成數(shù)億元A++輪融資。北京市人工智能產(chǎn)業(yè)投資基金,Capstone Capital,領(lǐng)沨資本,石溪資本參與投資。潞晨科技表示,本輪融資后,公司將專注于打造:大模型時(shí)代的新DataBricks平臺(tái) ,最大化LLM的post-training和inference效率;世界一流視頻生成大模型 。
9月24日,在2024火山引擎AI創(chuàng)新巡展上,火山引擎總裁譚待宣布推出豆包.視頻生成模型。據(jù)他介紹,豆包.視頻生成模型具有高效的DIT融合計(jì)算單元,能更充分地壓縮編碼視頻與文本;還使用了全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,保證了多鏡頭生成的一致性;該模型還使用了深度優(yōu)化的Transformer結(jié)構(gòu),大幅提升了視頻生成的泛化能力。