當?shù)貢r間8月26日,谷歌正式推出了其最先進的圖像生成與編輯模型Gemini 2.5 Flash Image,代號“納米香蕉”(nano banana)。該模型當前在LMArena基準測試中位列AI圖像編輯模型榜首,具備角色一致性保持、自然語言精準修圖、多圖融合能力,并利用Gemini世界知識提升智能表現(xiàn)。目前用戶可通過Gemini App、API等方式訪問,其API定價為每百萬輸出token30美元。
8月19日,通義千問宣布,推出Qwen-Image-Edit,Qwen-Image的圖像編輯版本。Qwen-Image-Edit基于20B的Qwen-Image模型進?步訓練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實現(xiàn)了對圖片中文字的精準編輯。
5月15日消息,谷歌宣布推出Imagen文生圖模型,相較于其他同類產(chǎn)品具備更高的細節(jié)調(diào)整功能,逼真的光線和更少的干擾,能夠從草圖快速升成高分辨率圖像。