9月26日,阿里通義千問正式發(fā)布Qwen3-Omni。據(jù)通義千問介紹,Qwen3-Omni是原生全模態(tài)大模型,預(yù)訓(xùn)練全模態(tài)不降智,并在36項(xiàng)音頻及音視頻基準(zhǔn)測(cè)試中獲32項(xiàng)開源SOTA與22項(xiàng)總體SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源強(qiáng)模型。
8月19日,通義千問宣布,推出Qwen-Image-Edit,Qwen-Image的圖像編輯版本。Qwen-Image-Edit基于20B的Qwen-Image模型進(jìn)?步訓(xùn)練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。
8月7日,阿里通義千問發(fā)布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。據(jù)通義千問介紹,在非推理領(lǐng)域,Qwen3-4B-Instruct-2507全面超越了閉源的GPT4.1-Nano;在推理領(lǐng)域,Qwen3-4B-Thinking-2507甚至可以媲美中等規(guī)模的Qwen3-30B-A3B(thinking)。目前新模型已在魔搭社區(qū)、HuggingFace正式開源。
6月28日,阿里推出多模態(tài)統(tǒng)一理解與生成模型Qwen VLo,用戶可通過Qwen Chat訪問該模型(預(yù)覽版)。Qwen VLo具有三大亮點(diǎn):理解和生成更準(zhǔn)確,支持開放指令編輯修改圖片,以及多語(yǔ)言指令支持。用戶可發(fā)送如“生成一張可愛貓咪的圖片”或“給貓咪頭上加頂帽子”等指令來(lái)生成或修改圖像。該模型還支持包括中文、英文在內(nèi)的多種語(yǔ)言指令,為全球用戶提供了便捷的交互體驗(yàn)。
通義千問3月27日宣布發(fā)布Qwen2.5-Omni,Qwen模型家族中新一代端到端多模態(tài)旗艦?zāi)P汀T撃P蛯槿轿欢嗄B(tài)感知設(shè)計(jì),能夠無(wú)縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實(shí)時(shí)流式響應(yīng)同時(shí)生成文本與自然語(yǔ)音合成輸出。該模型現(xiàn)已在Hugging Face、ModelScope、DashScope和GitHub上開源開放。
11月13日,據(jù)阿里云消息,阿里云通義大模型團(tuán)隊(duì)正式開源通義千問代碼模型全系列,共6款Qwen2.5-Coder模型。此次開源共推出0.5B/1.5B/3B/7B/14B/32B等6個(gè)尺寸的全系列模型,每個(gè)尺寸都開源了Base和Instruct模型。其中,Base模型可供開發(fā)者微調(diào),Instruct模型則是開箱即用的官方對(duì)齊模型。
9月19日云棲大會(huì),阿里云CTO周靖人發(fā)布通義千問新一代開源模型Qwen2.5,其中,旗艦?zāi)P蚎wen2.5-72B性能超越Llama 405B,再登全球開源大模型王座。Qwen2.5涵蓋多個(gè)尺寸的大語(yǔ)言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型,每個(gè)尺寸都有基礎(chǔ)版本、指令跟隨版本、量化版本,總計(jì)上架100多個(gè)模型,刷新業(yè)界紀(jì)錄。截至2024年9月中旬,通義千問開源模型累計(jì)下載量已突破4000萬(wàn),成為僅次于Llama的世界級(jí)模型群。
1月26日消息,阿里云公布了多模態(tài)大模型的最新研究成果,繼Plus版本之后,再次推出Max版本。Qwen-VL-Max模型在視覺推理方面展現(xiàn)出卓越的能力,可以理解并分析復(fù)雜的圖片信息,包括識(shí)人、答題、創(chuàng)作和寫代碼等任務(wù)。此外,該模型還具備視覺定位功能,可根據(jù)畫面指定區(qū)域進(jìn)行問答。目前,Qwen-VL-Plus和Qwen-VL-Max限時(shí)免費(fèi)向用戶開放。用戶可以在通義千問官網(wǎng)、通義千問APP直接體驗(yàn)Max版本模型的能力,也可以通過阿里云靈積平臺(tái)(DashScope)調(diào)用模型API。
本輪融資由Lerer Hippeau領(lǐng)投。