10月22日,除了發(fā)布其首款XR頭顯外,三星還宣布了其即將推出AI眼鏡的計劃。這家韓國科技巨頭已確認(rèn),未來將推出由人工智能驅(qū)動的智能眼鏡,并正在與谷歌以及知名時尚眼鏡品牌合作開發(fā)此類可穿戴設(shè)備。目前,三星尚未公布其AI眼鏡的具體名稱,但透露該產(chǎn)品將基于Android XR系統(tǒng)實現(xiàn)無縫連接體驗。此前有報道稱,三星計劃于2026年推出首款無顯示功能的AI眼鏡,并在2027年發(fā)布配備增強(qiáng)現(xiàn)實(AR)顯示屏的版本。
10月14日,微軟發(fā)布自研AI文生圖模型MAI-Image-1。微軟表示,MAI-Image-1 “擅長”閃電、風(fēng)景等逼真的圖像,它可以比“更大、更慢的模型”更快地處理請求并生成圖像。該模型已經(jīng)躋身人工智能基準(zhǔn)網(wǎng)站LMArena同類模型的前10名。
當(dāng)?shù)貢r間周三,谷歌律師約翰·施密特林在美國聯(lián)邦法院聽證會上向法官阿米特·梅塔向法院表示,希望繼續(xù)捆綁熱門地圖和視頻應(yīng)用與Gemini AI服務(wù),以回應(yīng)美國司法部此前提出的禁止提議。施密特林強(qiáng)調(diào),“目前沒有任何跡象表明谷歌在人工智能市場已獲得壟斷地位或市場力量”,同時指出法院并未認(rèn)定谷歌地圖或YouTube構(gòu)成壟斷產(chǎn)品。
9月25日,月之暗面Kimi發(fā)布全新Agent模式OK Computer并開啟灰度測試,OK Computer延續(xù)“模型即Agent”理念,通過端到端訓(xùn)練Kimi K2模型,進(jìn)一步提升智能體及工具調(diào)用能力。用戶下達(dá)需求后,Kimi可操作自身的虛擬電腦,完成多功能網(wǎng)站開發(fā)、海量數(shù)據(jù)分析、圖片視頻生成及高品質(zhì)PPT制作等復(fù)雜任務(wù)。曾打賞過Kimi的用戶將獲得首批體驗資格。
9月17日,日本地圖數(shù)據(jù)供應(yīng)商GeoTechnologies宣布與谷歌達(dá)成資本與業(yè)務(wù)合作,雙方將共同優(yōu)化谷歌地圖在日本的服務(wù),開發(fā)基于人工智能的地圖數(shù)據(jù)庫,并將技術(shù)應(yīng)用于自動駕駛汽車安全領(lǐng)域。
9月17日,阿里巴巴宣布開源其首個深度研究Agent模型——通義DeepResearch。該模型在HLE、BrowseComp-zh、GAIA等多個權(quán)威評測中取得SOTA成績,表現(xiàn)超越OpenAI Deep Research及DeepSeek-V3.1等同類模型。通義DeepResearch具備強(qiáng)大的復(fù)雜任務(wù)推理與執(zhí)行能力,其模型、框架與技術(shù)方案已全面開放,用戶可通過Github、Hugging Face和魔搭社區(qū)免費下載使用,助力全球開發(fā)者推動智能體技術(shù)發(fā)展。
9月8日,四維圖新公告,公司正在籌劃以現(xiàn)金及資產(chǎn)形式參與PhiGent Robotics Limited新一輪融資。PhiGent Robotics Limited為北京鑒智科技有限公司母公司。此次交易旨在進(jìn)一步優(yōu)化戰(zhàn)略布局、增強(qiáng)綜合實力、構(gòu)建合理產(chǎn)業(yè)布局、提升核心競爭力。交易完成后,雙方智駕業(yè)務(wù)將進(jìn)行融合,共同向車企提供基于地平線平臺、高通平臺覆蓋低中高階的智駕業(yè)務(wù)。目前,交易處于盡職調(diào)查、審計、評估階段,以及與主要股東協(xié)商確定交易方案。具體合作事宜明確后,公司將履行相應(yīng)的決策和審批流程,并及時披露相關(guān)信息。
9月4日,據(jù)媒體報道,蘋果公司已于本周和谷歌達(dá)成新的協(xié)議,開始評估谷歌開發(fā)的Gemini AI模型,而且已不再考慮收購Perplexity。消息稱蘋果公司目前正在測試多種AI方案,除了自家研發(fā)的模型之外,還積極探索整合OpenAI、Anthropic、谷歌的技術(shù)。媒體透露蘋果目前尚未最終確定使用哪家技術(shù),但谷歌Gemini已成為重點考察對象,這一進(jìn)展標(biāo)志著雙方在AI領(lǐng)域的合作進(jìn)入實質(zhì)性測試階段。消息源還透露由于穩(wěn)固和谷歌的合作關(guān)系,蘋果已不再考慮收購專注于AI搜索的Perplexity公司。
9月2日,騰訊優(yōu)圖實驗室正式開源智能體框架Youtu-Agent,旨在為研究人員和開發(fā)者提供高效、易用、可復(fù)現(xiàn)的智能體開發(fā)工具。據(jù)介紹,Youtu-Agent面向?qū)嶋H場景的開源應(yīng)用框架,能夠覆蓋文件管理、數(shù)據(jù)分析、學(xué)術(shù)研究與廣域信息綜述等多個方向應(yīng)用。目前,Youtu-Agent開源框架已為騰訊云多個產(chǎn)品業(yè)務(wù)提供支持。
9月2日消息,阿里通義實驗室推出新一代智能體開發(fā)框架——AgentScope 1.0。據(jù)介紹,AgentScope 1.0是一款以開發(fā)者為核心,專注于多智能體開發(fā)的開源框架。它的核心目標(biāo)是解決智能體在構(gòu)建、運行和管理中的難題,提供一套覆蓋“開發(fā)、部署、監(jiān)控”全生命周期的生產(chǎn)級解決方案,讓智能體應(yīng)用的開發(fā)更簡單、運行更安全、監(jiān)控更透明。
8月29日,OpenAI發(fā)布語音模型GPT-realtime。GPT-realtime是一個專用于語音AIAgent的多模態(tài)模型,能夠生成更加自然流暢的語音,完美模仿人類豐富多樣的語調(diào)、情感以及語速,支持圖像理解并將其與語音或文本對話相結(jié)合使用,非常適用于客服、教育、金融、醫(yī)療等領(lǐng)域打造語音智能體。GPT-realtime還新增了Marin與Cedar兩種極具特色的語音,同時對原有的8種語音也進(jìn)行了全面升級。
當(dāng)?shù)貢r間8月26日,谷歌正式推出了其最先進(jìn)的圖像生成與編輯模型Gemini 2.5 Flash Image,代號“納米香蕉”(nano banana)。該模型當(dāng)前在LMArena基準(zhǔn)測試中位列AI圖像編輯模型榜首,具備角色一致性保持、自然語言精準(zhǔn)修圖、多圖融合能力,并利用Gemini世界知識提升智能表現(xiàn)。目前用戶可通過Gemini App、API等方式訪問,其API定價為每百萬輸出token30美元。
8月26日,據(jù)《讀佳》報道,字節(jié)的豆包內(nèi)部正在研發(fā)測試名為“3D Model Generator”的3D模型生成工具。該工具致力于可控大規(guī)模生成模型,為創(chuàng)建高質(zhì)量3D資產(chǎn)提供有力支持,尤其在游戲中的3D建模領(lǐng)域。該工具或不久后對外開放使用。從測試頁面可以看出,“3D Model Generator”支持兩種生成方式,一種是基于圖像生成,選取本地圖像文件,點擊“生成”,即可快速生成3D模型,降低了3D建模的入門門檻。另外一種是基于圖像+模型生成,通過圖像文件與模型文件的結(jié)合,實現(xiàn)更復(fù)雜或更具針對性的3D資產(chǎn)創(chuàng)作。
8月22日消息,Meta據(jù)悉聘請?zhí)O果公司AI高管Frank Chu加入Superintelligence團(tuán)隊。
8月19日,通義千問宣布,推出Qwen-Image-Edit,Qwen-Image的圖像編輯版本。Qwen-Image-Edit基于20B的Qwen-Image模型進(jìn)?步訓(xùn)練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實現(xiàn)了對圖片中文字的精準(zhǔn)編輯。
8月14日消息,智元機(jī)器人推出面向真實世界機(jī)器人操控的統(tǒng)一世界模型平臺Genie Envisioner(GE)。 不同于傳統(tǒng)“數(shù)據(jù)—訓(xùn)練—評估”割裂的流水線模式,GE將未來幀預(yù)測、策略學(xué)習(xí)與仿真評估首次整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu),使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行。
8月6日消息,寶馬i系列設(shè)計主管Kai Langer日前在領(lǐng)英發(fā)文宣布,在寶馬集團(tuán)工作了二十多年之后,于8月1日加入小米。根據(jù)領(lǐng)英資料,Kai Langer自2003年進(jìn)入寶馬集團(tuán),主要從事設(shè)計方面的工作。
8月6日消息,谷歌DeepMind宣布推出第三代通用的世界模型Genie 3,可以生成前所未有的多樣化交互式環(huán)境。給出文本提示,Genie 3可以生成動態(tài)世界,可以以每秒24幀的速度實時導(dǎo)航,并以720p的分辨率保持幾分鐘的一致性。與前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3對直覺物理學(xué)的深刻理解)相比,Genie 3是第一個允許實時交互的世界模型,同時其一致性和真實感也得到了提升。
OpenAI通過技術(shù)直播發(fā)布ChatGPT統(tǒng)一智能體(ChatGPT Agent)。據(jù)介紹,ChatGPT Agent具備自主思考和行動的能力,能夠主動從其技能庫中選擇合適的工具,包括Operator、 Deep Research和ChatGPT來完成各種超復(fù)雜任務(wù)。
據(jù)報道,軟銀創(chuàng)始人孫正義與OpenAI首席執(zhí)行官山姆·奧爾特曼日前在“SoftBank World”大會上通過視頻連線展開對話,他們認(rèn)為AI所激發(fā)的巨大需求使得算力持續(xù)擴(kuò)展勢在必行。奧爾特曼表示,“隨著人工智能成本下降,就會有更多的人想要使用它……全球?qū)χ悄艿男枨笫蔷薮蟮?。”奧爾特曼提到能夠制造其他機(jī)器人的機(jī)器人,孫正義則進(jìn)一步闡述了AI Agent具備自主學(xué)習(xí)能力,并能創(chuàng)造新Agent來提升生產(chǎn)力的構(gòu)想。他計劃今年在軟銀集團(tuán)內(nèi)部部署10億個AI Agent,并為其設(shè)計一個操作系統(tǒng)。