10月22日,除了發(fā)布其首款XR頭顯外,三星還宣布了其即將推出AI眼鏡的計(jì)劃。這家韓國(guó)科技巨頭已確認(rèn),未來(lái)將推出由人工智能驅(qū)動(dòng)的智能眼鏡,并正在與谷歌以及知名時(shí)尚眼鏡品牌合作開(kāi)發(fā)此類可穿戴設(shè)備。目前,三星尚未公布其AI眼鏡的具體名稱,但透露該產(chǎn)品將基于Android XR系統(tǒng)實(shí)現(xiàn)無(wú)縫連接體驗(yàn)。此前有報(bào)道稱,三星計(jì)劃于2026年推出首款無(wú)顯示功能的AI眼鏡,并在2027年發(fā)布配備增強(qiáng)現(xiàn)實(shí)(AR)顯示屏的版本。
10月14日,微軟發(fā)布自研AI文生圖模型MAI-Image-1。微軟表示,MAI-Image-1 “擅長(zhǎng)”閃電、風(fēng)景等逼真的圖像,它可以比“更大、更慢的模型”更快地處理請(qǐng)求并生成圖像。該模型已經(jīng)躋身人工智能基準(zhǔn)網(wǎng)站LMArena同類模型的前10名。
當(dāng)?shù)貢r(shí)間周三,谷歌律師約翰·施密特林在美國(guó)聯(lián)邦法院聽(tīng)證會(huì)上向法官阿米特·梅塔向法院表示,希望繼續(xù)捆綁熱門(mén)地圖和視頻應(yīng)用與Gemini AI服務(wù),以回應(yīng)美國(guó)司法部此前提出的禁止提議。施密特林強(qiáng)調(diào),“目前沒(méi)有任何跡象表明谷歌在人工智能市場(chǎng)已獲得壟斷地位或市場(chǎng)力量”,同時(shí)指出法院并未認(rèn)定谷歌地圖或YouTube構(gòu)成壟斷產(chǎn)品。
9月25日,月之暗面Kimi發(fā)布全新Agent模式OK Computer并開(kāi)啟灰度測(cè)試,OK Computer延續(xù)“模型即Agent”理念,通過(guò)端到端訓(xùn)練Kimi K2模型,進(jìn)一步提升智能體及工具調(diào)用能力。用戶下達(dá)需求后,Kimi可操作自身的虛擬電腦,完成多功能網(wǎng)站開(kāi)發(fā)、海量數(shù)據(jù)分析、圖片視頻生成及高品質(zhì)PPT制作等復(fù)雜任務(wù)。曾打賞過(guò)Kimi的用戶將獲得首批體驗(yàn)資格。
9月17日,日本地圖數(shù)據(jù)供應(yīng)商GeoTechnologies宣布與谷歌達(dá)成資本與業(yè)務(wù)合作,雙方將共同優(yōu)化谷歌地圖在日本的服務(wù),開(kāi)發(fā)基于人工智能的地圖數(shù)據(jù)庫(kù),并將技術(shù)應(yīng)用于自動(dòng)駕駛汽車安全領(lǐng)域。
9月17日,阿里巴巴宣布開(kāi)源其首個(gè)深度研究Agent模型——通義DeepResearch。該模型在HLE、BrowseComp-zh、GAIA等多個(gè)權(quán)威評(píng)測(cè)中取得SOTA成績(jī),表現(xiàn)超越OpenAI Deep Research及DeepSeek-V3.1等同類模型。通義DeepResearch具備強(qiáng)大的復(fù)雜任務(wù)推理與執(zhí)行能力,其模型、框架與技術(shù)方案已全面開(kāi)放,用戶可通過(guò)Github、Hugging Face和魔搭社區(qū)免費(fèi)下載使用,助力全球開(kāi)發(fā)者推動(dòng)智能體技術(shù)發(fā)展。
9月8日,四維圖新公告,公司正在籌劃以現(xiàn)金及資產(chǎn)形式參與PhiGent Robotics Limited新一輪融資。PhiGent Robotics Limited為北京鑒智科技有限公司母公司。此次交易旨在進(jìn)一步優(yōu)化戰(zhàn)略布局、增強(qiáng)綜合實(shí)力、構(gòu)建合理產(chǎn)業(yè)布局、提升核心競(jìng)爭(zhēng)力。交易完成后,雙方智駕業(yè)務(wù)將進(jìn)行融合,共同向車企提供基于地平線平臺(tái)、高通平臺(tái)覆蓋低中高階的智駕業(yè)務(wù)。目前,交易處于盡職調(diào)查、審計(jì)、評(píng)估階段,以及與主要股東協(xié)商確定交易方案。具體合作事宜明確后,公司將履行相應(yīng)的決策和審批流程,并及時(shí)披露相關(guān)信息。
9月4日,據(jù)媒體報(bào)道,蘋(píng)果公司已于本周和谷歌達(dá)成新的協(xié)議,開(kāi)始評(píng)估谷歌開(kāi)發(fā)的Gemini AI模型,而且已不再考慮收購(gòu)Perplexity。消息稱蘋(píng)果公司目前正在測(cè)試多種AI方案,除了自家研發(fā)的模型之外,還積極探索整合OpenAI、Anthropic、谷歌的技術(shù)。媒體透露蘋(píng)果目前尚未最終確定使用哪家技術(shù),但谷歌Gemini已成為重點(diǎn)考察對(duì)象,這一進(jìn)展標(biāo)志著雙方在AI領(lǐng)域的合作進(jìn)入實(shí)質(zhì)性測(cè)試階段。消息源還透露由于穩(wěn)固和谷歌的合作關(guān)系,蘋(píng)果已不再考慮收購(gòu)專注于AI搜索的Perplexity公司。
9月2日,騰訊優(yōu)圖實(shí)驗(yàn)室正式開(kāi)源智能體框架Youtu-Agent,旨在為研究人員和開(kāi)發(fā)者提供高效、易用、可復(fù)現(xiàn)的智能體開(kāi)發(fā)工具。據(jù)介紹,Youtu-Agent面向?qū)嶋H場(chǎng)景的開(kāi)源應(yīng)用框架,能夠覆蓋文件管理、數(shù)據(jù)分析、學(xué)術(shù)研究與廣域信息綜述等多個(gè)方向應(yīng)用。目前,Youtu-Agent開(kāi)源框架已為騰訊云多個(gè)產(chǎn)品業(yè)務(wù)提供支持。
9月2日消息,阿里通義實(shí)驗(yàn)室推出新一代智能體開(kāi)發(fā)框架——AgentScope 1.0。據(jù)介紹,AgentScope 1.0是一款以開(kāi)發(fā)者為核心,專注于多智能體開(kāi)發(fā)的開(kāi)源框架。它的核心目標(biāo)是解決智能體在構(gòu)建、運(yùn)行和管理中的難題,提供一套覆蓋“開(kāi)發(fā)、部署、監(jiān)控”全生命周期的生產(chǎn)級(jí)解決方案,讓智能體應(yīng)用的開(kāi)發(fā)更簡(jiǎn)單、運(yùn)行更安全、監(jiān)控更透明。
8月29日,OpenAI發(fā)布語(yǔ)音模型GPT-realtime。GPT-realtime是一個(gè)專用于語(yǔ)音AIAgent的多模態(tài)模型,能夠生成更加自然流暢的語(yǔ)音,完美模仿人類豐富多樣的語(yǔ)調(diào)、情感以及語(yǔ)速,支持圖像理解并將其與語(yǔ)音或文本對(duì)話相結(jié)合使用,非常適用于客服、教育、金融、醫(yī)療等領(lǐng)域打造語(yǔ)音智能體。GPT-realtime還新增了Marin與Cedar兩種極具特色的語(yǔ)音,同時(shí)對(duì)原有的8種語(yǔ)音也進(jìn)行了全面升級(jí)。
當(dāng)?shù)貢r(shí)間8月26日,谷歌正式推出了其最先進(jìn)的圖像生成與編輯模型Gemini 2.5 Flash Image,代號(hào)“納米香蕉”(nano banana)。該模型當(dāng)前在LMArena基準(zhǔn)測(cè)試中位列AI圖像編輯模型榜首,具備角色一致性保持、自然語(yǔ)言精準(zhǔn)修圖、多圖融合能力,并利用Gemini世界知識(shí)提升智能表現(xiàn)。目前用戶可通過(guò)Gemini App、API等方式訪問(wèn),其API定價(jià)為每百萬(wàn)輸出token30美元。
8月26日,據(jù)《讀佳》報(bào)道,字節(jié)的豆包內(nèi)部正在研發(fā)測(cè)試名為“3D Model Generator”的3D模型生成工具。該工具致力于可控大規(guī)模生成模型,為創(chuàng)建高質(zhì)量3D資產(chǎn)提供有力支持,尤其在游戲中的3D建模領(lǐng)域。該工具或不久后對(duì)外開(kāi)放使用。從測(cè)試頁(yè)面可以看出,“3D Model Generator”支持兩種生成方式,一種是基于圖像生成,選取本地圖像文件,點(diǎn)擊“生成”,即可快速生成3D模型,降低了3D建模的入門(mén)門(mén)檻。另外一種是基于圖像+模型生成,通過(guò)圖像文件與模型文件的結(jié)合,實(shí)現(xiàn)更復(fù)雜或更具針對(duì)性的3D資產(chǎn)創(chuàng)作。
8月22日消息,Meta據(jù)悉聘請(qǐng)?zhí)O果公司AI高管Frank Chu加入Superintelligence團(tuán)隊(duì)。
8月19日,通義千問(wèn)宣布,推出Qwen-Image-Edit,Qwen-Image的圖像編輯版本。Qwen-Image-Edit基于20B的Qwen-Image模型進(jìn)?步訓(xùn)練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。
8月14日消息,智元機(jī)器人推出面向真實(shí)世界機(jī)器人操控的統(tǒng)一世界模型平臺(tái)Genie Envisioner(GE)。 不同于傳統(tǒng)“數(shù)據(jù)—訓(xùn)練—評(píng)估”割裂的流水線模式,GE將未來(lái)幀預(yù)測(cè)、策略學(xué)習(xí)與仿真評(píng)估首次整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu),使機(jī)器人在同一世界模型中完成從“看”到“想”再到“動(dòng)”的端到端推理與執(zhí)行。
8月6日消息,寶馬i系列設(shè)計(jì)主管Kai Langer日前在領(lǐng)英發(fā)文宣布,在寶馬集團(tuán)工作了二十多年之后,于8月1日加入小米。根據(jù)領(lǐng)英資料,Kai Langer自2003年進(jìn)入寶馬集團(tuán),主要從事設(shè)計(jì)方面的工作。
8月6日消息,谷歌DeepMind宣布推出第三代通用的世界模型Genie 3,可以生成前所未有的多樣化交互式環(huán)境。給出文本提示,Genie 3可以生成動(dòng)態(tài)世界,可以以每秒24幀的速度實(shí)時(shí)導(dǎo)航,并以720p的分辨率保持幾分鐘的一致性。與前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3對(duì)直覺(jué)物理學(xué)的深刻理解)相比,Genie 3是第一個(gè)允許實(shí)時(shí)交互的世界模型,同時(shí)其一致性和真實(shí)感也得到了提升。
OpenAI通過(guò)技術(shù)直播發(fā)布ChatGPT統(tǒng)一智能體(ChatGPT Agent)。據(jù)介紹,ChatGPT Agent具備自主思考和行動(dòng)的能力,能夠主動(dòng)從其技能庫(kù)中選擇合適的工具,包括Operator、 Deep Research和ChatGPT來(lái)完成各種超復(fù)雜任務(wù)。
據(jù)報(bào)道,軟銀創(chuàng)始人孫正義與OpenAI首席執(zhí)行官山姆·奧爾特曼日前在“SoftBank World”大會(huì)上通過(guò)視頻連線展開(kāi)對(duì)話,他們認(rèn)為AI所激發(fā)的巨大需求使得算力持續(xù)擴(kuò)展勢(shì)在必行。奧爾特曼表示,“隨著人工智能成本下降,就會(huì)有更多的人想要使用它……全球?qū)χ悄艿男枨笫蔷薮蟮?。”奧爾特曼提到能夠制造其他機(jī)器人的機(jī)器人,孫正義則進(jìn)一步闡述了AI Agent具備自主學(xué)習(xí)能力,并能創(chuàng)造新Agent來(lái)提升生產(chǎn)力的構(gòu)想。他計(jì)劃今年在軟銀集團(tuán)內(nèi)部部署10億個(gè)AI Agent,并為其設(shè)計(jì)一個(gè)操作系統(tǒng)。