OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman表示,前幾天OpenAI刪除一切與設(shè)計師Jony Ive的信息。原因就是,OpenAI收購公司的名字是io,與AI耳機公司iyO看起來很相似,所以被起訴了。Altman公布了與iyO的交涉郵件,除了展示了事情來龍去脈之外,還透露了一個重要信息,OpenAI收購io的主要原因想開發(fā)與硬件交互的語音AI Agent,進軍AI硬件領(lǐng)域,并且一開始想合作的對象是iyO。
據(jù)媒體消息,原零一萬物的李先剛已于6月初入職阿里,擔(dān)任通義語音實驗室負責(zé)人,職級P10。公開資料顯示,李先剛博士畢業(yè)于北京大學(xué),先后在百度、滴滴擔(dān)任首席算法工程師。離開滴滴后,李先剛加入貝殼,任策略算法中心負責(zé)人。隨后李先剛加入零一萬物團隊,擔(dān)任聯(lián)合創(chuàng)始人、技術(shù)副總裁,后又離職回歸貝殼。
3月31日消息,雷神科技舉辦新品發(fā)布會,會上,雷神AI智能眼鏡正式發(fā)布。該眼鏡內(nèi)置AI語音助理功能、支持拍照,定價1999元(首發(fā)價1799元),配充電倉2299元(首發(fā)價2099 元),5月30日發(fā)售。該眼鏡搭載4納米工藝高通驍龍AR1處理器,配備12MP1/3.57英寸攝像頭(6P光學(xué)鍍膜,支持人像優(yōu)化),內(nèi)置173毫安時電池,同時配備智能充電倉,可以實現(xiàn)12次充電。此外,這款新品還支持豆包和DeepSeek AI模型,支持智能翻譯、智能游戲助手(號稱可提供最佳游戲策略)、智能健康顧問等功能。
3月20日,OpenAI進行了技術(shù)直播發(fā)布了三款全新語音模型,專用于開發(fā)語音AI Agent。兩個是語音轉(zhuǎn)文本模型GPT-40 Transcribe和GPT-4 Mini Transcribe;一個是文本轉(zhuǎn)語音模型GPT-40 Mini TTS。OpenAI還特意開發(fā)了一個新網(wǎng)站來展示新功能。
3月14日消息,阿里通義實驗室語音團隊負責(zé)人鄢志杰已于近期離職,離職時間為2月15日,按照以前的P序列比照,其職級為P10。鄢志杰2003年大學(xué)本科畢業(yè),升入中科大語音實驗室攻讀博士學(xué)位;2008年獲得博士學(xué)位后,鄢志杰在微軟亞洲研究院語音組擔(dān)任主管研究員。2015年加入阿里巴巴,曾擔(dān)任阿里IDST智能語音交互團隊總監(jiān)。
2月21日消息,中興通訊與中國移動研究院及MediaTek共同完成了基于3GPP標準的手機直連低軌衛(wèi)星NR-NTN(新空口非地面網(wǎng)絡(luò))實時語音實驗室驗證。實測結(jié)果顯示,衛(wèi)星電話呼叫建立時延僅需約1秒,空口語音單向時延控制在50ms以內(nèi),同時支持手機衛(wèi)星寬帶業(yè)務(wù)。在透明轉(zhuǎn)發(fā)模式下,通過信道模擬器仿真LEO 600Km全動態(tài)NTN信道條件,實測下行單波束峰值速率高達18 Mbps。
豆包實時語音大模型于1月20日正式推出,并在豆包App全量開放,將豆包App升級至7.2.0版本即可體驗。據(jù)介紹,豆包實時語音大模型,是一款語音理解和生成一體化的模型,實現(xiàn)了端到端語音對話。相比傳統(tǒng)級聯(lián)模式,在語音表現(xiàn)力、控制力、情緒承接方面表現(xiàn)驚艷,并具備低時延、對話中可隨時打斷等特性。
據(jù)科大訊飛官方微博,1月15日,訊飛星火大模型升級發(fā)布,正式發(fā)布星火深度推理模型X1,訊飛星火4.0 Turbo底座能力迎來全新升級,同時首發(fā)星火語音同傳大模型。
11月9日消息,Rokid宣布將于2024年11月18日在杭州舉辦Rokid Jungle 2024合作伙伴暨新品發(fā)布會,帶來新一代AR眼鏡和對AR行業(yè)的新思考。根據(jù)Rokid官方預(yù)熱,新一代AR眼鏡“集成了眾多創(chuàng)新元素于一體”,其功能和形態(tài)號稱“或許最接近人們對未來AR眼鏡的幻想”。Rokid稱該眼鏡適合全天候日常佩戴,支持“沉浸式音樂體驗”,還可快速抓拍照片。此外,Rokid新一代AR眼鏡帶來了時下熱門的AI語音聊天功能,并支持實時導(dǎo)航,方便用戶出行。該眼鏡還支持多模態(tài)大模型,可進行拍照翻譯等,進一步豐富使用場景。
微軟亞研院前首席研究經(jīng)理譚旭于8月加入大模型創(chuàng)業(yè)公司月之暗面,主要負責(zé)研發(fā)端到端語音模型。譚旭加入后,主要目標之一是可能是幫月之暗面打造類似GPT-4o的語音體驗。
OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官山姆·奧特曼當?shù)貢r間5月15日就GPT-4o說明稱,盡管GPT-4o的文本模式已經(jīng)發(fā)布,但語音模式還未發(fā)布。
北京時間5月14日凌晨,OpenAI再迎重磅更新,雖然不是AI搜索,也不是GPT-5,而是發(fā)布了新旗艦?zāi)P虶PT-4o,但也足以讓業(yè)內(nèi)震撼。 在此次OpenAI 僅有26分鐘的春季發(fā)布會中,OpenAI首席技術(shù)官穆里·穆拉提(Muri Murati)宣布推出名為GPT-4o的新旗艦生成式AI模型,其集文本音頻視覺于一身,能力全新升級。 此前不少爆料提到,OpenAI將推出AI搜索,與谷歌搜索競爭,從而增強ChatGPT的功能并開拓新市場,并稱這款產(chǎn)品將在谷歌本周的開發(fā)者大會前推出。 不過,OpenAI CEO山姆·奧特曼對此否認,其表示,“不是 GPT-5,也不是搜索引擎,但我們一直在努力開發(fā)一些我們認為人們會喜歡的新東西!對我來說就像魔法一樣?!?GPT-4o顯然就是奧特曼所說的“像魔法一樣”的新東西。GPT-4o中的o就是Omni,其是拉丁語詞根,意思是全面、全能,奧特曼稱其“最好的模型”,并免費開放。
4月26日,訊飛星火大模型V3.5春季上新。面向用戶高效準確知識獲取的痛點,科大訊飛發(fā)布業(yè)界首個長文本、長圖文、長語音大模型,能夠把各種信息來源的海量文本、圖文資料、會議錄音等進行快速學(xué)習(xí),在各種行業(yè)場景給出專業(yè)、準確回答。此外,科大訊飛進一步升級星火語音大模型,首發(fā)多情感超擬人合成,具備情緒表達能力,并推出一句話聲音復(fù)刻功能。 面向企業(yè)應(yīng)用場景,科大訊飛推出星火智能體平臺。
1月30日下午,科大訊飛首次發(fā)布星火語音大模型,在首批37個主流語種上已整體超越OpenAI公司推出的Whisper V3。星火語音大模型超擬人合聲MOS分達到4.5,擬人度超83%,保持在智能語音技術(shù)的國際領(lǐng)先水平??拼笥嶏w同時發(fā)布星火認知大模型V3.5。據(jù)悉,星火認知大模型V3.5是在全國產(chǎn)算力平臺“飛星一號”的基礎(chǔ)上訓(xùn)練出來的,相較于訊飛星火V3.0,在七大方面能力均有提升,其中語言理解、數(shù)學(xué)能力超過GPT-4 Turbo,代碼能力達到GPT-4 Turbo的96%,多模態(tài)理解能力達到GPT-4V的91%。
近日,SpaceX發(fā)布了一個新的網(wǎng)絡(luò)頁面,用于推廣其即將推出的“Starlink Direct to Cell”(星鏈直連手機)服務(wù),該服務(wù)計劃通過衛(wèi)星為“現(xiàn)有LTE手機”提供蜂窩數(shù)據(jù)連接。PCMag報道稱,星鏈會在2024年提供針對手機的短信服務(wù),在2025年會提供語音和數(shù)據(jù)功能,同時支持物聯(lián)網(wǎng)設(shè)備。