搜索到 21 條相關(guān)內(nèi)容

中國(guó)電信實(shí)現(xiàn)北斗語(yǔ)音消息服務(wù)

2025-10-30 15:29:23 分享至

10月30日消息，中國(guó)電信已率先公開(kāi)展示“北斗語(yǔ)音消息”服務(wù)，成為業(yè)內(nèi)首家實(shí)現(xiàn)北斗語(yǔ)音消息的運(yùn)營(yíng)商。

小米 REDMI Note15 Pro+ 衛(wèi)星消息版將升級(jí)，支持發(fā)送圖片、語(yǔ)音

2025-10-13 10:24:08 分享至

10月11日，小米R(shí)EDMI宣布，Note15 Pro+衛(wèi)星消息版即將升級(jí)北斗“富媒體通信”，支持發(fā)送圖片、語(yǔ)音。官方海報(bào)顯示，該功能僅支持中國(guó)移動(dòng)網(wǎng)絡(luò)，此功能需后續(xù)通過(guò)OTA升級(jí)支持，預(yù)計(jì)將于10月下旬開(kāi)始陸續(xù)推送。

小米衛(wèi)星消息

華為即將發(fā)布首款北斗衛(wèi)星語(yǔ)音消息智能手表

2025-09-24 16:50:23 分享至

9月24日，在第四屆北斗規(guī)模應(yīng)用國(guó)際峰會(huì)上，華為首款支持北斗衛(wèi)星語(yǔ)音消息智能手表曝光。國(guó)內(nèi)即將發(fā)布的華為WATCH Ultimate 2，將成為全球首款支持北斗衛(wèi)星語(yǔ)音消息的大眾智能終端設(shè)備，幫助用戶在野外無(wú)地面網(wǎng)絡(luò)的環(huán)境下，通過(guò)北斗衛(wèi)星語(yǔ)音消息傳遞信息。據(jù)介紹，自2022年以來(lái)，華為已有60+款產(chǎn)品為北斗衛(wèi)星消息提供移動(dòng)終端硬件，設(shè)備總量超過(guò)4000W+。

華為北斗衛(wèi)星

面壁智能：發(fā)布語(yǔ)音生成基座模型VoxCPM

2025-09-18 17:54:00 分享至

9月18日，面壁智能發(fā)布0.5B參數(shù)尺寸的語(yǔ)音生成基座模型VoxCPM。該模型由面壁智能與清華大學(xué)深圳國(guó)際研究生院人機(jī)語(yǔ)音交互實(shí)驗(yàn)室(THUHCSI)聯(lián)合研發(fā)。VoxCPM在合成語(yǔ)音的自然度、音色相似度及韻律表現(xiàn)力方面均達(dá)到了SOTA水平。目前，VoxCPM已在GitHub、Hugging Face等平臺(tái)開(kāi)源。

面壁智能模型

阿里通義推新一代語(yǔ)音模型Fun-ASR

2025-08-22 17:12:52 分享至

8月22日，記者獲悉，阿里通義發(fā)布新一代端到端的語(yǔ)音識(shí)別大模型Fun-ASR,該模型增強(qiáng)了上下文感知和高精度語(yǔ)音轉(zhuǎn)寫(xiě)能力，在家裝、保險(xiǎn)等多個(gè)行業(yè)場(chǎng)景的語(yǔ)音識(shí)別準(zhǔn)確率均提升了15%以上。目前，F(xiàn)un-ASR已應(yīng)用于會(huì)議字幕與同傳、智能紀(jì)要、語(yǔ)音助手等場(chǎng)景，未來(lái)該模型將進(jìn)一步在阿里云百煉上線。

阿里通義

Sam Altman郵件證實(shí)，OpenAI將開(kāi)發(fā)硬件語(yǔ)音AI Agent

2025-06-25 10:24:43 分享至

OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman表示，前幾天OpenAI刪除一切與設(shè)計(jì)師Jony Ive的信息。原因就是，OpenAI收購(gòu)公司的名字是io，與AI耳機(jī)公司iyO看起來(lái)很相似，所以被起訴了。Altman公布了與iyO的交涉郵件，除了展示了事情來(lái)龍去脈之外，還透露了一個(gè)重要信息，OpenAI收購(gòu)io的主要原因想開(kāi)發(fā)與硬件交互的語(yǔ)音AI Agent，進(jìn)軍AI硬件領(lǐng)域，并且一開(kāi)始想合作的對(duì)象是iyO。

OpenAI AI Agent

前百度滴滴算法大牛李先剛加入阿里，擔(dān)任語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人

2025-06-18 10:25:06 分享至

據(jù)媒體消息，原零一萬(wàn)物的李先剛已于6月初入職阿里，擔(dān)任通義語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人，職級(jí)P10。公開(kāi)資料顯示，李先剛博士畢業(yè)于北京大學(xué)，先后在百度、滴滴擔(dān)任首席算法工程師。離開(kāi)滴滴后，李先剛加入貝殼，任策略算法中心負(fù)責(zé)人。隨后李先剛加入零一萬(wàn)物團(tuán)隊(duì)，擔(dān)任聯(lián)合創(chuàng)始人、技術(shù)副總裁，后又離職回歸貝殼。

百度算法李先剛人事變動(dòng)阿里

雷神AI智能眼鏡發(fā)布：語(yǔ)音助理+攝像頭，首發(fā)價(jià)1799元起

2025-04-01 14:37:13 分享至

3月31日消息，雷神科技舉辦新品發(fā)布會(huì)，會(huì)上，雷神AI智能眼鏡正式發(fā)布。該眼鏡內(nèi)置AI語(yǔ)音助理功能、支持拍照，定價(jià)1999元（首發(fā)價(jià)1799元），配充電倉(cāng)2299元（首發(fā)價(jià)2099 元），5月30日發(fā)售。該眼鏡搭載4納米工藝高通驍龍AR1處理器，配備12MP1/3.57英寸攝像頭（6P光學(xué)鍍膜，支持人像優(yōu)化），內(nèi)置173毫安時(shí)電池，同時(shí)配備智能充電倉(cāng)，可以實(shí)現(xiàn)12次充電。此外，這款新品還支持豆包和DeepSeek AI模型，支持智能翻譯、智能游戲助手（號(hào)稱可提供最佳游戲策略）、智能健康顧問(wèn)等功能。

雷神 AI智能眼鏡

OpenAI首發(fā)語(yǔ)音Agent，智能體實(shí)現(xiàn)重大突破

2025-03-21 09:49:36 分享至

3月20日，OpenAI進(jìn)行了技術(shù)直播發(fā)布了三款全新語(yǔ)音模型，專用于開(kāi)發(fā)語(yǔ)音AI Agent。兩個(gè)是語(yǔ)音轉(zhuǎn)文本模型GPT-40 Transcribe和GPT-4 Mini Transcribe；一個(gè)是文本轉(zhuǎn)語(yǔ)音模型GPT-40 Mini TTS。OpenAI還特意開(kāi)發(fā)了一個(gè)新網(wǎng)站來(lái)展示新功能。

OpenAI Agent 智能體

阿里通義實(shí)驗(yàn)室語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人鄢志杰離職

2025-03-14 17:27:49 分享至

3月14日消息，阿里通義實(shí)驗(yàn)室語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人鄢志杰已于近期離職，離職時(shí)間為2月15日，按照以前的P序列比照，其職級(jí)為P10。鄢志杰2003年大學(xué)本科畢業(yè)，升入中科大語(yǔ)音實(shí)驗(yàn)室攻讀博士學(xué)位；2008年獲得博士學(xué)位后，鄢志杰在微軟亞洲研究院語(yǔ)音組擔(dān)任主管研究員。2015年加入阿里巴巴，曾擔(dān)任阿里IDST智能語(yǔ)音交互團(tuán)隊(duì)總監(jiān)。

阿里通義人事變動(dòng)

中興通訊三方成功驗(yàn)證手機(jī)直連低軌衛(wèi)星NR-NTN實(shí)時(shí)語(yǔ)音技術(shù)

2025-02-21 14:38:17 分享至

2月21日消息，中興通訊與中國(guó)移動(dòng)研究院及MediaTek共同完成了基于3GPP標(biāo)準(zhǔn)的手機(jī)直連低軌衛(wèi)星NR-NTN（新空口非地面網(wǎng)絡(luò)）實(shí)時(shí)語(yǔ)音實(shí)驗(yàn)室驗(yàn)證。實(shí)測(cè)結(jié)果顯示，衛(wèi)星電話呼叫建立時(shí)延僅需約1秒，空口語(yǔ)音單向時(shí)延控制在50ms以內(nèi)，同時(shí)支持手機(jī)衛(wèi)星寬帶業(yè)務(wù)。在透明轉(zhuǎn)發(fā)模式下，通過(guò)信道模擬器仿真LEO 600Km全動(dòng)態(tài)NTN信道條件，實(shí)測(cè)下行單波束峰值速率高達(dá)18 Mbps。

中興通訊手機(jī)直連低軌衛(wèi)星

豆包實(shí)時(shí)語(yǔ)音大模型上線

2025-01-21 09:59:21 分享至

豆包實(shí)時(shí)語(yǔ)音大模型于1月20日正式推出，并在豆包App全量開(kāi)放，將豆包App升級(jí)至7.2.0版本即可體驗(yàn)。據(jù)介紹，豆包實(shí)時(shí)語(yǔ)音大模型，是一款語(yǔ)音理解和生成一體化的模型，實(shí)現(xiàn)了端到端語(yǔ)音對(duì)話。相比傳統(tǒng)級(jí)聯(lián)模式，在語(yǔ)音表現(xiàn)力、控制力、情緒承接方面表現(xiàn)驚艷，并具備低時(shí)延、對(duì)話中可隨時(shí)打斷等特性。

豆包大模型

科大訊飛發(fā)布深度推理模型訊飛星火X1，同時(shí)首發(fā)星火語(yǔ)音同傳大模型

2025-01-15 10:41:15 分享至

據(jù)科大訊飛官方微博，1月15日，訊飛星火大模型升級(jí)發(fā)布，正式發(fā)布星火深度推理模型X1，訊飛星火4.0 Turbo底座能力迎來(lái)全新升級(jí)，同時(shí)首發(fā)星火語(yǔ)音同傳大模型。

科大訊飛訊飛星火大模型

Rokid新一代AR眼鏡將至：拍照翻譯、實(shí)時(shí)導(dǎo)航、AI語(yǔ)音聊天

2024-11-12 12:14:40 分享至

11月9日消息，Rokid宣布將于2024年11月18日在杭州舉辦Rokid Jungle 2024合作伙伴暨新品發(fā)布會(huì)，帶來(lái)新一代AR眼鏡和對(duì)AR行業(yè)的新思考。根據(jù)Rokid官方預(yù)熱，新一代AR眼鏡“集成了眾多創(chuàng)新元素于一體”，其功能和形態(tài)號(hào)稱“或許最接近人們對(duì)未來(lái)AR眼鏡的幻想”。Rokid稱該眼鏡適合全天候日常佩戴，支持“沉浸式音樂(lè)體驗(yàn)”，還可快速抓拍照片。此外，Rokid新一代AR眼鏡帶來(lái)了時(shí)下熱門(mén)的AI語(yǔ)音聊天功能，并支持實(shí)時(shí)導(dǎo)航，方便用戶出行。該眼鏡還支持多模態(tài)大模型，可進(jìn)行拍照翻譯等，進(jìn)一步豐富使用場(chǎng)景。

Rokid AR眼鏡

微軟亞研院前首席研究經(jīng)理譚旭加入月之暗面，研發(fā)類(lèi)似GPT- 4o的端到端語(yǔ)音模型

2024-10-23 10:08:23 分享至

微軟亞研院前首席研究經(jīng)理譚旭于8月加入大模型創(chuàng)業(yè)公司月之暗面，主要負(fù)責(zé)研發(fā)端到端語(yǔ)音模型。譚旭加入后，主要目標(biāo)之一是可能是幫月之暗面打造類(lèi)似GPT-4o的語(yǔ)音體驗(yàn)。

微軟人事變動(dòng)月之暗面 GPT- 4o 模型

OpenAI山姆·奧特曼：新款語(yǔ)音模型GPT-4o尚未發(fā)布

2024-05-16 11:31:18 分享至

OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官山姆·奧特曼當(dāng)?shù)貢r(shí)間5月15日就GPT-4o說(shuō)明稱，盡管GPT-4o的文本模式已經(jīng)發(fā)布，但語(yǔ)音模式還未發(fā)布。

OpenAI 奧特曼 GPT-4o

OpenAI用26分鐘再次震撼世界，新模型GPT-4o語(yǔ)音水平接近人類(lèi)

2024-05-14 10:40:48 分享至

北京時(shí)間5月14日凌晨，OpenAI再迎重磅更新，雖然不是AI搜索，也不是GPT-5，而是發(fā)布了新旗艦?zāi)Ｐ虶PT-4o，但也足以讓業(yè)內(nèi)震撼。在此次OpenAI 僅有26分鐘的春季發(fā)布會(huì)中，OpenAI首席技術(shù)官穆里·穆拉提（Muri Murati）宣布推出名為GPT-4o的新旗艦生成式AI模型，其集文本音頻視覺(jué)于一身，能力全新升級(jí)。此前不少爆料提到，OpenAI將推出AI搜索，與谷歌搜索競(jìng)爭(zhēng)，從而增強(qiáng)ChatGPT的功能并開(kāi)拓新市場(chǎng)，并稱這款產(chǎn)品將在谷歌本周的開(kāi)發(fā)者大會(huì)前推出。不過(guò)，OpenAI CEO山姆·奧特曼對(duì)此否認(rèn)，其表示，“不是 GPT-5，也不是搜索引擎，但我們一直在努力開(kāi)發(fā)一些我們認(rèn)為人們會(huì)喜歡的新東西！對(duì)我來(lái)說(shuō)就像魔法一樣?！?GPT-4o顯然就是奧特曼所說(shuō)的“像魔法一樣”的新東西。GPT-4o中的o就是Omni，其是拉丁語(yǔ)詞根，意思是全面、全能，奧特曼稱其“最好的模型”，并免費(fèi)開(kāi)放。

OpenAI GPT-4o

科大訊飛發(fā)布首個(gè)支持長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音的大模型

2024-04-26 13:23:51 分享至

4月26日，訊飛星火大模型V3.5春季上新。面向用戶高效準(zhǔn)確知識(shí)獲取的痛點(diǎn)，科大訊飛發(fā)布業(yè)界首個(gè)長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音大模型，能夠把各種信息來(lái)源的海量文本、圖文資料、會(huì)議錄音等進(jìn)行快速學(xué)習(xí)，在各種行業(yè)場(chǎng)景給出專業(yè)、準(zhǔn)確回答。此外，科大訊飛進(jìn)一步升級(jí)星火語(yǔ)音大模型，首發(fā)多情感超擬人合成，具備情緒表達(dá)能力，并推出一句話聲音復(fù)刻功能。面向企業(yè)應(yīng)用場(chǎng)景，科大訊飛推出星火智能體平臺(tái)。

科大訊飛大模型

科大訊飛：發(fā)布星火語(yǔ)音大模型和星火認(rèn)知大模型V3.5

2024-01-30 15:46:48 分享至

1月30日下午，科大訊飛首次發(fā)布星火語(yǔ)音大模型，在首批37個(gè)主流語(yǔ)種上已整體超越OpenAI公司推出的Whisper V3。星火語(yǔ)音大模型超擬人合聲MOS分達(dá)到4.5，擬人度超83%，保持在智能語(yǔ)音技術(shù)的國(guó)際領(lǐng)先水平?？拼笥嶏w同時(shí)發(fā)布星火認(rèn)知大模型V3.5。據(jù)悉，星火認(rèn)知大模型V3.5是在全國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”的基礎(chǔ)上訓(xùn)練出來(lái)的，相較于訊飛星火V3.0，在七大方面能力均有提升，其中語(yǔ)言理解、數(shù)學(xué)能力超過(guò)GPT-4 Turbo，代碼能力達(dá)到GPT-4 Turbo的96%，多模態(tài)理解能力達(dá)到GPT-4V的91%。