Blizzard Challenge是由美國(guó)和日本聯(lián)合發(fā)起的國(guó)際上規(guī)模最大、最具影響力的語音合成大賽,自2005年起,歷屆大賽吸引了美國(guó)卡耐基-梅隆大學(xué)、英國(guó)愛丁堡大學(xué)、日本名古屋工業(yè)大學(xué)、IBM研究院、微軟亞洲研究院等語音技術(shù)領(lǐng)域的世界一流科研機(jī)構(gòu)參加。
而在這樣高手云集的國(guó)際頂級(jí)賽事上,連續(xù)9年在多項(xiàng)指標(biāo)中獲得冠軍的卻是一支來自中國(guó)的隊(duì)伍——科大訊飛研發(fā)團(tuán)隊(duì)。
1999年以前,中文語音產(chǎn)業(yè)基本上控制在國(guó)外IT巨頭手中。微軟、IBM、Intel等紛紛在在中國(guó)設(shè)立語音研究基地,國(guó)內(nèi)語音專業(yè)優(yōu)秀畢業(yè)生基本上全部外流,中文語音產(chǎn)業(yè)被國(guó)外掐住了“咽喉”。
懷抱著“中文語音技術(shù)應(yīng)當(dāng)由中國(guó)人做到全球最好,中文語音產(chǎn)業(yè)應(yīng)當(dāng)掌握在中國(guó)人自己手中”的信念,1999年,以劉慶峰為首的18名在校大學(xué)生創(chuàng)立了科大訊飛,并不斷通過產(chǎn)學(xué)研合作的創(chuàng)新機(jī)制有效整合語音技術(shù)源頭資源,將中文語音技術(shù)做到了全球最高水平。
2004年,科大訊飛在國(guó)家863中文語音合成評(píng)測(cè)中囊括所有指標(biāo)第一。在此之后,我們開始將目光投向國(guó)際賽場(chǎng)。2005年,在了解到第一屆Blizzard Challenge的情況之后,訊飛首席科學(xué)家王仁華教授提出,“現(xiàn)在,我們已經(jīng)把中文語音合成做到了世界領(lǐng)先,明年我們是不是去國(guó)際比賽中試一試?”
團(tuán)隊(duì)成員們也都躍躍欲試,希望得到向世界一流科研機(jī)構(gòu)與高校學(xué)習(xí)的機(jī)會(huì),“那時(shí)沒有想過參賽能獲得什么名次,只是期待能到國(guó)際舞臺(tái)上‘亮劍’,衡量我們真實(shí)水平,大家當(dāng)時(shí)都卯足了一股勁。”當(dāng)時(shí)的團(tuán)隊(duì)成員江源回憶道。
2006年,科大訊飛代表大中華區(qū)參加Blizzard Challenge。參賽前,時(shí)任中國(guó)科學(xué)院院長(zhǎng)的路甬祥恰好來公司進(jìn)行視察,了解到科大訊飛要參加國(guó)際比賽的事情,“這是你們第一次參加世界性大賽,如果能獲得前三名就已經(jīng)很不錯(cuò)了。”
當(dāng)年的比賽規(guī)則要求在規(guī)定時(shí)間內(nèi)搭建出基于1000句和5000句兩個(gè)不同規(guī)模音庫的英文合成系統(tǒng),主辦方從可懂度和自然度兩個(gè)方面分別測(cè)試各個(gè)團(tuán)隊(duì)的語音合成效果。一般來說,從零開始搭建一個(gè)基于5000句規(guī)模音庫的高質(zhì)量語音合成系統(tǒng)需要至少半年以上的時(shí)間。而留給參賽者的時(shí)間只有一個(gè)月,按時(shí)完成的難度非常大。
訊飛研發(fā)團(tuán)隊(duì)克服了音庫規(guī)模大和時(shí)間緊的壓力,采用當(dāng)時(shí)國(guó)際上最先進(jìn)的基于統(tǒng)計(jì)聲學(xué)建模的參數(shù)語音合成方法完成了兩個(gè)參數(shù)系統(tǒng)的構(gòu)建,并在模型訓(xùn)練、參數(shù)生成等方面進(jìn)行了創(chuàng)新性的改進(jìn),系統(tǒng)優(yōu)化的工作一直持續(xù)到了規(guī)定提交的最后時(shí)刻!
結(jié)果,訊飛提交的參賽系統(tǒng)一舉獲得了小庫可懂度和自然度兩個(gè)指標(biāo)雙料第一,大庫可懂度第一、自然度第二的優(yōu)異成績(jī)!成為當(dāng)年大賽最大的“黑馬”,震驚了國(guó)際語音學(xué)界。因?yàn)?,中?guó)人不僅將中文語音技術(shù)做到了全球最好,而且可以將非母語的英文語音技術(shù)做到了全球最好!
世界知名語音研究機(jī)構(gòu)紛紛主動(dòng)與訊飛建立聯(lián)系。大賽組織者,國(guó)際知名語音學(xué)家、IEEE院士德田惠一教授還特地不遠(yuǎn)萬里的來到到訊飛參觀、交流??拼笥嶏w成功地在世界舞臺(tái)上發(fā)出了自己的聲音。
此后,從2006年至今連續(xù)9年的時(shí)間里,科大訊飛一路高歌猛進(jìn),在Blizzard Challenge中連續(xù)奪冠。這意味著中國(guó)人在語音合成技術(shù)上牢牢樹立了國(guó)際領(lǐng)先的地位!
回顧9年征程,這是科大訊飛核心技術(shù)的衛(wèi)冕之路,更是超越之路,創(chuàng)新之路!訊飛的研發(fā)團(tuán)隊(duì)通過比賽不斷開拓研究方向、提升國(guó)際化視野,有力地推動(dòng)了我國(guó)乃至國(guó)際智能語音技術(shù)與產(chǎn)業(yè)持續(xù)的向前發(fā)展。
下面就讓我們一起回顧科大訊飛語音合成研發(fā)團(tuán)隊(duì)在歷屆Blizzard Challenge中的精彩表現(xiàn)吧!
§ 2006年,首次參加Blizzard Challenge,科大訊飛即獲得可懂度和自然度兩個(gè)指標(biāo)雙料第一。
§ 2007年,測(cè)試音庫規(guī)模相較2006年擴(kuò)大了一倍,并新增相似度測(cè)試。科大訊飛的系統(tǒng)包攬自然度、相似度、可懂度全部第一。其中訊飛原創(chuàng)的基于統(tǒng)計(jì)聲學(xué)模型的單元挑選語音合成算法更是得到了語音合成研究領(lǐng)域的廣泛關(guān)注。
§ 2008年,參賽成員增加到20家,包括愛丁堡大學(xué)、卡內(nèi)基梅隆大學(xué)、IBM、東芝等國(guó)際一流高校和機(jī)構(gòu),面對(duì)強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手的挑戰(zhàn),科大訊飛一舉包攬了英文大庫、小庫自然度和相似度的第一。這是業(yè)界首次在自然度測(cè)試中獲得超出普通人說話水平的4.1分。
§ 2009年,比賽增加了三個(gè)可選項(xiàng)目:音色轉(zhuǎn)換合成、復(fù)雜信道合成、人機(jī)對(duì)話合成。這意味著對(duì)合成的效果提出了更高的要求。這一年,科大訊飛繼續(xù)獲得大庫相似度、自然度、可懂度測(cè)試指標(biāo)的第一名,在小庫和三個(gè)可選項(xiàng)目上也都取得了各項(xiàng)測(cè)試指標(biāo)前兩名的優(yōu)異成績(jī)。
§ 2010年,除了傳統(tǒng)合成項(xiàng)目持續(xù)領(lǐng)先,科大訊飛在新增的可選項(xiàng)目中繼續(xù)取得好成績(jī)。極小規(guī)模音庫合成獲得自然度第一、相似度可懂度第二,加噪語音合成獲得可懂度第三,高采樣率語音合成獲得自然度相似度第一。
§ 2011年,比賽首次增加小說類型測(cè)試文本,參賽系統(tǒng)需要利用10小時(shí)的女聲美式英語數(shù)據(jù),做出能夠自然、流暢朗讀小說的合成系統(tǒng)。面對(duì)更高的比賽要求,科大訊飛繼續(xù)保持領(lǐng)先地位,一舉獲得相似度、自然度雙料第一。
§ 2012年,測(cè)試小說類文本合成效果成為了比賽的重點(diǎn)。組織方提供了50小時(shí)英文小說朗讀數(shù)據(jù)但并無標(biāo)準(zhǔn)文本,需要依靠參賽方利用機(jī)器學(xué)習(xí)方法自動(dòng)處理。最終,科大訊飛在相似度、自然度、錯(cuò)誤率、段落感覺測(cè)試中全部取得第一,進(jìn)一步擴(kuò)大了我國(guó)在處理大規(guī)模語音數(shù)據(jù)以及合成小說類型文本領(lǐng)域的國(guó)際領(lǐng)先優(yōu)勢(shì)。
§ 2013年,比賽難度攀升,首次開展了印地語合成測(cè)試項(xiàng)目??拼笥嶏w在傳統(tǒng)項(xiàng)目上繼續(xù)保持了國(guó)際領(lǐng)先地位,并開創(chuàng)性的獲得了印地語、孟加拉語,泰米爾語三個(gè)語種的自然度第二名,展現(xiàn)了我國(guó)在語音合成技術(shù)方面的強(qiáng)大綜合優(yōu)勢(shì)。
§ 2014年,比賽首次將主要測(cè)試語種從英語語種全面轉(zhuǎn)換到非英語語種,要求提交的語音合成系統(tǒng)包括印地語、阿薩姆語等六種印度語種,并增加了這些語種與英文混讀情況下的合成測(cè)試,比賽難度進(jìn)一步提升。最終,科大訊飛研發(fā)團(tuán)隊(duì)提交的參賽系統(tǒng)獲得了印地語合成語音相似度與可懂度、印地語英語混讀合成語音相似度與自然度共計(jì)11項(xiàng)指標(biāo)的第一名,再次證明了我國(guó)在多語種語音合成等關(guān)鍵技術(shù)領(lǐng)域的國(guó)際領(lǐng)先優(yōu)勢(shì)
{{item.content}}