3sNews訊 為期兩天的2012地理信息開發(fā)者大會(簡稱:WGDC)在北京國家會議中心舉行,本次大會以“新技術(shù)、新模式、新商業(yè)”為主題,是地理信息領(lǐng)域最具影響力的技術(shù)性盛會,其宗旨是不斷引領(lǐng)和促進地理信息技術(shù)的創(chuàng)新與變革。在第二天的“Telematics與車載智能終端”分會場,深圳車音網(wǎng)科技有限公司總經(jīng)理王力劭發(fā)表了題為《基于地理信息的非結(jié)構(gòu)化語音識別搜索技術(shù)》的演講。
以下為文字實錄:
非常感謝各位在一個昏昏欲睡的時段還能堅持在聽我們的演講,也非常感謝地理信息開發(fā)者大會給我們這樣的機會去展示一下自己的應(yīng)用。
首先闡述一下什么叫Telematics,Telematics我們認為就是在移動過程當(dāng)中通過移動互聯(lián)網(wǎng)獲取信息的服務(wù)。其中地理信息尤其是位置信息的獲取是動態(tài)的,這就是Telematics。這是我們從市場上獲得的真實的Telematics用戶資料數(shù)據(jù),可以看到服務(wù)商全部的服務(wù)位置查詢占75%,位置服務(wù)查詢價值大概是在40%,在這樣的服務(wù)里面可以看到兩個信息,第一個信息,重大服務(wù)當(dāng)中基于位置服務(wù)的查詢和獲取是一個非常強烈的需求。第二,高端車德威治信息獲取需求強于一般車主的這說明高端車主可能跑的地方更多一些所以這樣的需求更多。
基于這樣的服務(wù)重要性,我把整個結(jié)構(gòu)變成了一種入口、兩個引擎。
一種入口,包括GUI是鍵盤鼠標(biāo)和屏幕的交互,一種是VUI,就是語音與界面的交互。VUI用的是口和耳的交互,通過語音識別之后在的聲音獲取,這個口和耳使人和機器更進一步。
兩個引擎。在語音識別過程中目前有兩類引擎,講這兩個引擎之前我先做一個結(jié)構(gòu)化搜索和非結(jié)構(gòu)化搜索的介紹。比如我們想搜索雍和宮2室100萬到150萬的房子,我們首先搜索雍和宮,然后是1號線或者2號線等等,這是結(jié)構(gòu)化的搜索。非結(jié)構(gòu)化搜索是后臺引擎進行過濾,提取重要的信息進行搜索。這也掀起了互聯(lián)網(wǎng)時代的革命,所以非結(jié)構(gòu)化搜索是通過入口完成的。語音識別的一般原理,比如用戶想去國家會議中心,我們通過聲音傳遞獲取之后,后端要識別出來,識別出來之后會得到相應(yīng)的說詞然后是語音處理,之后再通過語音智能通過模型分詞預(yù)取你的動機。動詞是要去,目標(biāo)是國家會議中心。這個過程之后系統(tǒng)會自動起動導(dǎo)航和定位?;谶@樣的一般原理非結(jié)構(gòu)化搜索我們提出了兩種引擎,一種是通用的引擎,它通過語音識別將用戶的動機獲取到,獲取到之后再通過知識庫提取你的意思,把它分成兩個階段,這個更著眼于識別的技術(shù)和AI的推理,是屬于演繹性的歸納?,F(xiàn)在作為以我們的理解來看,目前機器智能程度還沒有達到一個算法可依突破的極限,所以基于這種理解,我們玩一玩可以,但是深度利用還是有一定的問題。
這種引擎能力被大大的縮小了,但是專門的領(lǐng)域里,它的準(zhǔn)確度和可用度卻是大大提高。這是我們最近研究的垂直領(lǐng)域引擎這種方式是基于實際的統(tǒng)計,用戶到底會在某一個領(lǐng)域里說哪一些詞或者哪些句式形成的引擎。比如有這樣一個表格,橫向是表達方法,越靠近左邊的表達方法越常用,右邊的可能只有一兩個人想說的。比如更多的人可能會說,我想去哪兒,也有不少人你帶我到哪兒,可能很少有人說什么地方在哪兒,你能不能帶我去,這樣的人很少。所以構(gòu)成了這樣一個曲線,這個就是我們要處理語音的所有的內(nèi)容。我們把所有的地名,再加上問詢地名所有的方法,構(gòu)建起來以后最終形成一個封閉的數(shù)據(jù)和識別的空間。這個空間如果講識別,最后用戶效果其動態(tài)就是高準(zhǔn)確率和低相應(yīng)時間的。
3個緯度。一個是SOLOMO,一個是LBS,一個是O2O。第一種方式是會議中心在哪兒?第二種方式就是會議中心附近都有什么酒店或飯店?這是我們所求的一個點,第三種方式,從會議中心到雍和宮怎么走?我們可以通過一種模式求得一條路徑,這是一種查詢方式。另一種方式這是典型位置的社交,比如現(xiàn)在很多線下應(yīng)用,要么通過地理信息的應(yīng)用形成O2O?;谶@樣的理論,我們提出了地理信息在非結(jié)構(gòu)化語音搜索里面的三個緯度。第一個緯度是“實體內(nèi)涵”就是里求得的位置和名稱是什么,經(jīng)緯度在哪兒。第二個緯度是“外延”。就是找某一個酒店或者找某一類餐館、咖啡廳、加油站等等,通過實體的外延進行的搜索。第三個緯度“是通過熱度搜索”比如我們看更多人所關(guān)注的飯店,這是通過熱度進行搜索。所有基于語音非結(jié)構(gòu)化搜索最終都是由這三個緯度體現(xiàn)的。
基于這樣的一種應(yīng)用最后系統(tǒng)構(gòu)成是什么樣的,基于這個系統(tǒng)的視角我們可以看到語音輸入通過移動互聯(lián)網(wǎng)、IVR、把語音送到了識別器,由識別器進行了處理,然后再通過并行的搜索方式,軟件通過并行的方式,硬件通過網(wǎng)格計算、負載均衡,最后通過熱度排序反饋給用戶最需要的結(jié)果。這是非結(jié)構(gòu)化在地理信息上典型的應(yīng)用。
從用戶視角,用戶可以說周邊的加油站在哪兒,就是系統(tǒng)識別和搜索所得到的一系列的加油站,這些加油站有可能會按照價格最低、用戶到達頻率最高、或者用戶評價指數(shù)最高這樣的方式排序,最后給用戶。用戶此時所獲得的信息就是通過檢索獲得的,這個信息對他來說是最有用的。
這樣一個平臺大致的結(jié)構(gòu)。四層:
一是基于語音特征庫的,如果在車載產(chǎn)品尤其導(dǎo)航服務(wù)中,能夠讓語音產(chǎn)品介入,其實更在意的時候口音容忍度和抗音性,我們花了大量時間形成了語音特征庫。有語法庫和搜索引擎,在引擎之上可以通過網(wǎng)絡(luò)和IVR引入我們的數(shù)據(jù),在應(yīng)用平臺層可以提供數(shù)據(jù)挖掘、數(shù)據(jù)下發(fā)等等。第三層,我們提供了供車載環(huán)境的接口,能夠輕易的做APP,這個平臺可以是租用的方式調(diào)用。
最后我想講五個問題。實際上語音識別作為目前全球能夠掌握的并不多的高端識別技術(shù),語音識別能夠達到的可用性和未來發(fā)展空間,我們認為還有很多工作要做。語音識別只能用在最合適的平臺和環(huán)境,如果超越了語音識別本身的特性,目前的局限性我們不承認的話,會帶來很多問題。我們實際跟車廠服務(wù)和車主服務(wù)最難解決的五個問題:
1、口音問題,2、實體別名,自然交互的語音意圖,信源錯誤,信源干擾下的容錯算法。
第一個是語音識別真正做到很好的應(yīng)用還有口音的問題;第二個是實體別名的問題,我們愛聽一段錄音,這是很典型的別名問題,比如央視主樓有一個大家耳熟能詳?shù)膭e名,這種別名我們?nèi)绾螀^(qū)分,這也是一個問題。我們處理過1500萬的POI,深度挖掘,發(fā)現(xiàn)15%到25%左右存在著別名的叫法,這對語音識別來說是很難很難達到的。
第三個是自然交互的語音意圖。比如在南昌,我說請導(dǎo)航到北京飯店,按照這個話搜索原理會分詞猜測你的意圖,發(fā)現(xiàn)是北京,在南昌搜北京飯店,可以有這樣一條路到達,但是非結(jié)構(gòu)化搜索很有可能是你穿越了大半個中國到了北京,所以這也是我們的一個課題,也是我們正在攻克的難題。
第四個信源錯誤,信源本身發(fā)生的不可確定的情況下語音識別是沒有辦法解決的,它是信源發(fā)生錯誤后臺OI同時發(fā)生錯誤的現(xiàn)象。
還有一個就是信源干擾下的容錯算法,就是信來周圍發(fā)生了一種語音干擾進來的時候,那出現(xiàn)的問題并不可預(yù)知。所以語音搜索未來達到實用小首先要突破的重要問題是這五個。我們認為雖然面臨這樣的一些難題,但是我很開幕式的那個大片的一句話說“人類的視野從最早木取可視的范圍之內(nèi),能夠發(fā)展到今天能夠以上帝的眼光俯視世界”,隨著搜索技術(shù)和非結(jié)構(gòu)式搜索的到來,我們認為基于地理信息的語音識別系統(tǒng),沒有什么是不可能的,謝謝!
(以上內(nèi)容根據(jù)速記整理,未經(jīng)本人審核)
{{item.content}}