3sNews訊 2012地理信息開發(fā)者大會在北京國家會議中心舉辦,北京捷通華聲語音技術(shù)有限公司總經(jīng)理武衛(wèi)東在接受3sNews專訪時表示,未來三年五年,語音交互實際上作為一種非常好的、非常便捷的,跟人的生物特征契合度非常高的交互手段,一定會有很廣闊的市場。
北京捷通華聲語音技術(shù)有限公司總經(jīng)理武衛(wèi)東
3sNews:捷通華聲的業(yè)務(wù)長項是什么?
武衛(wèi)東:捷通華聲創(chuàng)立了12年,其實,捷通軟件在98年就已經(jīng)創(chuàng)建。我們主要進行語音識別技術(shù)、手寫識別技術(shù)的研發(fā)和應(yīng)用。
從技術(shù)來講,在2000年,我們在成立捷通華聲的時候,請到了中科院聲研究所的教授,這也是國內(nèi)做語音的泰斗級的權(quán)威,到捷通華聲作為我們首席科學(xué)家,開始創(chuàng)建為我們語音識別這塊搭建整個的研發(fā)核心隊伍,所以在技術(shù)上我們是有基礎(chǔ)的。特別的是我們公司另外一個首席科學(xué)家,也是北大的顧小鳳教授,是國內(nèi)模式識別里的泰斗級的科學(xué)家,創(chuàng)建了我們手寫識別技術(shù)。
公司近十年的業(yè)務(wù)基本上有兩大塊。一塊是基于語音手寫人機交互技術(shù)的核心業(yè)務(wù),另外在移動互聯(lián)網(wǎng)領(lǐng)域。
隨著移動互聯(lián)網(wǎng),包括云計算服務(wù)的發(fā)展,公司從原來的核心技術(shù)的授權(quán)提供商,向一些平臺級的解決方案的服務(wù)提供商轉(zhuǎn)型。所以,我們現(xiàn)在從原來的賣SDK,現(xiàn)在做平臺級的服務(wù),包括深入到一些行業(yè)。而且從原來僅僅是語音技術(shù)、手寫技術(shù)這方面發(fā)展到現(xiàn)在我們基于人機智能交互技術(shù),已經(jīng)涵蓋了大概六七類這樣的人機交互技術(shù)。在云計算方面我們搭建了靈云平臺,而且已經(jīng)開始了和各個產(chǎn)業(yè)的融合性的合作。
3sNews:蘋果手機的發(fā)布,把siri推向市場,讓語音走向了大眾生活的方面,你怎樣看待這種情況?
武衛(wèi)東:siri確確實實給大家?guī)砹艘恍┬碌母杏X,或者是一種新的認(rèn)識。大家認(rèn)為這個技術(shù)其實很了不得,語音識別可以這樣。其實那是一個表象的東西,siri的背后是一套自然語言對話系統(tǒng)??赡躶iri把語音識別帶活了,但是實際上一個好的語音識別技術(shù)成功與否在于用戶的體驗。
對于語音交互技術(shù)的認(rèn)識,我覺得現(xiàn)在目前產(chǎn)業(yè)界,尤其是在相關(guān)領(lǐng)域里面,有點泡沫。對語音交互這方面的應(yīng)用,大家要分領(lǐng)域,而不是說一個公共的東西就能解決所有的問題,這是做不到的。所以我認(rèn)為,蘋果推出的不是一個技術(shù)代表,因為蘋果有一個完整的無縫的產(chǎn)業(yè)鏈。它每推出一個產(chǎn)品,都一定要讓人們感覺到一些新的東西,新的一些體驗。siri是為它封閉的產(chǎn)業(yè)鏈提供了一個新的亮點,讓人們更多去買蘋果手機。但是目前來講,還沒有達(dá)到它真正對siri期待的應(yīng)用,所以對這塊的應(yīng)用,我們應(yīng)該冷靜判斷。
另外,語音交互技術(shù)受環(huán)境因素影響非常大,如口音、人的說話方式、環(huán)境、表達(dá)方式。要改變?nèi)说牧?xí)慣,讓人適應(yīng)機器,這個挺難的。讓機器真正能感知,讓技術(shù)怎樣引導(dǎo)人用它,這也是關(guān)鍵。其實國內(nèi)在這方面宣傳比較少,很多廠家在這方面探索精神或者說實踐精神確實沒有蘋果厲害。在這方面,我們還是缺乏高端人才,尤其是在產(chǎn)品設(shè)計、體驗設(shè)計,中國現(xiàn)在確實缺乏這方面的高端人才。
3sNews:華聲有沒有大眾市場的語音產(chǎn)品?
武衛(wèi)東:有,小唐龍,學(xué)術(shù)名字叫做手機移動助手或者移動終端的智能助手,我們?yōu)槭裁床唤衧iri,就像你剛才所說的,我要訂張機票,我得通過siri去看,但是不能購買。但是我們做小唐龍的時候,里面有一個工單的思想,我們覺得比較貼切。我們必須要和提供內(nèi)容的廠商、合作伙伴進行針對這種應(yīng)用的后臺和端的融合。至少在一些流程上面,把一些命令、流程融合到我們的小唐龍的執(zhí)行操作里面。
3sNews:小唐龍目前的應(yīng)用情況怎樣?
武衛(wèi)東:小唐龍是在今年的1月16號發(fā)布,3月16號正式上線?,F(xiàn)在在進行一些功能的完善,包括一些資源的深度整合。同時,我們已經(jīng)開展了一些智能領(lǐng)域的合作,比如說智能電視、車內(nèi)服務(wù)的客服平臺上,還有就是一些客服,比如運營商的一些客服上面,,簡單地說就是可以通過小唐龍問話費、流量、運營商的信息、活動,類似于客服的性質(zhì)。
小唐龍可以說是一個智能助手,不是門戶,但起到了一些門戶的作用。在小唐龍目前的功能里面,提供了一些信息,包括周圍的生活場所查詢的信息、路況的信息,甚至包括城市的出租車,打出租車從哪兒到哪要多少錢的這樣一些信息。我們跟百度、搜狗都有一些合作。這方面來講,通過它能夠提供的一些內(nèi)容,我們把這些能力開發(fā)出來,提供給用戶使用。
除了語音可以交互以外,小唐龍還可以提供手寫交互。手寫有一個好處,不受場景的干擾,同時準(zhǔn)確率高。而且捷通通過十多年的發(fā)展,手寫技術(shù)已經(jīng)發(fā)展到不像原來寫一個字識別一個字,而是有連續(xù)的。所以在手寫方面是小唐龍是一個特色。
3sNews:武總給我們簡單預(yù)測一下,我們?nèi)昊蛘呶迥曛笳Z音交互的市場前景嗎?
武衛(wèi)東:我們看到語音交互在很多地方開始整合,而且大家開始講一些產(chǎn)品。但是我自己感覺作秀的成分大于實用的成分。你可以去到市場上調(diào)研,調(diào)研相關(guān)的一些應(yīng)用,到底這些東西是不是真正已經(jīng)實用化,大家是不是已經(jīng)天天在用它,或者是已經(jīng)非常離不開的狀態(tài)。這個還有待商榷。我覺得,從未來三年五年,語音交互實際上作為一種非常好的、非常便捷的,跟人的生物特征契合度非常高的交互手段,一定會有很廣闊的市場。而且,人們會越來越適應(yīng)用這種方式進行人機交互。
基本上現(xiàn)在機器的處理能力是足夠的,很大程度是人如何能夠把這種技術(shù)和真正貼身的應(yīng)用很好地融合起來。而且剛才提到的后面很多的細(xì)分的一些模型,包括一些結(jié)構(gòu)化的設(shè)計,能夠真正結(jié)合起來。因為它的這項技術(shù)背后有很多的模型,很多結(jié)構(gòu)化的東西,這些東西是需要時間,需要結(jié)合具體的領(lǐng)域里面去做的。所以說這個技術(shù)不是說已經(jīng)成熟到大家拿來就能用,沒有那么樂觀。但是也絕不是那么悲觀,如果大家想把這個技術(shù)做好,稍微花點工夫就可以把它用好。而且不能說100%全部替代性的應(yīng)用,而是補充性的應(yīng)用。因為有很多地方實際上是可以用的。比方說現(xiàn)在車聯(lián)網(wǎng)里面做人工客服。語音合成現(xiàn)在用得很成熟。語音識別,其實有很多地方,比如說遇到一些做判斷的時候,我想買東西,想找個什么地方,你可以很準(zhǔn)確說的時候,是完全可以做到的。但是找不到,完全可以通過人工去干預(yù)。
{{item.content}}