大數(shù)據(jù)技術(shù)所涉及的領(lǐng)域非常廣泛,從硬件基礎(chǔ)設(shè)施,到數(shù)據(jù)庫,再到上層應(yīng)用,大數(shù)據(jù)技術(shù)身影遍布IT應(yīng)用的各個(gè)層面、各個(gè)角落。但要從大數(shù)據(jù)當(dāng)中挖掘出價(jià)值,此項(xiàng)重任非分析技術(shù)莫屬。那么,大數(shù)據(jù)分析技術(shù)的研發(fā)難點(diǎn)是什么?未來將如何發(fā)展?
記者為此采訪了IBM大數(shù)據(jù)實(shí)驗(yàn)室總監(jiān)Aya Soffer女士,她領(lǐng)導(dǎo)著IBM全球12個(gè)實(shí)驗(yàn)室來進(jìn)行研發(fā)。她介紹說,她所領(lǐng)導(dǎo)的IBM實(shí)驗(yàn)室并不是對(duì)已經(jīng)成熟的技術(shù)做商業(yè)化研發(fā),而是注重前瞻和突破性的研究,其工作方向包括三大部分:第一,如何從非結(jié)構(gòu)化的流媒體數(shù)據(jù)中抽取數(shù)據(jù)幫助決策和分析,例如在音頻和視頻當(dāng)中抽取特殊數(shù)據(jù)幫助決策分析;第二,是數(shù)據(jù)可視化,如何將分析得出的結(jié)果以可視化的方讓業(yè)務(wù)用戶能夠理解;第三是可視化與地理位置信息相結(jié)合,例如在港口監(jiān)控所有船只,根據(jù)異常情況結(jié)合人員分析來判斷實(shí)現(xiàn)更快的分析。
問:您剛剛提到正在研究語音、視頻方面的大數(shù)據(jù)應(yīng)用,這些數(shù)據(jù)在大數(shù)據(jù)分析中,其技術(shù)挑戰(zhàn)在哪?目前在哪些方面有進(jìn)展?
Aya Soffer:現(xiàn)在對(duì)單個(gè)語音、視頻的處理,已經(jīng)有很多系統(tǒng)做的很好,但如何理解影像背后的意義——即語義分析和語境分析——這就是目前的技術(shù)難點(diǎn)。例如,從一張或者多張照片中要找到兩輛車有可能會(huì)相撞,這個(gè)特征提取就比較難了。
問:非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)當(dāng)中最常見的一部分。以自然語言的翻譯為例,目前存在兩種方式,一種是利用語言學(xué)家的方式,根據(jù)語言理論進(jìn)行翻譯;另一種方式則是類似于谷歌的匹配法,不管語法和規(guī)則,將原文與(互聯(lián)網(wǎng)上的)翻譯數(shù)據(jù)對(duì)比,找到最相近、翻譯結(jié)果被引用最頻繁的。這兩種方式,您認(rèn)為哪種更適合目前的應(yīng)用環(huán)境,或者是哪一種更有成效?
Aya Soffer:這兩種方式并不矛盾,根據(jù)實(shí)際的應(yīng)用場景,這兩種方式都要用到?;诮y(tǒng)計(jì)的方式,仍將繼續(xù)發(fā)展。在我們對(duì)錯(cuò)誤容忍度比較高的情況下,基于統(tǒng)計(jì)的方式就會(huì)工作得很好;而在我們對(duì)精確度要求很高的情況下,就需要應(yīng)用到傳統(tǒng)方法了。
問:機(jī)器學(xué)習(xí)是大數(shù)據(jù)應(yīng)用當(dāng)中非常流行的一種方式,但流派眾多,哪幾種更受認(rèn)可?
Aya Soffer:機(jī)器學(xué)習(xí)目前主要有兩種趨勢:第一種,更深入的學(xué)習(xí),即如何在沒有人工干預(yù)的情況下,通過大規(guī)模的計(jì)算進(jìn)行深入的學(xué)習(xí)和分析;另一大趨勢就是適應(yīng)性學(xué)習(xí),即如何讓你的模型和算法,通過自己設(shè)定的反饋機(jī)制來不斷進(jìn)行自我調(diào)教。
問:IBM實(shí)驗(yàn)室所研究的這些技術(shù),需要多長時(shí)間才能應(yīng)用到產(chǎn)品中去?
Aya Soffer:至少需要1—2年。我們也在跟產(chǎn)品部合作一些小的創(chuàng)新,這些創(chuàng)新在1、2年內(nèi)就可以變成商業(yè)化的產(chǎn)品。但如果是一些非??鐣r(shí)代的創(chuàng)新,需要的時(shí)間就非常長了。例如Watson系統(tǒng),我們從2006年就開始做了,但商業(yè)化只有不到一年。不過,現(xiàn)在外面環(huán)境發(fā)展要求軟件的開發(fā)周期越來越快,而云計(jì)算也讓我們把這些創(chuàng)新更快的提供到市場上。
問:IBM今年收購了很多跟大數(shù)據(jù)相關(guān)的公司,這對(duì)目前的研究方向有什么影響?如果收購的技術(shù)跟我們正在研究的項(xiàng)目重合,會(huì)怎么處理?
Aya Soffer:收購是好事,意味著我們不需要重新創(chuàng)新,收購來的產(chǎn)品肯定已經(jīng)有了一定的技術(shù)沉淀,而我們實(shí)驗(yàn)室則會(huì)對(duì)新收購的產(chǎn)品進(jìn)行一定技術(shù)上的合作來提升它。
{{item.content}}