很多談論“大數(shù)據(jù)”的觀點著眼點在其數(shù)據(jù)量之大,如每天有多少個GB甚至TB的數(shù)據(jù)被制造出來,但怎么樣存放和訪問是存儲硬件巨頭們的事情,并且他們做的是如此的好,以至于我們根本不必擔心自己的數(shù)據(jù)無處可放——只要你肯出錢就行。“大數(shù)據(jù)”的“大”更多體現(xiàn)在數(shù)據(jù)的高維度上,當一個數(shù)據(jù)的屬性超過數(shù)十項乃至上百項時,想要了解不同屬性間的相關性或挖掘出數(shù)據(jù)間潛在的模式就非常的困難,這正是“大數(shù)據(jù)”的意義所在;但在很多PPT中,對于這么關鍵的內(nèi)容往往只能看到幾個干癟的字眼“分析、挖掘”,至于到底怎么樣來分析和挖掘,使用什么樣的工具,有什么樣的技巧,實現(xiàn)了什么價值,這些我從未見過。
另一個問題是在地理信息應用的大客戶群——電子政務領域——有那么多需要分析的大數(shù)據(jù)嗎?為了了解相關問題,我曾經(jīng)問過不同的人群:從賣存儲和負載均衡設備的售前工程師、不同信息中心的技術人員到相關業(yè)務系統(tǒng)的開發(fā)工程師,他們給我的答案是:海量存儲和負載均衡是現(xiàn)在的一種標配形式,市級層面的電子政務應用幾乎沒有遇到過訪問量激增以至需要負載均衡的情況。而在地理信息應用中,我們的層次也大多處于“底圖共享”階段,離真正的數(shù)據(jù)挖掘和分析還很遠:包括數(shù)據(jù)、方法和應用場景都還沒有準備成熟。
如果作為一種技術理念和研究方向,這些演講和PPT內(nèi)容倒也無可厚非。然而惡劣的是,有些企業(yè)則是已經(jīng)開始兜售由全套開源產(chǎn)品組成的所謂“大數(shù)據(jù)分析平臺”,從Hadoop、HDFS、Hbase、Hive到R,能想到的概念和名詞全部砌在一起,似乎他們已經(jīng)完美地實現(xiàn)了基于大數(shù)據(jù)的空間數(shù)據(jù)存儲和分析流程,將用戶忽悠的一愣一愣,但在現(xiàn)實中你卻從未找到過他們分析的一個數(shù)據(jù)實例。這些無法落地的行為已經(jīng)在喪失一個企業(yè)的節(jié)操,說多了,反感自然就來了。(文丨蔣波濤)
{{item.content}}