大數據的崛起不過20年的時間,已經對人類社會產生了摧枯拉朽般的發(fā)展影響。舊的思維方式被打破,新的社會體系在形成,每個人,每件事,每一次活動都成了數據的“供給者“,以及數據分析反饋的“享用者”。
2017年4月19日,武漢大學副校長、中國工程院院士李建成應邀出席了泰伯網在四川成都協辦的“首屆中國空間大數據產業(yè)高峰論壇“,和與會嘉賓分享了大數據的發(fā)展歷程,并著重分析了大數據時代地理信息產業(yè)發(fā)展的機遇。
以下為會議現場速記節(jié)選(未經院士本人確認)。
李建成院士:
尊敬的各位嘉賓,各位地理信息產業(yè)的各位同仁。非常高興應泰伯的邀請做一個關于大數據地理測繪與未來大數據的思考。
目前,各個行業(yè),各個領域都在談大數據,大數據的確在未來的生活、工作當中將起著決定性的作用,我們也從過去的IT時代,進入了全新的DT時代,而DT時代給測繪帶了史無前例的機遇。
大數據時代的思維轉變
大數據時代帶來的是一種新的基礎資源,是一種新的思維方式,是一種新的技術,也將帶來一種新的產業(yè),一種職業(yè),以及一種行業(yè)發(fā)展的契機。
在這里舉一個例子,現在出行都用攜程訂票,或者使用航班管家。但是,在2012年之前,民航局的信息是封鎖的。之后,它專門成立了一家公司,把數據開放出去,目前一年產值已經達到五百億。
從這個例子我們可以看出,數據單放著價值密度非常低,但是使用起來價值密度會非常高。這也是大數據時代的一個特色,就是要想為己必須先為人,就是他提供信息,反過來信息支撐了公司的發(fā)展。
關于大數據紅利與信息安全、隱私的矛盾
談到大數據利用,不可避免的要涉及信息安全和個人隱私的問題。我國成立了四個領導小組,其中網絡信息安全領導小組是習近平總書記擔任組長,可見從國家層面對于信息安全的重視程度。
那么該如何將大數據的紅利與信息安全、個人隱私處理好?
矛盾的焦點在于:隱私泄密和濫用風險、外部惡意攻擊更為集中、現有網絡安全措施滯后。需要注意的是,現在很多公司都提供免費的云存儲,它意在搜集你的信息,所以保護每個人的隱私信息變得非常重要。
我的觀點是,數據開放和信息安全是同一事物的正反兩個方面,要堅持以發(fā)展促進安全,以安全促發(fā)展的原則,不能以不上網,不共享,不互聯互通來保護安全。政府信息資源要以共享為原則,不共享為例外。
信息安全和個人隱私保護需要通過發(fā)展網絡和大數據技術才能實現。這面臨著法律監(jiān)管條例缺失和個人用戶數據保護的法律界限模糊的問題。需要從兩方面去理解:一方面是大數據挖掘帶來的益處,即基于大數據分析的網絡安全防護體系,以及基于大數據分析的攻擊檢測和防護;另一方面是大數據帶來的安全困境,即數據自身的可信度,還有抗隱私泄露的大數據分析技術,有很多數據是不真實的。
這里要引入的是關于大數據的三個變革思維:
樣本 = 總體——利用所有數據,而不是一小部分數據
2+2 = 3.9——允許不精確,接受混亂性
“是什么”,而不是“為什么”,關注相關關系而非因果關系
我們過去是先驗證,現在是先發(fā)現再去想。在以前人們需要有了想法,然后再去收集數據去測試這個想法的可行性,而現在通過大量的數據和更好工具,可以先發(fā)現相關關系,再產生想法。大多數情況下,一旦完成了對大數據的相關分析,而又不再滿足于僅僅知道“是什么”時,就會繼續(xù)向更深層次研究因果關系,找出背后的“為什么”。
大數據發(fā)展所面臨的問題和相關技術
大數據技術要解決的問題,就是快速的數據流轉,多樣的數據類型,海量的數據規(guī)模,最后它的交集就是中間的價值,所以我們從大量的非結構化的數據流,結構化的數據流,海量的數據終提取一小點有價值的數據。
將來我們的數據就是可視化,能用一句話說清楚不要用兩句話,能拿圖表表述的不要說話。還有就是非結構化數據分析和數據量、分析深度分析自動化,還有數據挖掘并進行機器學習的應用,還有數據密集計算的效率,不同計算長頸的特點,高效數據查詢訪問低成本超大容量,預處理,多源,多摹本數據融合。
數據采集包括很多,比如網頁支柱,網絡機器人,我們相當于放一個蟲子整個網絡去搜索。另外就是結構化和非結構化,半結構化數據,分布式文件系統(tǒng),關系數據庫,非關系數據庫,數據倉庫等等。數據分析與挖掘,有各種各樣的算法,最后就是計算結果表示,標簽云,聚類圖,空間信息流,熱圖等等。
大數據時代一定要有開放的心態(tài)
大數據利用不確定性的海量數據發(fā)現規(guī)律以及趨勢預測,我們信息化測繪需要解決什么問題呢?
比如數據的實施性。如果像民航公司能把民航系統(tǒng)開放給你們,向全國全球提供中國的地理信息數據,那兩年之內一定會做大?,F在各個導航公司的地理信息都在他們公司來做,而我們國家做了那么多事都放在保險柜里面沒有用,所以要跟隨大數據時代的機遇,一定要有開放的心態(tài)。
另外要充分利用信息技術、空間技術和網絡技術,實現測繪地理信息服務于社會經濟發(fā)展的測繪生產、生活方式和功能形態(tài)。
測繪信息在一定尺度下對地理實體的精準描述,空間大數據分析決策需要時空信息,大數據與位置信息密切關聯,大數據與測繪地理信息聯合空間大數據,大數據是一種新的數據源,一種新方法,能開創(chuàng)新領域??臻g大數據的目的不在于地理實體的精確描述,而是地理實體的廣泛應用。
大數據時代測繪地理信息的發(fā)展與機遇
地理數據包括地圖數據、遙感數據、大地基準數據,簡單一句話就是連續(xù)與時間相關的定位就叫導航,單點的、獨立的和時間沒有關系的就叫定位??臻g媒體數據包含了位置與時間因標記數字化文字、圖象、圖形、聲音、視頻影響和動畫媒體等。
數據價值大但價值密度遞,現在大多數都是用的測繪地圖。地理信息服務關健在于什么是信息,什么是模式,以什么樣的信息,什么樣的模式,什么樣的品質提供信息服務。
現階段的問題是信息不夠豐富,時效性差,地理空間信息和用戶感興趣的專題信息難以結合,實施分析決策能力不足。觀點是針對地理信息服務,相對于云服務模式、大數據更清晰。
中國工程院重大項目咨詢智能城市建設與大數據戰(zhàn)略研究中提出,以大數據時空多維為核心,研究智能城市實時獲取、多源、多事態(tài)的空間全覆蓋的空間信息及實施介入的各類傳感器數據,空間大數據挖掘和知識發(fā)現,利用時空化城市大數據計算模型與方法及動態(tài)欣喜的實時分析技術。
另外,建議明確提出建設地理空間大數據,旨在實現地理空間信息與可空間關聯的各類信息的融合和分析決策,另外研究大數據獲取、組織、管理、分發(fā),還有跨部門、跨領域的合作機制及市場運作模式,還有與空間大數據的隱私保護,大家知道現在我們的隱私基本上沒有了,因為你在網上行為全部在后臺顯示。同時,大數據對于傳統(tǒng)地理空間信息全過程產生了深刻的影響,特別是對現有信息的程度有關聯性。
世界原來是二元空間,人類社會和物理世界,三十年來,信息力量的迅速壯大,已成長除世界世界、人類社會兩級之外的新一級,也就是信息世界,人類離不開信息,信息也離不開人類。任意兩級的互動,都可以對第三級的發(fā)展產生重大影響,甚至對國家產生巨大影響。既然數據對人類社會生存、生產活動發(fā)展這么重要,所以信息必須開放。
計算機從發(fā)現到發(fā)明只用了70年,而工業(yè)革命經歷了三百年,現在目前工業(yè)和制造業(yè)的結合,與信息技術結合產生了工業(yè)制造的革命,所以地理信息行業(yè)沒有理由不和信息技術結合,如果一個行業(yè)不和現在的信息技術結合必然會落后?,F在農業(yè)現代化是和工業(yè)技術分不開的,建筑行業(yè)都與工業(yè)技術離不開,如果工業(yè)技術和信息業(yè)結合的話制造業(yè)發(fā)展也落后,信息的處理和欣喜的應用還有很大的距離,尤其是觀念的局限性,我們一定要打破觀念的局限性,從傳統(tǒng)思維框架走向現在的信息思維來考慮發(fā)展。
{{item.content}}