作為當(dāng)今互聯(lián)網(wǎng)行業(yè)最為熱門的兩個詞匯,“云計算”與“大數(shù)據(jù)”是每位企業(yè)CIO都不會錯過的。然而“大數(shù)據(jù)”并不是解決方案,在被合理利用之前,它更多指的是信息爆炸所導(dǎo)致的一類問題。真正能夠理解并運用大數(shù)據(jù)以實現(xiàn)企業(yè)價值飛躍的,想必都是IT界的精英。而能夠?qū)⒃朴嬎闩c大數(shù)據(jù)完美結(jié)合以使企業(yè)獲利,則是每一位決策者至高的愿景。
云計算如何應(yīng)用于大數(shù)據(jù)分析
1. 云計算作為大數(shù)據(jù)的必備條件
關(guān)于大數(shù)據(jù),維基百科給出了如下的定義:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息。總數(shù)據(jù)量相同的情況下,與個別分析獨立的小型數(shù)據(jù)集(data set)相比,將各個小型數(shù)據(jù)集合并后進行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來察覺商業(yè)趨勢、判定研究質(zhì)量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因”。正是由于大數(shù)據(jù)本身所具有的商業(yè)價值,才使得它在我們這個時代變得如此火熱。如果提取、處理和利用數(shù)據(jù)的成本超過了數(shù)據(jù)價值本身,那么這項工作就是沒意義的。而隨著數(shù)據(jù)量的不斷增長以及技術(shù)的不斷地發(fā)展,大部分企業(yè)都可以通過大數(shù)據(jù)獲得額外的利益。而強大的云計算能力,無論是建立在公有云、私有云還是混合云的基礎(chǔ)之上,則都是企業(yè)提取分析大數(shù)據(jù)所不可或缺的一個前提。
2. 收集數(shù)據(jù)以供分析
在海量的數(shù)據(jù)中,其實能為企業(yè)提供顯示經(jīng)濟利益的可用部分很少,因此有大量的數(shù)據(jù)需要過濾,以便建立關(guān)聯(lián)并存儲其有用性。對大量存儲著臨時信息的基礎(chǔ)設(shè)施而言,幾乎不存在任何投資的利益,因為這一臨時數(shù)據(jù)中的絕大部分最終都會被丟棄。另外,從公司防火墻外部轉(zhuǎn)移到公司內(nèi)部的網(wǎng)絡(luò)數(shù)據(jù)也很難產(chǎn)生多少有價值的信息。而云平臺的使用則能很好地解決這一問題。在收集過濾數(shù)據(jù)這一階段中,建立一個公有云平臺是最明智的選擇,它可以提供按需擴展的計算和存儲資源。
3. 進行數(shù)據(jù)分析
一旦數(shù)據(jù)轉(zhuǎn)化為可用的形式,那么就進入到分析產(chǎn)生信息的階段。從長遠來看,提供給分析應(yīng)用的原始數(shù)據(jù)沒有必要一下保留,需要有效存儲是分析處理的結(jié)果。公有云和混合云技術(shù)可用在分析階段,在數(shù)據(jù)集處理階段可引入Hadoop或類似替代方案。在公有云用戶的情況下,原始分析階段可以在公有云基礎(chǔ)設(shè)施上執(zhí)行,然后使用私有云組件把處理過的、可用的信息拿到公司內(nèi)部。
4. 企業(yè)管理虛擬化
在這一階段,我們已經(jīng)擁有了足夠的可用信息,可以用來指導(dǎo)決策。但這還沒有結(jié)束,還要使這些信息可為用戶使用,還需要將其轉(zhuǎn)化并存儲到現(xiàn)有的系統(tǒng)中,如企業(yè)資源規(guī)劃(ERP)和客戶資源管理(CRM)系統(tǒng)。通過將軟件即服務(wù)(SAAS)應(yīng)用運行在云平臺中,企業(yè)能夠充分利用之前幾個階段開發(fā)得來的數(shù)據(jù)信息,以強化集成管理模式,并合理規(guī)劃用戶間的相互協(xié)作。