什么是大數(shù)據(jù)?
我們可以將大數(shù)據(jù)描述為這樣一種數(shù)據(jù)管理難題,由于數(shù)據(jù)量、數(shù)據(jù)速度和數(shù)據(jù)多樣性方面的需求日益增加,人們無法使用傳統(tǒng)數(shù)據(jù)庫來解決這種難題。大數(shù)據(jù)的定義很多,但其中大部分定義都包含所謂大數(shù)據(jù)的“三個(gè) V”的概念:
大量 (Volume):數(shù)據(jù)量從數(shù) TB 到數(shù) PB
多樣 (Variety):包括多種來源和格式(例如 Web 日志、社交媒體互動(dòng)、電子商務(wù)與在線交易、財(cái)務(wù)交易,等等)的數(shù)據(jù)
高速 (Velocity):從生成數(shù)據(jù)的時(shí)間到向用戶提供可付諸行動(dòng)的見解的時(shí)間,企業(yè)對(duì)速度的要求越來越高。因此,需要以相對(duì)較短的時(shí)間(從每天一次到實(shí)時(shí))完成數(shù)據(jù)的收集、存儲(chǔ)、處理和分析
您為什么會(huì)需要大數(shù)據(jù)?
盡管關(guān)于大數(shù)據(jù)的宣傳無處不在,許多組織仍然沒有意識(shí)到他們正面臨大數(shù)據(jù)問題,或者根本沒有從大數(shù)據(jù)的角度思考自己面臨的問題。一般而言,如果組織現(xiàn)有的數(shù)據(jù)庫和應(yīng)用程序已無法再擴(kuò)展以應(yīng)對(duì)數(shù)據(jù)量、數(shù)據(jù)多樣性和數(shù)據(jù)速度方面需求的激增,那么該組織很可能會(huì)通過采用大數(shù)據(jù)技術(shù)而獲益。
若未能正確解決大數(shù)據(jù)難題,則會(huì)導(dǎo)致成本不斷上升,工作效率和競爭力不斷下降。而合理的大數(shù)據(jù)策略則能夠遷移現(xiàn)有的繁重工作負(fù)載,交由大數(shù)據(jù)技術(shù)處理,并部署新應(yīng)用程序以利用新的商機(jī),從而幫助組織降低成本并提高運(yùn)營效率。
大數(shù)據(jù)的工作原理是什么?
大數(shù)據(jù)技術(shù)提供了可滿足整個(gè)數(shù)據(jù)管理周期需求的新工具,因此具有技術(shù)上和經(jīng)濟(jì)上的可行性,不僅能夠收集并存儲(chǔ)更大的數(shù)據(jù)集,還能對(duì)其進(jìn)行分析,以發(fā)掘有價(jià)值的新見解。在大多數(shù)情況下,大數(shù)據(jù)處理包含一種常見的數(shù)據(jù)流 – 從收集原始數(shù)據(jù)到使用可付諸行動(dòng)的信息。
收集。收集原始數(shù)據(jù)(事務(wù)、日志、移動(dòng)設(shè)備等)是眾多組織在應(yīng)對(duì)大數(shù)據(jù)時(shí)所面臨的第一個(gè)難題。優(yōu)秀的大數(shù)據(jù)平臺(tái)可使這一步事半功倍,讓開發(fā)人員能夠以任意速度(從實(shí)時(shí)處理到批處理)攝取多種數(shù)據(jù)(從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù))。
存儲(chǔ)。任何大數(shù)據(jù)平臺(tái)都需要一個(gè)安全、可控制且持久耐用的存儲(chǔ)庫,用于在處理任務(wù)之前(甚至之后)存儲(chǔ)數(shù)據(jù)。根據(jù)具體需求,您可能還需要臨時(shí)存儲(chǔ)來存儲(chǔ)傳輸過程中的數(shù)據(jù)。
處理和分析。在這一步中,數(shù)據(jù)將從其原始狀態(tài)轉(zhuǎn)換為可使用的格式,實(shí)現(xiàn)的方法通常是排序、聚合、合并,甚至是執(zhí)行更高級(jí)的函數(shù)和算法。隨后,將存儲(chǔ)轉(zhuǎn)換后產(chǎn)生的數(shù)據(jù)集以供進(jìn)一步處理,或者通過商業(yè)智能和數(shù)據(jù)可視化工具向用戶提供這些數(shù)據(jù)集。
使用和可視化。大數(shù)據(jù)解決方案的意義就在于從您的數(shù)據(jù)集中獲取高價(jià)值、可付諸行動(dòng)的見解。理想情況下,您可通過自助式商業(yè)智能工具和靈活的數(shù)據(jù)可視化工具向相關(guān)人員提供數(shù)據(jù),他們可利用這些工具輕松快速地瀏覽這些數(shù)據(jù)集。根據(jù)分析的類型,最終用戶還可能以統(tǒng)計(jì)“預(yù)測”(預(yù)測分析)或建議行動(dòng)(規(guī)范分析)的形式使用分析結(jié)果數(shù)據(jù)。
大數(shù)據(jù)處理的發(fā)展歷程
大數(shù)據(jù)生態(tài)系統(tǒng)一直在以驚人的速度向前發(fā)展。如今,有多種分析類型可滿足組織中眾多職能的需求。
描述分析可幫助用戶回答以下問題:“發(fā)生了什么事?為什么?”。示例包括帶有計(jì)分卡和儀表板的傳統(tǒng)的查詢和報(bào)告環(huán)境。
預(yù)測分析可幫助用戶估計(jì)某個(gè)給定事件在未來發(fā)生的幾率。示例包括早期的警報(bào)系統(tǒng)、欺詐檢測、預(yù)防性維護(hù)應(yīng)用程序和預(yù)測。
規(guī)范分析可為用戶提供具體(規(guī)范)建議。它們可回答用戶的以下問題:“如果發(fā)生‘x’,我該怎么做?”
最初,Hadoop 之類的大數(shù)據(jù)框架只支持批處理工作負(fù)載,它們?cè)谥付ǖ臅r(shí)間段(通常為數(shù)小時(shí)乃至數(shù)天)內(nèi)批量處理大型數(shù)據(jù)集。然而,隨著“獲得見解的時(shí)間”變得越來越重要,大數(shù)據(jù)的“高速”特點(diǎn)已經(jīng)促使許多新的框架(例如 Apache Spark、Apache Kafka、Amazon Kinesis 等)做出改進(jìn)以支持實(shí)時(shí)和流式數(shù)據(jù)處理。