核心提示:當(dāng)電力成為基礎(chǔ)設(shè)施、成為工業(yè)主要?jiǎng)恿Φ臅r(shí)候,人類才真正走入電力時(shí)代。而今天互聯(lián)網(wǎng)和算力的滲透已經(jīng)超過了過去所有基礎(chǔ)設(shè)施
當(dāng)電力成為基礎(chǔ)設(shè)施、成為工業(yè)主要?jiǎng)恿Φ臅r(shí)候,人類才真正走入電力時(shí)代。而今天互聯(lián)網(wǎng)和算力的滲透已經(jīng)超過了過去所有基礎(chǔ)設(shè)施,但還遠(yuǎn)遠(yuǎn)不夠,人工智能還只是算力時(shí)代的第一個(gè)燈泡,更多我們不敢想的事情還遠(yuǎn)未出現(xiàn)。
無論是AI還是物聯(lián)網(wǎng),都逐漸成為生活的一部分,時(shí)代變化、技術(shù)更迭,背后不變的是雪崩般增長(zhǎng)的數(shù)據(jù)和與之伴生的算力黑洞。
高需求背后的極限警告
AI時(shí)代的算力、算法和數(shù)據(jù)處在一種螺旋式的提升關(guān)系中,由于芯片制程和計(jì)算性能的提升,使得對(duì)算力的渴求不像以前那樣迫切,可以說過去十年AI的發(fā)展,是靠算法推動(dòng)的。
隨著大數(shù)據(jù)、5G技術(shù)的發(fā)展,各式各樣的應(yīng)用場(chǎng)景帶來AI的落地,當(dāng)算法普及和數(shù)據(jù)累積達(dá)到一個(gè)新的程度時(shí),原來的算力又不夠了,成為AI性能提升的硬指標(biāo)。
算法和數(shù)據(jù)的不斷演進(jìn)、交替上升,對(duì)更高算力的需求永不停歇。時(shí)至今日,算力依然成為制約AI進(jìn)一步發(fā)展的關(guān)鍵因素。
人們從來沒有想到過芯片的算力會(huì)有到達(dá)極限的一天,至少?gòu)膩頉]有想到極限會(huì)這么快到來。
麻省理工學(xué)院的研究人員前年就曾發(fā)出算力警告:深度學(xué)習(xí)正在逼近計(jì)算極限。根據(jù)MIT的一項(xiàng)研究,深度學(xué)習(xí)的進(jìn)展非常依賴算力的增長(zhǎng)。
研究人員分析了預(yù)印本服務(wù)器Arxiv.org上的1058篇論文和其他基準(zhǔn)資料,以理解深度學(xué)習(xí)性能和算力之間的聯(lián)系,主要分析了圖像分類、目標(biāo)檢測(cè)、問題回答、命名實(shí)體識(shí)別和機(jī)器翻譯等領(lǐng)域如下兩方面的計(jì)算需求:
每一網(wǎng)絡(luò)遍歷的計(jì)算量,或給定深度學(xué)習(xí)模型中單次遍歷(即權(quán)值調(diào)整)所需的浮點(diǎn)運(yùn)算數(shù)
訓(xùn)練整個(gè)模型的硬件負(fù)擔(dān),用處理器數(shù)量乘以計(jì)算速度和時(shí)間來估算
結(jié)論顯示,訓(xùn)練模型的進(jìn)步取決于算力的大幅提高,具體來說,計(jì)算能力提高10倍相當(dāng)于3年的算法改進(jìn)成果。
如同水利之于農(nóng)業(yè)時(shí)代,電力之于工業(yè)時(shí)代,算力,已成為國(guó)民經(jīng)濟(jì)發(fā)展的重要基礎(chǔ)設(shè)施。國(guó)家發(fā)展改革委高技術(shù)司解釋,算力是數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力。截至目前,我國(guó)數(shù)據(jù)中心規(guī)模已達(dá)500萬標(biāo)準(zhǔn)機(jī)架,算力達(dá)到130EFLOPS(每秒一萬三千億億次浮點(diǎn)運(yùn)算)。隨著數(shù)字技術(shù)向經(jīng)濟(jì)社會(huì)各領(lǐng)域全面持續(xù)滲透,全社會(huì)對(duì)算力需求仍十分迫切,預(yù)計(jì)每年仍將以20%以上的速度快速增長(zhǎng)。
物聯(lián)網(wǎng)推動(dòng)數(shù)據(jù)幾何級(jí)增長(zhǎng),人工智能和大數(shù)據(jù)技術(shù),特別是企業(yè)級(jí)對(duì)算力的渴求,榨干了芯片企業(yè)每一絲算力,而且在算法紅利逐漸消失的現(xiàn)在,算力的增長(zhǎng)就變成了貨真價(jià)實(shí)的真金白銀。
自2012年至今,AI算力需求已增長(zhǎng)超30萬倍,以GPU為代表的AI加速芯片取代CPU,已經(jīng)成為AI算力的主要提供者。GPU服務(wù)器相對(duì)CPU服務(wù)器來說是非常昂貴的,大約是美金和人民幣匯率的差距(以8卡GPU服務(wù)器為例),而且在芯片緊缺的年代,GPU到貨周期還比較長(zhǎng)。
算力提高的背后,其實(shí)現(xiàn)目標(biāo)所隱含的計(jì)算需求——硬件、環(huán)境和金錢等成本將變得無法承受。
由于當(dāng)前粗放的使用及管理方式,大部分用戶的GPU利用率只有10%-30%,這就造成了這一寶貴資源的大量浪費(fèi),如何更好的利用和管理GPU資源就變得尤其關(guān)鍵。
算力高成本下的分配不均是影響AI產(chǎn)業(yè)發(fā)展的關(guān)鍵因素,下面是一些算力分配不均的典型場(chǎng)景:
場(chǎng)景一:
大多數(shù)的情況下采取的是為一個(gè)開發(fā)者分配一塊或幾塊GPU卡的方式來滿足開發(fā)調(diào)試的需求。這種情況下存在什么問題?卡和人綁定,卡分配之后,存在著較大的閑置,開發(fā)人員70%以上的時(shí)間都在讀論文、寫代碼,只有不到30%的時(shí)間在利用GPU資源進(jìn)行運(yùn)算調(diào)試。
場(chǎng)景二:
通過調(diào)查了解,絕大多數(shù)企業(yè)為了保證業(yè)務(wù)的隔離性,不受其它AI業(yè)務(wù)的干擾,保障服務(wù)的SLA,都是運(yùn)行在獨(dú)立的GPU卡上。在這種情況下,GPU卡的算力和顯存使用往往不到20%,這樣造成了大量的資源浪費(fèi)——近80%的算力和顯存其實(shí)是被白白消耗,而且還有與之相關(guān)的電費(fèi),運(yùn)維費(fèi)用。
場(chǎng)景三:
智能化自動(dòng)駕駛汽車是人工智能技術(shù)落地的最大應(yīng)用場(chǎng)景之一,智能化汽車很有可能成為未來萬物互聯(lián)的終端,成為繼智能手機(jī)之后,深刻改變社會(huì)形態(tài)的產(chǎn)品。
自動(dòng)駕駛研發(fā)的每一個(gè)階段幾乎都要涉及到AI深度學(xué)習(xí)算法的參與,包括機(jī)器視覺、深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、傳感器技術(shù)等均在自動(dòng)駕駛領(lǐng)域發(fā)揮著重要的作用,自動(dòng)駕駛發(fā)展的瓶頸主要在于這些人工智能底層技術(shù)上能否實(shí)現(xiàn)突破。
在自動(dòng)駕駛領(lǐng)域的算力資源,往往分為車載邊端算力和數(shù)據(jù)中心算力:
車載算力目前以指數(shù)級(jí)方式快速增長(zhǎng),但仍不能滿足車上大量多模態(tài)AI業(yè)務(wù)的需求,所以目前關(guān)注重點(diǎn)仍然是算力硬件設(shè)備的優(yōu)化
而數(shù)據(jù)中心端則是相較通用的AI開發(fā)、訓(xùn)練和離線推理場(chǎng)景,為了迭代出更準(zhǔn)確的算法,需要對(duì)每天的路測(cè)數(shù)據(jù)進(jìn)行處理,讓自動(dòng)駕駛模型反復(fù)訓(xùn)練優(yōu)化,并且進(jìn)行大量驗(yàn)證測(cè)試工作
大多數(shù)的AI開發(fā)涉及到從數(shù)據(jù)準(zhǔn)備、預(yù)處理、模型訓(xùn)練、調(diào)參、部署模型、線上推理、持續(xù)監(jiān)控、數(shù)據(jù)收集、迭代優(yōu)化的過程。在整個(gè)業(yè)務(wù)流程中,有些工作是需要大量CPU,不需要GPU資源的,在CPU運(yùn)算的時(shí)候,其實(shí)GPU是閑置的。
AI 計(jì)算的下半場(chǎng):軟件定義算力
正如前面闡述的,算力有多重要,就有多昂貴。巨大的算力需求,使得GPU價(jià)格一直居高不下。高昂的成本,讓更多的用戶在AI世界的大門面前望而卻步。
歷史的經(jīng)驗(yàn)告訴我們,一個(gè)產(chǎn)業(yè)的發(fā)展一般都有三個(gè)階段:
Make it work
Make it perform
Make it cheap
也就可用、好用、用得起,只有一項(xiàng)技術(shù)“飛入尋常百姓家”時(shí),這項(xiàng)技術(shù)才能真正為全人類所用。
因此筆者認(rèn)為:未來10年,算力平民化會(huì)成為AI的發(fā)展方向,也是必然趨勢(shì)。
如何實(shí)現(xiàn)普惠算力?正如我們前面提到的,通過軟件定義,實(shí)現(xiàn)算力資源池化是當(dāng)下有效的辦法。
場(chǎng)景一的解決方案:
利用軟件定義GPU的技術(shù),把卡和人解綁,當(dāng)有任務(wù)調(diào)用GPU資源的時(shí)候才真正被占用,任務(wù)結(jié)束,資源釋放,回到資源池。
下圖是一個(gè)JupyterLab的開發(fā)場(chǎng)景,VSCode server/PyCharm的模式與這個(gè)類似,在實(shí)際的案例里,使用軟件定義的GPU之后,資源能縮減至25%左右!50個(gè)人的開發(fā)團(tuán)隊(duì),16張卡搞定。
場(chǎng)景二的解決方案:
通過軟件定義的方式,提供細(xì)顆粒度的GPU資源復(fù)用單卡,保障業(yè)務(wù)運(yùn)行的隔離性,可靠性和性能。大部分采取趨動(dòng)科技池化方案上線生產(chǎn)業(yè)務(wù)的客戶,可獲得3倍以上的提升收益。
場(chǎng)景三的解決方案:
打造一站式自動(dòng)駕駛AI開發(fā)、訓(xùn)練、運(yùn)維的解決方案,提供CPU、物理GPU、OrionX vGPU、存儲(chǔ)等多種資源,實(shí)現(xiàn)界面化統(tǒng)一申請(qǐng)、調(diào)度、監(jiān)控和運(yùn)維,同時(shí)實(shí)現(xiàn)AI開發(fā)和訓(xùn)練任務(wù)級(jí)別的界面化管理,提升車企或自動(dòng)駕駛企業(yè)算法研發(fā)效率,兼顧算法工程師和運(yùn)維工程師等不同人員對(duì)AI平臺(tái)的多樣化需求。
舉個(gè)例子:
如果把GPU比作大巴車,AI的計(jì)算任務(wù)比作旅游團(tuán)。計(jì)算量最小的任務(wù),就如同三五人的小團(tuán)體;計(jì)算量大的任務(wù)自然是上百人的大型旅行團(tuán)。在傳統(tǒng)的算力分配模式中,無論計(jì)算量大或者小,都會(huì)至少占用一個(gè)硬件單元。就像小團(tuán)體出游,卻占用整個(gè)大巴車,剩余的座位都是空的。正是這種模式,浪費(fèi)了大量算力,降低了GPU芯片的利用率。
我們是否可以對(duì)傳統(tǒng)算力分配模式顛覆。用最直觀的比喻來說,做出一款可以“隨需應(yīng)變、動(dòng)態(tài)伸縮”的大巴車。用戶不再使用物理AI芯片,取而代之的是隨需應(yīng)變、動(dòng)態(tài)伸縮的虛擬AI芯片。
數(shù)據(jù)中心也是算力池化非常合適的場(chǎng)景。在數(shù)據(jù)中心里,最主要是由服務(wù)器提供算力,但是因?yàn)镚PU非常昂貴,一般來說,不會(huì)每臺(tái)服務(wù)器都配備GPU。如果能夠通過軟件定義AI算力可以幫助用戶讓應(yīng)用跑在沒有GPU的服務(wù)器上,通過網(wǎng)絡(luò)使用其他服務(wù)器的GPU算力。未來網(wǎng)絡(luò)基礎(chǔ)設(shè)施會(huì)變得越來越好,如果網(wǎng)絡(luò)條件足夠好,大膽暢想,甚至可以幫助用戶在省、市的范圍內(nèi)來調(diào)配算力。
幫助用戶根據(jù)需求來動(dòng)態(tài)伸縮使用的資源。比如說,某一用戶的任務(wù)剛啟動(dòng)時(shí)只需要一個(gè)甚至半個(gè)GPU,但是隨著運(yùn)行的不斷推進(jìn),需要的計(jì)算量越來越大,就需要10個(gè)GPU,甚至更多。通過軟件可以根據(jù)具體需求,動(dòng)態(tài)變化所使用的資源。
技術(shù)演進(jìn):GPU從虛擬化到資源池化
學(xué)術(shù)界和產(chǎn)業(yè)界一直在探索如何更優(yōu)使用GPU資源,這些技術(shù)基本可以歸納為GPU池化發(fā)展的四個(gè)階段:
階段1,簡(jiǎn)單虛擬化。將單物理GPU按固定比例切分成多個(gè)虛擬GPU,比如1/2或1/4,每個(gè)虛擬GPU的顯存相等,算力輪詢。最初是伴隨著服務(wù)器虛擬化的興起,解決虛擬機(jī)可以共享和使用GPU資源的問題
階段2,任意虛擬化。支持將物理GPU按照算力和顯存兩個(gè)維度靈活切分,實(shí)現(xiàn)自定義大小虛擬GPU(通常算力最小顆粒度1%,顯存最小顆粒度1MB),滿足AI應(yīng)用差異化需求。切分后的小顆粒度虛擬GPU可以滿足虛擬機(jī),容器的使用
階段3,遠(yuǎn)程調(diào)用。重要技術(shù)突破在于支持GPU的跨節(jié)點(diǎn)調(diào)用,AI應(yīng)用可以部署到數(shù)據(jù)中心的任意位置,不管所在的節(jié)點(diǎn)上有沒有GPU。在該階段,資源納管的范圍從單個(gè)節(jié)點(diǎn)擴(kuò)展到由網(wǎng)絡(luò)互聯(lián)起來的整個(gè)數(shù)據(jù)中心,是從GPU虛擬化向GPU資源池化進(jìn)化的關(guān)鍵一步
階段4,資源池化。關(guān)鍵點(diǎn)在于按需調(diào)用,動(dòng)態(tài)伸縮,用完釋放。借助池化能力,AI應(yīng)用可以根據(jù)負(fù)載需求調(diào)用任意大小的虛擬GPU,甚至可以聚合多個(gè)物理節(jié)點(diǎn)的GPU;在容器或虛機(jī)創(chuàng)建之后,仍然可以調(diào)整虛擬GPU的數(shù)量和大;在AI應(yīng)用停止的時(shí)候,立刻釋放GPU資源回到整個(gè)GPU資源池,以便于資源高效流轉(zhuǎn),充分利用
GPU池化:站在整個(gè)數(shù)據(jù)中心的高度解決問題。OrionX AI算力資源池化軟件不同組件的功能及邏輯架構(gòu),通過各組件“各司其職”,能為用戶實(shí)現(xiàn)單機(jī)多租戶細(xì)粒度切分、多機(jī)資源聚合、遠(yuǎn)程算力調(diào)用、資源池彈性伸縮等目標(biāo);同時(shí)由于OrionX支持異構(gòu)算力的管理和共享,所以能站在整個(gè)數(shù)據(jù)中心的高度解決GPU利用率低、成本高、分配與管理難等問題,建立數(shù)據(jù)中心級(jí)加速資源池。
構(gòu)建國(guó)家算力骨干網(wǎng)
2020年底,國(guó)家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國(guó)家能源局四部門聯(lián)合出臺(tái)《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》提出,到2025年,全國(guó)范圍內(nèi)數(shù)據(jù)中心形成布局合理、綠色集約的基礎(chǔ)設(shè)施一體化格局。2021年5月,前述四部門正式印發(fā)《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》(《實(shí)施方案》),明確提出布局全國(guó)算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn),啟動(dòng)實(shí)施“東數(shù)西算”工程,構(gòu)建國(guó)家算力網(wǎng)絡(luò)體系。
其實(shí)就像是電網(wǎng)和天然氣網(wǎng),算力對(duì)于有些地方來說是完全不夠用的,而對(duì)于有的地方則是空有一手的「算力」卻無處使。簡(jiǎn)單來說,興建人工智能計(jì)算中心之后會(huì)面臨三點(diǎn)問題:
不同區(qū)域AI算力使用存在波峰波谷,各地獨(dú)立的人工智能計(jì)算中心無法實(shí)現(xiàn)跨域的動(dòng)態(tài)調(diào)配
全國(guó)人工智能發(fā)展不均衡,不同區(qū)域有各自優(yōu)勢(shì),各地獨(dú)立的人工智能計(jì)算中心無法實(shí)現(xiàn)跨區(qū)域的聯(lián)合科研和應(yīng)用創(chuàng)新、資源互補(bǔ)
各地獨(dú)立的人工智能計(jì)算中心產(chǎn)生的AI模型、數(shù)據(jù),難以實(shí)現(xiàn)全國(guó)范圍內(nèi)順暢流動(dòng)、交易,以產(chǎn)生更大的價(jià)值
算力網(wǎng)絡(luò)匯聚和共享算力、數(shù)據(jù)、算法資源,最終實(shí)現(xiàn)「一網(wǎng)絡(luò),三匯聚」:
網(wǎng)絡(luò):將人工智能計(jì)算中心的節(jié)點(diǎn)通過專線連接起來形成人工智能算力網(wǎng)絡(luò)
三匯聚:算力匯聚、數(shù)據(jù)匯聚、生態(tài)匯聚
算力匯聚:連接不同節(jié)點(diǎn)的高速網(wǎng)絡(luò),實(shí)現(xiàn)跨節(jié)點(diǎn)之間的算力合理調(diào)度,資源彈性分配,從而提升各個(gè)人工智能計(jì)算中心的利用率,實(shí)現(xiàn)對(duì)于整體能耗的節(jié)省,后續(xù)可支持跨節(jié)點(diǎn)分布學(xué)習(xí),為大模型的研究提供超級(jí)算力
數(shù)據(jù)匯聚:政府和企業(yè)共同推進(jìn)人工智能領(lǐng)域的公共數(shù)據(jù)開放,基于人工智能計(jì)算中心匯聚高質(zhì)量的開源開放的人工智能數(shù)據(jù)集,促進(jìn)算法開發(fā)和行業(yè)落地
生態(tài)匯聚:采用節(jié)點(diǎn)互聯(lián)標(biāo)準(zhǔn)、應(yīng)用接口標(biāo)準(zhǔn),實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)大模型能力開放與應(yīng)用創(chuàng)新成果共享,強(qiáng)化跨區(qū)域科研和產(chǎn)業(yè)協(xié)作
各地算力中心就像大腦中數(shù)億個(gè)突觸,人工智能算力網(wǎng)絡(luò)正如神經(jīng)網(wǎng)絡(luò)。如此看來,算力網(wǎng)絡(luò)的重要意義之一便是通過匯聚大數(shù)據(jù)+大算力,使能了大模型和重大科研創(chuàng)新,孵化新應(yīng)用。進(jìn)而實(shí)現(xiàn)算力網(wǎng)絡(luò)化,降低算力成本,提升計(jì)算能效。最終打造一張覆蓋全國(guó)的算力網(wǎng)絡(luò),實(shí)現(xiàn)算力匯聚、生態(tài)匯聚、數(shù)據(jù)匯聚,進(jìn)而達(dá)到各產(chǎn)業(yè)共融共生。
無論是AI還是物聯(lián)網(wǎng),都逐漸成為生活的一部分,時(shí)代變化、技術(shù)更迭,背后不變的是雪崩般增長(zhǎng)的數(shù)據(jù)和與之伴生的算力黑洞。
高需求背后的極限警告
AI時(shí)代的算力、算法和數(shù)據(jù)處在一種螺旋式的提升關(guān)系中,由于芯片制程和計(jì)算性能的提升,使得對(duì)算力的渴求不像以前那樣迫切,可以說過去十年AI的發(fā)展,是靠算法推動(dòng)的。
隨著大數(shù)據(jù)、5G技術(shù)的發(fā)展,各式各樣的應(yīng)用場(chǎng)景帶來AI的落地,當(dāng)算法普及和數(shù)據(jù)累積達(dá)到一個(gè)新的程度時(shí),原來的算力又不夠了,成為AI性能提升的硬指標(biāo)。
算法和數(shù)據(jù)的不斷演進(jìn)、交替上升,對(duì)更高算力的需求永不停歇。時(shí)至今日,算力依然成為制約AI進(jìn)一步發(fā)展的關(guān)鍵因素。
人們從來沒有想到過芯片的算力會(huì)有到達(dá)極限的一天,至少?gòu)膩頉]有想到極限會(huì)這么快到來。
麻省理工學(xué)院的研究人員前年就曾發(fā)出算力警告:深度學(xué)習(xí)正在逼近計(jì)算極限。根據(jù)MIT的一項(xiàng)研究,深度學(xué)習(xí)的進(jìn)展非常依賴算力的增長(zhǎng)。
研究人員分析了預(yù)印本服務(wù)器Arxiv.org上的1058篇論文和其他基準(zhǔn)資料,以理解深度學(xué)習(xí)性能和算力之間的聯(lián)系,主要分析了圖像分類、目標(biāo)檢測(cè)、問題回答、命名實(shí)體識(shí)別和機(jī)器翻譯等領(lǐng)域如下兩方面的計(jì)算需求:
每一網(wǎng)絡(luò)遍歷的計(jì)算量,或給定深度學(xué)習(xí)模型中單次遍歷(即權(quán)值調(diào)整)所需的浮點(diǎn)運(yùn)算數(shù)
訓(xùn)練整個(gè)模型的硬件負(fù)擔(dān),用處理器數(shù)量乘以計(jì)算速度和時(shí)間來估算
結(jié)論顯示,訓(xùn)練模型的進(jìn)步取決于算力的大幅提高,具體來說,計(jì)算能力提高10倍相當(dāng)于3年的算法改進(jìn)成果。
如同水利之于農(nóng)業(yè)時(shí)代,電力之于工業(yè)時(shí)代,算力,已成為國(guó)民經(jīng)濟(jì)發(fā)展的重要基礎(chǔ)設(shè)施。國(guó)家發(fā)展改革委高技術(shù)司解釋,算力是數(shù)字經(jīng)濟(jì)的核心生產(chǎn)力。截至目前,我國(guó)數(shù)據(jù)中心規(guī)模已達(dá)500萬標(biāo)準(zhǔn)機(jī)架,算力達(dá)到130EFLOPS(每秒一萬三千億億次浮點(diǎn)運(yùn)算)。隨著數(shù)字技術(shù)向經(jīng)濟(jì)社會(huì)各領(lǐng)域全面持續(xù)滲透,全社會(huì)對(duì)算力需求仍十分迫切,預(yù)計(jì)每年仍將以20%以上的速度快速增長(zhǎng)。
物聯(lián)網(wǎng)推動(dòng)數(shù)據(jù)幾何級(jí)增長(zhǎng),人工智能和大數(shù)據(jù)技術(shù),特別是企業(yè)級(jí)對(duì)算力的渴求,榨干了芯片企業(yè)每一絲算力,而且在算法紅利逐漸消失的現(xiàn)在,算力的增長(zhǎng)就變成了貨真價(jià)實(shí)的真金白銀。
自2012年至今,AI算力需求已增長(zhǎng)超30萬倍,以GPU為代表的AI加速芯片取代CPU,已經(jīng)成為AI算力的主要提供者。GPU服務(wù)器相對(duì)CPU服務(wù)器來說是非常昂貴的,大約是美金和人民幣匯率的差距(以8卡GPU服務(wù)器為例),而且在芯片緊缺的年代,GPU到貨周期還比較長(zhǎng)。
算力提高的背后,其實(shí)現(xiàn)目標(biāo)所隱含的計(jì)算需求——硬件、環(huán)境和金錢等成本將變得無法承受。
由于當(dāng)前粗放的使用及管理方式,大部分用戶的GPU利用率只有10%-30%,這就造成了這一寶貴資源的大量浪費(fèi),如何更好的利用和管理GPU資源就變得尤其關(guān)鍵。
算力分配失衡影響產(chǎn)業(yè)發(fā)展
算力高成本下的分配不均是影響AI產(chǎn)業(yè)發(fā)展的關(guān)鍵因素,下面是一些算力分配不均的典型場(chǎng)景:
場(chǎng)景一:
大多數(shù)的情況下采取的是為一個(gè)開發(fā)者分配一塊或幾塊GPU卡的方式來滿足開發(fā)調(diào)試的需求。這種情況下存在什么問題?卡和人綁定,卡分配之后,存在著較大的閑置,開發(fā)人員70%以上的時(shí)間都在讀論文、寫代碼,只有不到30%的時(shí)間在利用GPU資源進(jìn)行運(yùn)算調(diào)試。
場(chǎng)景二:
通過調(diào)查了解,絕大多數(shù)企業(yè)為了保證業(yè)務(wù)的隔離性,不受其它AI業(yè)務(wù)的干擾,保障服務(wù)的SLA,都是運(yùn)行在獨(dú)立的GPU卡上。在這種情況下,GPU卡的算力和顯存使用往往不到20%,這樣造成了大量的資源浪費(fèi)——近80%的算力和顯存其實(shí)是被白白消耗,而且還有與之相關(guān)的電費(fèi),運(yùn)維費(fèi)用。
場(chǎng)景三:
智能化自動(dòng)駕駛汽車是人工智能技術(shù)落地的最大應(yīng)用場(chǎng)景之一,智能化汽車很有可能成為未來萬物互聯(lián)的終端,成為繼智能手機(jī)之后,深刻改變社會(huì)形態(tài)的產(chǎn)品。
自動(dòng)駕駛研發(fā)的每一個(gè)階段幾乎都要涉及到AI深度學(xué)習(xí)算法的參與,包括機(jī)器視覺、深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、傳感器技術(shù)等均在自動(dòng)駕駛領(lǐng)域發(fā)揮著重要的作用,自動(dòng)駕駛發(fā)展的瓶頸主要在于這些人工智能底層技術(shù)上能否實(shí)現(xiàn)突破。
自動(dòng)駕駛技術(shù)與AI流程圖
在自動(dòng)駕駛領(lǐng)域的算力資源,往往分為車載邊端算力和數(shù)據(jù)中心算力:
車載算力目前以指數(shù)級(jí)方式快速增長(zhǎng),但仍不能滿足車上大量多模態(tài)AI業(yè)務(wù)的需求,所以目前關(guān)注重點(diǎn)仍然是算力硬件設(shè)備的優(yōu)化
而數(shù)據(jù)中心端則是相較通用的AI開發(fā)、訓(xùn)練和離線推理場(chǎng)景,為了迭代出更準(zhǔn)確的算法,需要對(duì)每天的路測(cè)數(shù)據(jù)進(jìn)行處理,讓自動(dòng)駕駛模型反復(fù)訓(xùn)練優(yōu)化,并且進(jìn)行大量驗(yàn)證測(cè)試工作
大多數(shù)的AI開發(fā)涉及到從數(shù)據(jù)準(zhǔn)備、預(yù)處理、模型訓(xùn)練、調(diào)參、部署模型、線上推理、持續(xù)監(jiān)控、數(shù)據(jù)收集、迭代優(yōu)化的過程。在整個(gè)業(yè)務(wù)流程中,有些工作是需要大量CPU,不需要GPU資源的,在CPU運(yùn)算的時(shí)候,其實(shí)GPU是閑置的。
AI 計(jì)算的下半場(chǎng):軟件定義算力
正如前面闡述的,算力有多重要,就有多昂貴。巨大的算力需求,使得GPU價(jià)格一直居高不下。高昂的成本,讓更多的用戶在AI世界的大門面前望而卻步。
歷史的經(jīng)驗(yàn)告訴我們,一個(gè)產(chǎn)業(yè)的發(fā)展一般都有三個(gè)階段:
Make it work
Make it perform
Make it cheap
也就可用、好用、用得起,只有一項(xiàng)技術(shù)“飛入尋常百姓家”時(shí),這項(xiàng)技術(shù)才能真正為全人類所用。
因此筆者認(rèn)為:未來10年,算力平民化會(huì)成為AI的發(fā)展方向,也是必然趨勢(shì)。
如何實(shí)現(xiàn)普惠算力?正如我們前面提到的,通過軟件定義,實(shí)現(xiàn)算力資源池化是當(dāng)下有效的辦法。
場(chǎng)景一的解決方案:
利用軟件定義GPU的技術(shù),把卡和人解綁,當(dāng)有任務(wù)調(diào)用GPU資源的時(shí)候才真正被占用,任務(wù)結(jié)束,資源釋放,回到資源池。
下圖是一個(gè)JupyterLab的開發(fā)場(chǎng)景,VSCode server/PyCharm的模式與這個(gè)類似,在實(shí)際的案例里,使用軟件定義的GPU之后,資源能縮減至25%左右!50個(gè)人的開發(fā)團(tuán)隊(duì),16張卡搞定。
場(chǎng)景二的解決方案:
通過軟件定義的方式,提供細(xì)顆粒度的GPU資源復(fù)用單卡,保障業(yè)務(wù)運(yùn)行的隔離性,可靠性和性能。大部分采取趨動(dòng)科技池化方案上線生產(chǎn)業(yè)務(wù)的客戶,可獲得3倍以上的提升收益。
場(chǎng)景三的解決方案:
打造一站式自動(dòng)駕駛AI開發(fā)、訓(xùn)練、運(yùn)維的解決方案,提供CPU、物理GPU、OrionX vGPU、存儲(chǔ)等多種資源,實(shí)現(xiàn)界面化統(tǒng)一申請(qǐng)、調(diào)度、監(jiān)控和運(yùn)維,同時(shí)實(shí)現(xiàn)AI開發(fā)和訓(xùn)練任務(wù)級(jí)別的界面化管理,提升車企或自動(dòng)駕駛企業(yè)算法研發(fā)效率,兼顧算法工程師和運(yùn)維工程師等不同人員對(duì)AI平臺(tái)的多樣化需求。
舉個(gè)例子:
如果把GPU比作大巴車,AI的計(jì)算任務(wù)比作旅游團(tuán)。計(jì)算量最小的任務(wù),就如同三五人的小團(tuán)體;計(jì)算量大的任務(wù)自然是上百人的大型旅行團(tuán)。在傳統(tǒng)的算力分配模式中,無論計(jì)算量大或者小,都會(huì)至少占用一個(gè)硬件單元。就像小團(tuán)體出游,卻占用整個(gè)大巴車,剩余的座位都是空的。正是這種模式,浪費(fèi)了大量算力,降低了GPU芯片的利用率。
我們是否可以對(duì)傳統(tǒng)算力分配模式顛覆。用最直觀的比喻來說,做出一款可以“隨需應(yīng)變、動(dòng)態(tài)伸縮”的大巴車。用戶不再使用物理AI芯片,取而代之的是隨需應(yīng)變、動(dòng)態(tài)伸縮的虛擬AI芯片。
數(shù)據(jù)中心也是算力池化非常合適的場(chǎng)景。在數(shù)據(jù)中心里,最主要是由服務(wù)器提供算力,但是因?yàn)镚PU非常昂貴,一般來說,不會(huì)每臺(tái)服務(wù)器都配備GPU。如果能夠通過軟件定義AI算力可以幫助用戶讓應(yīng)用跑在沒有GPU的服務(wù)器上,通過網(wǎng)絡(luò)使用其他服務(wù)器的GPU算力。未來網(wǎng)絡(luò)基礎(chǔ)設(shè)施會(huì)變得越來越好,如果網(wǎng)絡(luò)條件足夠好,大膽暢想,甚至可以幫助用戶在省、市的范圍內(nèi)來調(diào)配算力。
幫助用戶根據(jù)需求來動(dòng)態(tài)伸縮使用的資源。比如說,某一用戶的任務(wù)剛啟動(dòng)時(shí)只需要一個(gè)甚至半個(gè)GPU,但是隨著運(yùn)行的不斷推進(jìn),需要的計(jì)算量越來越大,就需要10個(gè)GPU,甚至更多。通過軟件可以根據(jù)具體需求,動(dòng)態(tài)變化所使用的資源。
技術(shù)演進(jìn):GPU從虛擬化到資源池化
學(xué)術(shù)界和產(chǎn)業(yè)界一直在探索如何更優(yōu)使用GPU資源,這些技術(shù)基本可以歸納為GPU池化發(fā)展的四個(gè)階段:
階段1,簡(jiǎn)單虛擬化。將單物理GPU按固定比例切分成多個(gè)虛擬GPU,比如1/2或1/4,每個(gè)虛擬GPU的顯存相等,算力輪詢。最初是伴隨著服務(wù)器虛擬化的興起,解決虛擬機(jī)可以共享和使用GPU資源的問題
階段2,任意虛擬化。支持將物理GPU按照算力和顯存兩個(gè)維度靈活切分,實(shí)現(xiàn)自定義大小虛擬GPU(通常算力最小顆粒度1%,顯存最小顆粒度1MB),滿足AI應(yīng)用差異化需求。切分后的小顆粒度虛擬GPU可以滿足虛擬機(jī),容器的使用
階段3,遠(yuǎn)程調(diào)用。重要技術(shù)突破在于支持GPU的跨節(jié)點(diǎn)調(diào)用,AI應(yīng)用可以部署到數(shù)據(jù)中心的任意位置,不管所在的節(jié)點(diǎn)上有沒有GPU。在該階段,資源納管的范圍從單個(gè)節(jié)點(diǎn)擴(kuò)展到由網(wǎng)絡(luò)互聯(lián)起來的整個(gè)數(shù)據(jù)中心,是從GPU虛擬化向GPU資源池化進(jìn)化的關(guān)鍵一步
階段4,資源池化。關(guān)鍵點(diǎn)在于按需調(diào)用,動(dòng)態(tài)伸縮,用完釋放。借助池化能力,AI應(yīng)用可以根據(jù)負(fù)載需求調(diào)用任意大小的虛擬GPU,甚至可以聚合多個(gè)物理節(jié)點(diǎn)的GPU;在容器或虛機(jī)創(chuàng)建之后,仍然可以調(diào)整虛擬GPU的數(shù)量和大;在AI應(yīng)用停止的時(shí)候,立刻釋放GPU資源回到整個(gè)GPU資源池,以便于資源高效流轉(zhuǎn),充分利用
GPU池化發(fā)展的四個(gè)階段
GPU池化:站在整個(gè)數(shù)據(jù)中心的高度解決問題。OrionX AI算力資源池化軟件不同組件的功能及邏輯架構(gòu),通過各組件“各司其職”,能為用戶實(shí)現(xiàn)單機(jī)多租戶細(xì)粒度切分、多機(jī)資源聚合、遠(yuǎn)程算力調(diào)用、資源池彈性伸縮等目標(biāo);同時(shí)由于OrionX支持異構(gòu)算力的管理和共享,所以能站在整個(gè)數(shù)據(jù)中心的高度解決GPU利用率低、成本高、分配與管理難等問題,建立數(shù)據(jù)中心級(jí)加速資源池。
OrionX基于API Forwarding的基本原理和邏輯架構(gòu)
注:(本節(jié)內(nèi)容選自趨動(dòng)科技CEO Talk:GPU池化技術(shù)的演進(jìn)與發(fā)展趨勢(shì))
注:(本節(jié)內(nèi)容選自趨動(dòng)科技CEO Talk:GPU池化技術(shù)的演進(jìn)與發(fā)展趨勢(shì))
構(gòu)建國(guó)家算力骨干網(wǎng)
2020年底,國(guó)家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國(guó)家能源局四部門聯(lián)合出臺(tái)《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》提出,到2025年,全國(guó)范圍內(nèi)數(shù)據(jù)中心形成布局合理、綠色集約的基礎(chǔ)設(shè)施一體化格局。2021年5月,前述四部門正式印發(fā)《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》(《實(shí)施方案》),明確提出布局全國(guó)算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn),啟動(dòng)實(shí)施“東數(shù)西算”工程,構(gòu)建國(guó)家算力網(wǎng)絡(luò)體系。
其實(shí)就像是電網(wǎng)和天然氣網(wǎng),算力對(duì)于有些地方來說是完全不夠用的,而對(duì)于有的地方則是空有一手的「算力」卻無處使。簡(jiǎn)單來說,興建人工智能計(jì)算中心之后會(huì)面臨三點(diǎn)問題:
不同區(qū)域AI算力使用存在波峰波谷,各地獨(dú)立的人工智能計(jì)算中心無法實(shí)現(xiàn)跨域的動(dòng)態(tài)調(diào)配
全國(guó)人工智能發(fā)展不均衡,不同區(qū)域有各自優(yōu)勢(shì),各地獨(dú)立的人工智能計(jì)算中心無法實(shí)現(xiàn)跨區(qū)域的聯(lián)合科研和應(yīng)用創(chuàng)新、資源互補(bǔ)
各地獨(dú)立的人工智能計(jì)算中心產(chǎn)生的AI模型、數(shù)據(jù),難以實(shí)現(xiàn)全國(guó)范圍內(nèi)順暢流動(dòng)、交易,以產(chǎn)生更大的價(jià)值
算力網(wǎng)絡(luò)匯聚和共享算力、數(shù)據(jù)、算法資源,最終實(shí)現(xiàn)「一網(wǎng)絡(luò),三匯聚」:
網(wǎng)絡(luò):將人工智能計(jì)算中心的節(jié)點(diǎn)通過專線連接起來形成人工智能算力網(wǎng)絡(luò)
三匯聚:算力匯聚、數(shù)據(jù)匯聚、生態(tài)匯聚
算力匯聚:連接不同節(jié)點(diǎn)的高速網(wǎng)絡(luò),實(shí)現(xiàn)跨節(jié)點(diǎn)之間的算力合理調(diào)度,資源彈性分配,從而提升各個(gè)人工智能計(jì)算中心的利用率,實(shí)現(xiàn)對(duì)于整體能耗的節(jié)省,后續(xù)可支持跨節(jié)點(diǎn)分布學(xué)習(xí),為大模型的研究提供超級(jí)算力
數(shù)據(jù)匯聚:政府和企業(yè)共同推進(jìn)人工智能領(lǐng)域的公共數(shù)據(jù)開放,基于人工智能計(jì)算中心匯聚高質(zhì)量的開源開放的人工智能數(shù)據(jù)集,促進(jìn)算法開發(fā)和行業(yè)落地
生態(tài)匯聚:采用節(jié)點(diǎn)互聯(lián)標(biāo)準(zhǔn)、應(yīng)用接口標(biāo)準(zhǔn),實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)大模型能力開放與應(yīng)用創(chuàng)新成果共享,強(qiáng)化跨區(qū)域科研和產(chǎn)業(yè)協(xié)作
各地算力中心就像大腦中數(shù)億個(gè)突觸,人工智能算力網(wǎng)絡(luò)正如神經(jīng)網(wǎng)絡(luò)。如此看來,算力網(wǎng)絡(luò)的重要意義之一便是通過匯聚大數(shù)據(jù)+大算力,使能了大模型和重大科研創(chuàng)新,孵化新應(yīng)用。進(jìn)而實(shí)現(xiàn)算力網(wǎng)絡(luò)化,降低算力成本,提升計(jì)算能效。最終打造一張覆蓋全國(guó)的算力網(wǎng)絡(luò),實(shí)現(xiàn)算力匯聚、生態(tài)匯聚、數(shù)據(jù)匯聚,進(jìn)而達(dá)到各產(chǎn)業(yè)共融共生。