“金融行業(yè)異構(gòu)算力管理面臨技術(shù)平權(quán)、租戶隔離、算力釋放、異構(gòu)管理四個核心命題。基于此,金融體系對智算集群有三大訴求:一是對金融類創(chuàng)新業(yè)務(wù)的快速支持,二是在總行核心業(yè)務(wù)上保證算力有效運行,三是有效利用總行、分行的統(tǒng)一算力,省本增效。”5月24日,在新金融聯(lián)盟主辦的“智算賦能金融服務(wù)智能化”內(nèi)部研討會上,百度智能云混合云部總經(jīng)理杜海在主題發(fā)言中表示。
國家金融監(jiān)督管理總局科技監(jiān)管司相關(guān)負(fù)責(zé)人,中國銀行原行長李禮輝做主題交流。郵儲銀行總工程師徐朝輝、交通銀行金融科技部總經(jīng)理劉雷、國家開發(fā)銀行信息科技部總經(jīng)理宋磊也做了主題發(fā)言。
會議由新金融聯(lián)盟秘書長吳雨珊主持,中國金融四十人論壇提供學(xué)術(shù)支持。23家銀行、理財子和保險公司的專家參會。會議實錄詳見:金融行業(yè)數(shù)智轉(zhuǎn)型,如何突破算力瓶頸?以下為杜海發(fā)言全文。
百度金融智算云:為大模型時代金融行業(yè)構(gòu)建“核心引擎”
文| 杜海
百度智能云混合云部總經(jīng)理 杜海
金融行業(yè)異構(gòu)算力管理面臨四個核心命題
當(dāng)前,算力行業(yè)發(fā)展非常迅速。在政策層面,不管是從國際形勢還是供應(yīng)鏈安全上,國產(chǎn)芯片已經(jīng)成為必答題,雖然還存在一些問題,但從標(biāo)準(zhǔn)統(tǒng)一到各方面,國產(chǎn)芯片已經(jīng)成為一個不可替代的選項。
在模型層面,大模型從傳統(tǒng)單一的Dense模型向混合專家架構(gòu)演進(jìn),尤其是混合專家模型底層和工程能力的結(jié)合能力,成為了目前大模型智算集群提效的核心能力。這也為更高的算力標(biāo)準(zhǔn)、更高的顯存容量以及更快、更大的通信能力提了更高要求。
在芯片層面,傳統(tǒng)GPGPU芯片難以滿足大模型性能需求,未來專用的AI加速卡逐漸成為趨勢,從成本到效率上也會更高。
基于發(fā)展趨勢,我們看到金融行業(yè)對異構(gòu)算力管理有四個方面的問題。
第一,技術(shù)平權(quán)。金融集團(tuán)公司如何實現(xiàn)寶貴的算力資源在總行、分行、子公司安全共享,實現(xiàn)技術(shù)平權(quán)和算力普惠化。
第二,租戶隔離。如何確保多租戶的任務(wù),在訓(xùn)練推理過程中,數(shù)據(jù)安全與風(fēng)險隔離。
第三,算力釋放。算力使用并不等于芯片本身的規(guī)格算力,如何通過并行策略、訓(xùn)推加速,釋放國產(chǎn)芯片性能。
第四,異構(gòu)管理,需構(gòu)建支持多架構(gòu)國產(chǎn)芯片的異構(gòu)算力納管體系,確保供應(yīng)鏈安全。
需平衡“有限算力”和“無限創(chuàng)新”的矛盾
基于這四點,我們把智算集群金融體系訴求分成了三個大板塊。
第一,金融類的創(chuàng)新業(yè)務(wù)“快”速支持。其訴求是如何快速支撐創(chuàng)新型業(yè)務(wù),常見于分行的創(chuàng)新業(yè)務(wù)體系。
第二,在總行核心業(yè)務(wù)上,如何保證算力有效運行。這里體現(xiàn)了一個字:“穩(wěn)”。
第三,對集團(tuán)周邊所有的生態(tài)公司,如何有效利用分行、總行的統(tǒng)一算力,“省”本增效,算網(wǎng)融合統(tǒng)一管理。
對此,我們把整個集群分成三部分:CPU云、訓(xùn)推一體云、訓(xùn)練云。訓(xùn)推一體云滿足總行和分行“快”和“穩(wěn)”的特點,集團(tuán)共享云滿足“省”的降本增效要求。
在整個智算集群架構(gòu)分布上,金融智算云分成四層:
最底層是國產(chǎn)的GPU芯片層,包含昆侖芯、昇騰、海光等。
第三層是智算云底座,在GPU場景里需要做一輪升級,如何能更好支撐高效能網(wǎng)絡(luò),大規(guī)模網(wǎng)絡(luò)部署、計算、存儲三者之間通過類似RDMA的相關(guān)協(xié)議形成更高效率之間的數(shù)據(jù)通信,這是一個新的智算云底座層。
第二層是GPU算力平臺,它主要通過智算云底座對底層架構(gòu)理解,把底層架構(gòu)能力透傳到上層的任務(wù)分配調(diào)度里,對訓(xùn)練、推理任務(wù),對其它AI整體任務(wù)部署,形成更有效管理。
最上一層是算網(wǎng)融合平臺,把多點集群、多點異地異構(gòu)集群通過算力網(wǎng)絡(luò)進(jìn)行統(tǒng)一管理,從算力感知再到算力調(diào)度,形成一個一體化的算力網(wǎng)絡(luò)。
如何實現(xiàn)智算集群“快”“穩(wěn)”“省”
從“快”的角度,我們的業(yè)務(wù)體系有一套方案,快速接入到智算能力中。大模型一體機(jī)能幫助業(yè)務(wù)快速使用模型能力。常見的包括基于昆侖芯的百度百舸一體機(jī)可以做到單機(jī)支持滿血的671B模型,昇騰是雙機(jī)以及其它方案。總體來說是以相對較低成本將智算能力提供給業(yè)務(wù)。
接下來有兩層延伸能力,一層是一體機(jī)無縫平滑把業(yè)務(wù)推向一個更高規(guī)模、更高并行要求的能力。我們有一體機(jī)擴(kuò)展方案,實現(xiàn)在業(yè)務(wù)不中斷、數(shù)據(jù)安全情況下的能力拓展。
再往前走,需要從這個方案去進(jìn)行相關(guān)組件初級拆分,把控制面、數(shù)據(jù)面和計算面做相應(yīng)拆離,同時保證從單一一體機(jī)到小集群到大集群業(yè)務(wù)平滑穩(wěn)定對外服務(wù)。
在這個基礎(chǔ)上,如果需要進(jìn)一步提升集群效率,可使用PD分離,更具體地把大模型運行過程中的核心能力、模塊進(jìn)行拆分。
此外,還需要全鏈路優(yōu)化。買了芯片,即使芯片規(guī)格算力很高,也不等于芯片整體效率很高。這里需要做到平臺層有主流模型預(yù)覆蓋。對新模型,尤其主流模型可以減少適配成本,快速投入生產(chǎn)。基于常見的訓(xùn)練推理框架,實現(xiàn)對應(yīng)加速提升能力。
在“穩(wěn)”的方面,更多是保障集群在使用過程中,發(fā)生故障時能快速感知、定位,并且最大化做故障自愈,而不是通過工單或者人工手段提到后臺再去進(jìn)行相關(guān)算力節(jié)點下的操作。
這里有幾個重要的點,比如怎么保證集群算力在線率,怎么保證故障快速感知。通過硬件軟件以及其它工程化手段,保證最終進(jìn)行大型任務(wù)訓(xùn)練時,它的萬卡訓(xùn)練有效率——一個月30天,每天24小時,其中有多少時間能進(jìn)行任務(wù)有效管理,排除掉所有故障,包括我們做Check point備份時間去掉,還要保證整個集群有效訓(xùn)練率。
在“省”的方面,更多是在集群能力上需要多租戶管理。在GPU時代,它的核心要有AIHC層面多租戶的切分,能基于異構(gòu)平臺把算力統(tǒng)一調(diào)度后,在AI任務(wù)層面做多租戶的切分,保證集群既安全又能有效使用。
在多芯的混合管理以及基于多芯情況下,怎么提高集群整體分配率和利用率,如何進(jìn)行異構(gòu)管理,主要有兩層:
首先要進(jìn)行統(tǒng)一算力感知。例如,昇騰的基礎(chǔ)算力能力和不同算子調(diào)度優(yōu)化能力是多少,昆侖芯在跑這些任務(wù)時的算力感知能力是多少。如何形成統(tǒng)一異構(gòu)視圖,基于任務(wù)統(tǒng)一視圖進(jìn)行統(tǒng)一分配。不同芯片的通信接口一個統(tǒng)一,通信協(xié)議,昆侖芯、昇騰通信協(xié)議之間的統(tǒng)一管理以及接口封裝。
還有一層比較難,即精度對齊。不同的異構(gòu)卡在不同的算子精度實現(xiàn)策略上有比較大的差異,既有硬件差異,也有軟件差異。如何在不同卡之間形成精度的有效對齊?這需要對芯片有非常深入的了解和實踐,再進(jìn)行封裝和適配,才有可能實現(xiàn)。
除了在技術(shù)層面對多芯統(tǒng)一適配管理,還需要在上游任務(wù)調(diào)度效率上進(jìn)行管理。很少有單一訓(xùn)練任務(wù)一跑跑30天、一口氣用萬卡資源,更多是數(shù)量眾多的小型任務(wù)。如何通過任務(wù)隊列對這些小任務(wù)進(jìn)行有效編排,從而讓集群整體利用率和任務(wù)分配率達(dá)到更高水平,是算力調(diào)度平臺任務(wù)層面需要解決的核心要求。
我分享兩個案例。當(dāng)納管集群數(shù)量達(dá)到更高規(guī)模時,集群的要求是非常大的。百度建的國產(chǎn)昆侖芯P800大型單一集群,從能源效率到機(jī)柜數(shù)量,再到存儲容量與使用效率,這個集群我們做到了98%。
我們與頭部城商行進(jìn)行智算集群合作,從底層芯片層到基礎(chǔ)環(huán)境,用的是信創(chuàng)的操作系統(tǒng)和數(shù)據(jù)庫,再到算力統(tǒng)一感知,百度基礎(chǔ)云平臺+百度百舸GPU算力平臺,加上百度智能云千帆大模型平臺及支撐,從通用場景到智能客服等應(yīng)用場景提升,做到了不同芯片混合管理、混合使用,通過異構(gòu)平臺在算力感知的情況下進(jìn)行統(tǒng)一調(diào)度能力。
目前有一個比較流行的趨勢,從單一服務(wù)器提供8卡組件,進(jìn)一步往單一節(jié)點擴(kuò)大化,把原來的單機(jī)8卡、4機(jī)32卡、8機(jī)64卡,變成單一機(jī)柜直接實現(xiàn)32、64卡的超節(jié)點方式來提供服務(wù)。在超節(jié)點內(nèi),把計算、存儲和網(wǎng)絡(luò)按照單一服務(wù)器的背板走線設(shè)計標(biāo)準(zhǔn)統(tǒng)一重新規(guī)劃,從而至少在64卡內(nèi)達(dá)到單一機(jī)型通信效率,并通過超節(jié)點間的快速擴(kuò)展技術(shù)實現(xiàn)128、1024等更大規(guī)模集群能力。
金融算力發(fā)展的四個新趨勢
在金融領(lǐng)域算力實施層面,我們看到幾個新趨勢。
第一,機(jī)構(gòu)統(tǒng)籌建設(shè)。金融行業(yè)高度重視智算領(lǐng)域算力基礎(chǔ)設(shè)施建設(shè),需要進(jìn)行整體系統(tǒng)化規(guī)劃和統(tǒng)籌。
第二,關(guān)鍵技術(shù)攻關(guān)。為支撐好金融領(lǐng)域需求,在智算化、綠色化、一體化的技術(shù)關(guān)鍵層面, 我們希望能和金融領(lǐng)域龍頭一起共創(chuàng)。
第三,標(biāo)準(zhǔn)化建設(shè)推進(jìn)。當(dāng)前標(biāo)準(zhǔn)還處于突破狀態(tài),比較分散,接下來需進(jìn)一步推進(jìn)標(biāo)準(zhǔn)化,尤其在模塊、算力、體系預(yù)制化層面是重要方向。
第四,產(chǎn)業(yè)鏈生態(tài)協(xié)同。生態(tài)產(chǎn)業(yè)鏈如何能更有效協(xié)同。現(xiàn)在信創(chuàng)更多指的是CPU、GPU、操作系統(tǒng)、數(shù)據(jù)庫等,再往后包含HBM顯存、網(wǎng)絡(luò)芯片等,這一整套體系如何更好進(jìn)行全棧信創(chuàng)的服務(wù)也是一個趨勢。
本文首發(fā)于微信公眾號:新金融聯(lián)盟NFA。文章內(nèi)容屬作者個人觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險請自擔(dān)。
【免責(zé)聲明】本文僅代表作者本人觀點,與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評論