百度金融智算云：為大模型時代金融行業構建“核心引擎”

2025-06-04 17:07:35 新金融聯盟NFA 微信號

“金融行業異構算力管理面臨技術平權、租戶隔離、算力釋放、異構管理四個核心命題。基于此，金融體系對智算集群有三大訴求：一是對金融類創新業務的快速支持，二是在總行核心業務上保證算力有效運行，三是有效利用總行、分行的統一算力，省本增效。”5月24日，在新金融聯盟主辦的“智算賦能金融服務智能化”內部研討會上，百度智能云混合云部總經理杜海在主題發言中表示。

國家金融監督管理總局科技監管司相關負責人，中國銀行原行長李禮輝做主題交流。郵儲銀行總工程師徐朝輝、交通銀行金融科技部總經理劉雷、國家開發銀行信息科技部總經理宋磊也做了主題發言。

會議由新金融聯盟秘書長吳雨珊主持，中國金融四十人論壇提供學術支持。23家銀行、理財子和保險公司的專家參會。會議實錄詳見：金融行業數智轉型，如何突破算力瓶頸？以下為杜海發言全文。

百度金融智算云：為大模型時代金融行業構建“核心引擎”

文| 杜海

百度智能云混合云部總經理杜海

金融行業異構算力管理面臨四個核心命題

當前，算力行業發展非常迅速。在政策層面，不管是從國際形勢還是供應鏈安全上，國產芯片已經成為必答題，雖然還存在一些問題，但從標準統一到各方面，國產芯片已經成為一個不可替代的選項。

在模型層面，大模型從傳統單一的Dense模型向混合專家架構演進，尤其是混合專家模型底層和工程能力的結合能力，成為了目前大模型智算集群提效的核心能力。這也為更高的算力標準、更高的顯存容量以及更快、更大的通信能力提了更高要求。

在芯片層面，傳統GPGPU芯片難以滿足大模型性能需求，未來專用的AI加速卡逐漸成為趨勢，從成本到效率上也會更高。

基于發展趨勢，我們看到金融行業對異構算力管理有四個方面的問題。

第一，技術平權。金融集團公司如何實現寶貴的算力資源在總行、分行、子公司安全共享，實現技術平權和算力普惠化。

第二，租戶隔離。如何確保多租戶的任務，在訓練推理過程中，數據安全與風險隔離。

第三，算力釋放。算力使用并不等于芯片本身的規格算力，如何通過并行策略、訓推加速，釋放國產芯片性能。

第四，異構管理，需構建支持多架構國產芯片的異構算力納管體系，確保供應鏈安全。

需平衡“有限算力”和“無限創新”的矛盾

基于這四點，我們把智算集群金融體系訴求分成了三個大板塊。

第一，金融類的創新業務“快”速支持。其訴求是如何快速支撐創新型業務，常見于分行的創新業務體系。

第二，在總行核心業務上，如何保證算力有效運行。這里體現了一個字：“穩”。

第三，對集團周邊所有的生態公司，如何有效利用分行、總行的統一算力，“省”本增效，算網融合統一管理。

對此，我們把整個集群分成三部分：CPU云、訓推一體云、訓練云。訓推一體云滿足總行和分行“快”和“穩”的特點，集團共享云滿足“省”的降本增效要求。

在整個智算集群架構分布上，金融智算云分成四層：

最底層是國產的GPU芯片層，包含昆侖芯、昇騰、海光等。

第三層是智算云底座，在GPU場景里需要做一輪升級，如何能更好支撐高效能網絡，大規模網絡部署、計算、存儲三者之間通過類似RDMA的相關協議形成更高效率之間的數據通信，這是一個新的智算云底座層。

第二層是GPU算力平臺，它主要通過智算云底座對底層架構理解，把底層架構能力透傳到上層的任務分配調度里，對訓練、推理任務，對其它AI整體任務部署，形成更有效管理。

最上一層是算網融合平臺，把多點集群、多點異地異構集群通過算力網絡進行統一管理，從算力感知再到算力調度，形成一個一體化的算力網絡。

如何實現智算集群“快”“穩”“省”

從“快”的角度，我們的業務體系有一套方案，快速接入到智算能力中。大模型一體機能幫助業務快速使用模型能力。常見的包括基于昆侖芯的百度百舸一體機可以做到單機支持滿血的671B模型，昇騰是雙機以及其它方案。總體來說是以相對較低成本將智算能力提供給業務。

接下來有兩層延伸能力，一層是一體機無縫平滑把業務推向一個更高規模、更高并行要求的能力。我們有一體機擴展方案，實現在業務不中斷、數據安全情況下的能力拓展。

再往前走，需要從這個方案去進行相關組件初級拆分，把控制面、數據面和計算面做相應拆離，同時保證從單一一體機到小集群到大集群業務平滑穩定對外服務。

在這個基礎上，如果需要進一步提升集群效率，可使用PD分離，更具體地把大模型運行過程中的核心能力、模塊進行拆分。

此外，還需要全鏈路優化。買了芯片，即使芯片規格算力很高，也不等于芯片整體效率很高。這里需要做到平臺層有主流模型預覆蓋。對新模型，尤其主流模型可以減少適配成本，快速投入生產。基于常見的訓練推理框架，實現對應加速提升能力。

在“穩”的方面，更多是保障集群在使用過程中，發生故障時能快速感知、定位，并且最大化做故障自愈，而不是通過工單或者人工手段提到后臺再去進行相關算力節點下的操作。

這里有幾個重要的點，比如怎么保證集群算力在線率，怎么保證故障快速感知。通過硬件軟件以及其它工程化手段，保證最終進行大型任務訓練時，它的萬卡訓練有效率——一個月30天，每天24小時，其中有多少時間能進行任務有效管理，排除掉所有故障，包括我們做Check point備份時間去掉，還要保證整個集群有效訓練率。

在“省”的方面，更多是在集群能力上需要多租戶管理。在GPU時代，它的核心要有AIHC層面多租戶的切分，能基于異構平臺把算力統一調度后，在AI任務層面做多租戶的切分，保證集群既安全又能有效使用。

在多芯的混合管理以及基于多芯情況下，怎么提高集群整體分配率和利用率，如何進行異構管理，主要有兩層：

首先要進行統一算力感知。例如，昇騰的基礎算力能力和不同算子調度優化能力是多少，昆侖芯在跑這些任務時的算力感知能力是多少。如何形成統一異構視圖，基于任務統一視圖進行統一分配。不同芯片的通信接口一個統一，通信協議，昆侖芯、昇騰通信協議之間的統一管理以及接口封裝。

還有一層比較難，即精度對齊。不同的異構卡在不同的算子精度實現策略上有比較大的差異，既有硬件差異，也有軟件差異。如何在不同卡之間形成精度的有效對齊？這需要對芯片有非常深入的了解和實踐，再進行封裝和適配，才有可能實現。

除了在技術層面對多芯統一適配管理，還需要在上游任務調度效率上進行管理。很少有單一訓練任務一跑跑30天、一口氣用萬卡資源，更多是數量眾多的小型任務。如何通過任務隊列對這些小任務進行有效編排，從而讓集群整體利用率和任務分配率達到更高水平，是算力調度平臺任務層面需要解決的核心要求。

我分享兩個案例。當納管集群數量達到更高規模時，集群的要求是非常大的。百度建的國產昆侖芯P800大型單一集群，從能源效率到機柜數量，再到存儲容量與使用效率，這個集群我們做到了98%。

我們與頭部城商行進行智算集群合作，從底層芯片層到基礎環境，用的是信創的操作系統和數據庫，再到算力統一感知，百度基礎云平臺+百度百舸GPU算力平臺，加上百度智能云千帆大模型平臺及支撐，從通用場景到智能客服等應用場景提升，做到了不同芯片混合管理、混合使用，通過異構平臺在算力感知的情況下進行統一調度能力。

目前有一個比較流行的趨勢，從單一服務器提供8卡組件，進一步往單一節點擴大化，把原來的單機8卡、4機32卡、8機64卡，變成單一機柜直接實現32、64卡的超節點方式來提供服務。在超節點內，把計算、存儲和網絡按照單一服務器的背板走線設計標準統一重新規劃，從而至少在64卡內達到單一機型通信效率，并通過超節點間的快速擴展技術實現128、1024等更大規模集群能力。

金融算力發展的四個新趨勢

在金融領域算力實施層面，我們看到幾個新趨勢。

第一，機構統籌建設。金融行業高度重視智算領域算力基礎設施建設，需要進行整體系統化規劃和統籌。

第二，關鍵技術攻關。為支撐好金融領域需求，在智算化、綠色化、一體化的技術關鍵層面，我們希望能和金融領域龍頭一起共創。

第三，標準化建設推進。當前標準還處于突破狀態，比較分散，接下來需進一步推進標準化，尤其在模塊、算力、體系預制化層面是重要方向。

第四，產業鏈生態協同。生態產業鏈如何能更有效協同。現在信創更多指的是CPU、GPU、操作系統、數據庫等，再往后包含HBM顯存、網絡芯片等，這一整套體系如何更好進行全棧信創的服務也是一個趨勢。

本文首發于微信公眾號：新金融聯盟NFA。文章內容屬作者個人觀點，不代表和訊網立場。投資者據此操作，風險請自擔。

（責任編輯：李悅）

【免責聲明】本文僅代表作者本人觀點，與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立，不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔全部責任。郵箱：news_center@staff.hexun.com

看全文

寫評論已有條評論跟帖用戶自律公約

提交還可輸入500字

百度金融智算云：為大模型時代金融行業構建“核心引擎”

最新評論

相關推薦

熱門閱讀

和訊特稿

百度金融智算云：為大模型時代金融行業構建“核心引擎”

最新評論

相關推薦

熱門閱讀

和訊特稿

推薦閱讀