證券時報記者 潘玉蓉
摩根士丹利已使用GPT-4進行投資策略分析,高盛也用大型語言模型做風險管理分析……
在ChatGPT成為華爾街投行的新裝備時,更快、更準、更定制的金融大模型來了——彭博社發布針對金融領域500億參數的大語言模型BloombergGPT,在處理金融專業任務上的表現,比通用大模型實現了大幅提升。
今年以來,大模型席卷金融業,一夜之間,幾乎所有金融場景都在探索適配大模型接口。然而,理想豐滿,現實骨感。有大型金融機構IT部門人士比喻,金融大模型從戰略規劃到部署落地,有著從“賣家秀”走到“買家秀”的差別。大模型在金融場景落地的最后一公里并不好走,現在談效果為時尚早。
在接受證券時報記者采訪時,各類參與主體均多次提到“生態共建”,期待聯合多方力量解決算力、算法、數據、安全、監管等問題,共赴這場金融大模型的“開卷考試”。
大模型席卷金融業
隨著大模型走向千行百業,一個共識逐漸形成:將通用大模型與垂直領域的專用大模型相結合,可以有效提升大模型的適配性。繼ChatGPT后,人工智能將在垂直應用領域掀起第二波浪潮。
巨浪席卷而來,國內金融機構和大模型廠商們也在爭分奪秒搶灘。
今年8月份金融機構發布半年報,大語言模型還停留在高管們的口頭報告中。如今,它們已經化身一張張采購訂單投向市場。金融機構的采購需求,從算力儲備到模型采購,從云計算資源到數據治理,覆蓋了人工智能產業鏈上的各類廠商。
10月10日,工商銀行發布“NLP大模型產品新技術采購項目”入圍結果,智譜華章入圍;同月,招商銀行(600036)千億級預訓練基礎大語言模型招標中,上海稀宇科技奪標;11月10日,百度網訊、中國電子系統技術有限公司聯合拿下郵儲銀行“超大規模預訓練模型金融場景應用系統軟件開發”項目包。在各大保險集團內部,針對大模型準備的GPU服務器采購、數據治理服務項目的招標,也在緊鑼密鼓地推進。
據了解,金融機構部署大模型主要有三種方式。
第一種,是獨立全棧自研,強調獨立自主可控。這是一些AI基礎較好的大型金融集團布局大模型的路徑之一。
第二種,在通用大模型或者專業大模型基礎上進行微調,結合自身海量數據(603138)和豐富場景,形成契合自身需求的金融大模型。
第三種,從云端調用,按需接入各類大模型API(應用程序編程接口),完成私有化部署。當前,百度的文心一言、阿里的通義千問、騰訊的混元大模型,都有面向金融行業構建生態合作伙伴的部署。
擁有眾多子公司和業務場景的多元化金融集團,通常選擇多種方式齊頭并進,并在內部形成賽馬機制;一些科技基礎相對薄弱的中小金融機構,通常采用第三種方式,以控制成本。
面對龐大市場需求,各大廠商紛紛開發金融大模型,一些金融科技公司也憑借過往在金融領域的積累,發布適配各類業務場景的垂直類金融大模型。
市場火熱之下,今年國內金融領域垂直大模型競相出爐。5月,度小滿推出國內首個開源的千億級中文金融大模型“軒轅”;8月,馬上消費發布首個零售金融大模型“天鏡”;9月,螞蟻集團針對金融產業深度定制的金融大模型AntFinGLM亮相,并在集團內的財富、保險平臺上內測;10月,恒生電子(600570)金融大模型LightGPT升級,在專業金融數據集、合規性要求和部署方式上實現突破,并宣布三款大模型應用產品開放公測。
度小滿首席技術官許冬亮在近期一場公開活動中感嘆:“今年以來,圍繞生成式AI的浪潮,每周都有新迭代、新發展,每天都能看到真實的效果,有點爆炸式發展、奇點臨近的感覺。”
如雨后春筍般出現的金融大模型,也給金融機構造成了選型困難。金融業需要什么樣的大模型?今年9月,由中國信通院牽頭,聯合騰訊云、科大訊飛(002230)、恒生電子、馬上消費等40多家企業共同編制了國內首個金融行業大模型標準。該標準涵蓋了金融大模型的關鍵能力要求,包括場景適配度、能力支持度和應用成熟度三大方面。此外,標準還從金融行業特性出發,覆蓋了投資研究、投資顧問、風險管理、市場營銷、客戶服務等多個應用場景,并詳細規定了金融大模型在數據合規性、可追溯性、私有化部署、風險控制等方面的要求。
“值得重做一遍
金融服務鏈”
和傳統人工智能相比,大模型能為金融行業帶來什么增量價值?
如果說傳統人工智能是專用的、煙囪式的、孤立的,在大語言模型時代,人工智能已經可以借助專業知識和推理能力,在特定領域完整地執行一段任務。
不久前,一批數字員工被引入太保集團審計中心,在審計檢查、公文質檢、咨詢問答等工作環境下進行能力試點,這些數字員工與真實員工進行人機編隊,共同作業。太保數智研究院院長王磊日前表示,大模型會帶來新的范式革命,和傳統人工智能的巨大區別體現在思考模式、行動力、通用性和邊際成本等方面。“大模型出現后,實現了對人、對崗位建模的可能性。”
在消費金融領域,大模型能力也在顯露頭角。今年8月,馬上消費發布“天鏡”大模型時披露,經過近3個月的使用,新的智能客服對客戶意圖理解準確率達到91%,相較于傳統人工智能的68%有明顯提升;客戶參與率61%,高于傳統模型43%的參與率,也高于人工座席平均28%的水平。
在近期舉辦的保險行業大模型研討會上,陽光保險集團科技中心副總經理顧青山詳解了“陽光正言”大模型開放平臺。據介紹,該模型在“夢客全線上銷售機器人”項目中,信息抽取任務準確率提升了15%,意圖識別和智能問答準確率也均有明顯提升。
螞蟻集團副總裁、螞蟻金融大模型負責人王曉航日前在金融街(000402)論壇上說,“金融服務鏈上的每一個關鍵環節,都值得用大模型重做一次”。
比如,將大模型與客戶洞察結合,提升交互式理財的體驗;讓大模型賦能專家理財和保險顧問團隊,幫助提升專業度;在數字化營銷方面,大模型能更好地理解客戶的金融需求、匹配供給,還能協助生成營銷創意,提升廣告投放的效率。
在金融中后臺,大模型也可以打開效率空間。比如,大模型在金融研判、量化編碼等方面,可以大量替代初級至中級難度的工作,將投研分析師、風險策略人員、精算師從事務性勞動中解放出來。
“我們看到了創新應用場景的爆發和涌現。”王曉航說。
落地可靠性“闖關”
理想很豐滿,現實很骨感。大模型時代,看似一切都能重構,但當金融機構將大模型部署到公司內部的時候,往往發現挑戰不小。
“大模型好比一個優秀的文科生,推理、理解、語言能力強大,但在金融投資領域,進行風險定價、運籌優化、量化分析等更多是理科生的工作,大模型無法勝任。做嚴謹的決策并不是大模型的專長。”王曉航說,“金融業對可靠性極致的要求,與大模型‘生性浪漫’的幻覺,存在著嚴重沖突。”
可靠性是大模型在金融領域落地最大的鴻溝。通用大模型對金融領域知識的欠缺,在嚴謹性上有明顯的短板,使其不可能“開箱即可用”,還需要經歷復雜的工程以完成適配。
為了將大模型更好地“縫合”到業務場景中,提升可靠性、安全性和流暢度,各大廠商的主流方案有三種。一是將大模型與專業領域的小模型結合,大模型負責認知、理解、溝通、創作,小模型負責把握風險、承載嚴謹的邏輯;二是將大模型的參數知識與結構化、顯性化、可靠的金融知識圖譜相結合,此舉能很好地為大模型注入可靠性;三是將開放QA(問答)和封閉QA結合,讓大模型得到請求指令后,在專業知識領域內進行檢索,大幅提高準確性。
例如,度小滿發布的軒轅大模型,在通用大模型基礎上增加了大量的金融領域專業知識,從預訓練開始調整模型,在國內銀行從業資格考試的答題表現中明顯好于通用大模型。
數據訓練攔路虎
無論是傳統人工智能時代,還是大模型時代,數據都是基礎。在大模型領域流行一句話:“garbage in,garbage out”,即輸入垃圾數據會導致輸出垃圾結果,可見對大模型進行預訓練,數據是重中之重。
據王曉航估計,全市場上有質量的金融語料,大概不到2000億tokens,但滿足“高質量、大規模、價值觀正確”條件的語料占比不到40%。在王曉航看來,語料質量的重要性要高于數量。
“我們公司在大資管領域做了20多年的數據標準化,但是在大模型面前,仍感到過去的工作非常初級——各家機構對于數據的標準都有自己的定義。”一位金融IT服務商高管道出了金融機構存儲數據的現狀:標準不統一,非結構化數據多,數據治理工作繁重。
華為盤古金融大模型人士表示,當前金融機構最重要的任務之一,是如何將散落在業務場景里非結構化的數據集和企業原有的高質量數據集相整合。
數據作為金融機構最重要的資產,流通性差是其特點之一。目前,各家金融機構引入的大模型都是私有化部署,各自訓練,以最大程度保障數據安全、隱私和合規要求,但也造成算力的浪費、數據庫重復建設和成本居高不下等問題。
北京本應科技總經理曹凱認為,當前金融大模型仍然是“小學生水平”,難以輔助對投資趨勢進行洞察,原因包括,模型的數據參數量不夠大,對產業、社保、工商等多元異構數據的積累不夠多,且數據間的關聯性較弱,無法達到大模型“涌現”的效果。
談論效果尚早
一位大型保險集團科技部門人士把大模型的部署過程比作“賣家秀”變“買家秀”的過程。
他透露,公司推進大模型過程中遭遇到了各種問題,包括但不限于訓練數據問題、算力不足問題、成本收益平衡問題、數據風險問題等等。
他忠告,在大模型應用場景選擇上,應先內后外,先易后難;要有兜底機制,不能只談智能、沒有人工,短期內還有深化傳統模型的需求。“大模型產生的虹吸效應,把許多IT資源都吸過去了,這對于多元化科技生態來講,不見得是好事。”
王磊也表示,該集團的“數字員工”項目要真正落地,仍是一件十分有挑戰性的工作。比如,要有強大的算力基礎、底座大模型平臺來支撐它運作;要輸入崗位所需的專業知識和數據,構建數字工作環境;除此之外,項目真正落地時還會碰到新的問題。
受現實條件的限制,金融大模型的落地應用程度并非想象中那么高,談論效果更為時尚早。恒生電子面向金融機構進行的大模型應用狀況調研顯示,71%的受訪者所在的機構正在調研大模型,17%的機構已經在測試中,真正落地實踐的機構不到10%。
共建生態
“光靠自己不行”
打通大模型在金融業落地的最后一公里并非易事。在記者的采訪中,無論是大模型服務商、金融機構,還是各類金融科技公司,在交流中均多次提到“生態共建”,其內涵包括“共創、共建、共治”,如同共赴一場“開卷考試”。
不久前,眾安保險發布了保險行業首份AIGC應用圖譜,協助保險機構在大模型內嵌入行業專業領域知識庫,實現AIGC在保險垂直領域的應用快速適配。
日前舉辦的金融科技數智大會上,陽光保險同時組織召開了“保險科技數智創新聯合體”籌備閉門會議。據悉,該聯合體旨在推動保險垂類大模型的深入研發和應用,提升保險業整體智能化水平。
面對大模型落地的挑戰和技術難度,太保集團也認為“光靠自己是不行的”。據悉,太保和行業聯合建立實驗室,希望實現優勢互補,行業共享,風險共擔。今年進博會上,太保和華為、科大訊飛成立了實驗室,希望三方聯合起來面對一些挑戰。
推動大模型在金融領域發揮更大的價值,各界都在努力。日前,上海人工智能研究院院長宋海濤對記者表示,該機構正在推動設立工業及制造業、金融等領域的專業語料庫,以減少資源的浪費。
深圳天使投資引導基金副總經理徐向東認為,當前金融行業存在數字化程度不足、金融數據流動性不足、數據字典不統一等問題,制約了大模型的使用。他呼吁,應盡快培育數據要素市場,加強金融數據標準化,增強數據可信、可用、可流通、可追溯水平,為大模型更好地在金融行業落地創造條件。
最新評論