垂直大模型的第一關(guān):把數(shù)據(jù)“煮熟”
在應(yīng)用上下功夫,被很多人認(rèn)為是中國(guó)大模型超車的捷徑。應(yīng)用就要落腳到各個(gè)行業(yè)和場(chǎng)景,也就是垂直大模型。但是做垂直模型也面臨著很多難關(guān)。
“很多行業(yè)缺乏權(quán)威統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,缺少工作依據(jù),特別是金融行業(yè),雖然有很多部門和政府都在嘗試做,但還未形成統(tǒng)一的數(shù)據(jù)治理標(biāo)準(zhǔn)。”國(guó)家電子計(jì)算機(jī)質(zhì)量檢驗(yàn)檢測(cè)中心(以下簡(jiǎn)稱“國(guó)家計(jì)算機(jī)質(zhì)檢中心”)專家認(rèn)為,這是發(fā)展垂直大模型要過的第一關(guān),否則都將是無米之炊。
2024年8月16日,在零壹智庫(kù)與蘇州高鐵新城產(chǎn)業(yè)發(fā)展有限公司聯(lián)合舉辦的“金融數(shù)智化系列研討會(huì)之:金融大模型的機(jī)遇與門檻”會(huì)議上,國(guó)家計(jì)算機(jī)質(zhì)檢中心專家對(duì)數(shù)據(jù)治理問題進(jìn)行了深入闡述。
在會(huì)后的訪談中,國(guó)家計(jì)算機(jī)質(zhì)檢中心專家在會(huì)議發(fā)言的基礎(chǔ)上,系統(tǒng)闡述了對(duì)數(shù)據(jù)治理、數(shù)據(jù)管理等方面的理解。
垂直模型初具數(shù)據(jù)基礎(chǔ)
零壹財(cái)經(jīng):一般認(rèn)為,大模型的發(fā)展有三大基礎(chǔ),算力、算法和數(shù)據(jù)。當(dāng)前討論較多的數(shù)據(jù)更多是各類公開和公共數(shù)據(jù),但隨著大模型向各個(gè)產(chǎn)業(yè)、細(xì)分領(lǐng)域和場(chǎng)景深入,行業(yè)性數(shù)據(jù)、商業(yè)性數(shù)據(jù)、用戶數(shù)據(jù)等非公開數(shù)據(jù)就成為核心資源。現(xiàn)在是否具備發(fā)展垂直領(lǐng)域大模型的數(shù)據(jù)基礎(chǔ)?
國(guó)家計(jì)算機(jī)質(zhì)檢中心專家:
隨著各行業(yè)數(shù)字化水平持續(xù)提高以及大數(shù)據(jù)前沿技術(shù)的進(jìn)步,許多企業(yè)和單位已經(jīng)建立起自己的數(shù)據(jù)中心、數(shù)據(jù)倉(cāng)庫(kù)等,積累了大量的行業(yè)性數(shù)據(jù)、商業(yè)性數(shù)據(jù)和用戶數(shù)據(jù),其內(nèi)容和種類豐富,已經(jīng)初步具備了發(fā)展大模型的技術(shù)和數(shù)據(jù)基礎(chǔ)。
但是在具體實(shí)施層面,仍然存在一些挑戰(zhàn)。比如數(shù)據(jù)的有效性和準(zhǔn)確性,直接影響大模型的訓(xùn)練效果;比如在訓(xùn)練過程中如何保護(hù)用戶數(shù)據(jù)隱私,防止泄露。
讓數(shù)據(jù)可用、好用,更加真實(shí)地反映行業(yè)和用戶需求,這對(duì)于數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全提出了持續(xù)性要求,需要有一套常態(tài)化的數(shù)據(jù)管理手段。
數(shù)據(jù)管理的國(guó)家標(biāo)準(zhǔn)
零壹財(cái)經(jīng):看來數(shù)據(jù)管理是關(guān)鍵。但數(shù)據(jù)管理是很籠統(tǒng)的說法,可以包含數(shù)據(jù)業(yè)務(wù)的方方面面,如何建立合理的數(shù)據(jù)管理標(biāo)準(zhǔn)?
國(guó)家計(jì)算機(jī)質(zhì)檢中心專家:
近年來雖然對(duì)于數(shù)據(jù)管理和治理領(lǐng)域的標(biāo)準(zhǔn)重視程度日益提高,但其內(nèi)容和方法確實(shí)缺少統(tǒng)一定義,通常以信息化、數(shù)字化系統(tǒng)建設(shè)為主要手段。
而不同企業(yè)的數(shù)據(jù)管理現(xiàn)狀差異很大。數(shù)據(jù)治理是一項(xiàng)復(fù)雜工程,往往面臨眾多問題,需要系統(tǒng)性指引。
正是基于構(gòu)建數(shù)據(jù)管理基礎(chǔ)制度的頂層設(shè)計(jì),我國(guó)從整個(gè)體系框架的層面推出了DCMM標(biāo)準(zhǔn),即《數(shù)據(jù)管理能力成熟度評(píng)估模型》。
這是我國(guó)在數(shù)據(jù)管理領(lǐng)域的首個(gè)國(guó)家標(biāo)準(zhǔn),代表了一種自上而下的數(shù)據(jù)治理方法,經(jīng)過多年的大力推廣,正處于高速發(fā)展期。
DCMM標(biāo)準(zhǔn)體系將企業(yè)數(shù)據(jù)管理成熟度劃分為五個(gè)等級(jí),按照從低至高的特征,分別為項(xiàng)目級(jí)、部門級(jí)、組織級(jí)、量化級(jí)、優(yōu)化級(jí),清晰地定位不同企業(yè)數(shù)據(jù)管理能力所處的階段。
通過數(shù)千家企業(yè)的評(píng)估實(shí)踐,已經(jīng)充分證明了DCMM等級(jí)劃分的科學(xué)性和適用性。
金融行業(yè)同樣也適合借助DCMM標(biāo)準(zhǔn)體系的推廣、貫標(biāo)以及應(yīng)用,幫助企業(yè)和行業(yè)機(jī)構(gòu)科學(xué)的評(píng)估自身的數(shù)據(jù)管理能力,發(fā)現(xiàn)自身在數(shù)據(jù)管理方面的問題和不足,建立起符合自身特點(diǎn)的數(shù)據(jù)管理框架,為金融數(shù)據(jù)資產(chǎn)化、參與數(shù)據(jù)市場(chǎng)流通奠定了堅(jiān)實(shí)基礎(chǔ)。
零壹財(cái)經(jīng):具體而言,在哪些環(huán)節(jié)、哪些領(lǐng)域進(jìn)行改進(jìn),才能獲得更好的數(shù)據(jù)管理級(jí)別?
國(guó)家計(jì)算機(jī)質(zhì)檢中心專家:
DCMM體系兼顧了技術(shù)和管理多方面的要求,從組織、制度、流程、工具等多個(gè)維度綜合分析,幫助企業(yè)發(fā)現(xiàn)問題,改進(jìn)問題。它充分覆蓋了數(shù)據(jù)治理的常見要素,具體包括八個(gè)核心能力域——數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生存周期。
具體來說,應(yīng)當(dāng)運(yùn)用先進(jìn)的技術(shù)工具和平臺(tái),支撐大數(shù)據(jù)治理和應(yīng)用工作落地;同時(shí)也要重視全過程的規(guī)范管理,引導(dǎo)企業(yè)的管理部門和業(yè)務(wù)部門共同參與,保障數(shù)據(jù)管理工作的閉環(huán)和常態(tài)化執(zhí)行;應(yīng)當(dāng)自上而下地推動(dòng)形成數(shù)據(jù)管理文化和意識(shí),明確數(shù)據(jù)管理的目標(biāo)、路徑和權(quán)責(zé),避免為了治理而治理;積極探索多樣的數(shù)據(jù)分析、數(shù)據(jù)共享方式,挖掘并實(shí)現(xiàn)內(nèi)外部數(shù)據(jù)資產(chǎn)價(jià)值。
這樣多管齊下,才能全面提升數(shù)據(jù)管理水平。
挑戰(zhàn):大部分企業(yè)還處于2級(jí)階段
零壹財(cái)經(jīng):經(jīng)過近幾年的數(shù)據(jù)管理檢測(cè)和評(píng)級(jí)的推進(jìn),你們認(rèn)為現(xiàn)在數(shù)據(jù)管理領(lǐng)域面臨的最大的問題是什么?
國(guó)家計(jì)算機(jī)質(zhì)檢中心專家:
從企業(yè)方面來說,領(lǐng)導(dǎo)層面的認(rèn)識(shí)和決心是最重要的,是數(shù)智化轉(zhuǎn)型的原動(dòng)力。面對(duì)數(shù)據(jù)管理這樣一項(xiàng)涉及眾多部門、需要耗費(fèi)大量精力和財(cái)力的工作,不同行業(yè)和地區(qū)的現(xiàn)狀也差異較大。
以DCMM全國(guó)貫標(biāo)工作的數(shù)據(jù)來看,大部分企業(yè)處于2級(jí)階段,也代表著大部分?jǐn)?shù)據(jù)需求僅限于業(yè)務(wù)層面,對(duì)于數(shù)據(jù)治理體系和平臺(tái)的整體規(guī)劃投入不足,企業(yè)對(duì)于數(shù)據(jù)治理的意義和認(rèn)識(shí)有待提升。
從行業(yè)的角度,數(shù)據(jù)管理工作在落地的過程中,往往面臨行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)欠缺的問題。各行業(yè)工作特性差異巨大,勢(shì)必需要細(xì)致的數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)安全等行業(yè)規(guī)范。
如果沒有權(quán)威、統(tǒng)一的行業(yè)數(shù)據(jù)治理標(biāo)準(zhǔn),由企業(yè)自行開展規(guī)劃建設(shè),既增加了數(shù)據(jù)治理的成本和難度,也對(duì)數(shù)據(jù)開放共享流通環(huán)節(jié)帶來困難。
而在數(shù)據(jù)管理測(cè)評(píng)認(rèn)證方面,雖然數(shù)據(jù)領(lǐng)域的各項(xiàng)標(biāo)準(zhǔn)在積極推進(jìn),但全國(guó)性的、權(quán)威的數(shù)據(jù)治理認(rèn)證體系仍然不多。
譬如現(xiàn)在國(guó)家大力推動(dòng)的數(shù)據(jù)入表、數(shù)據(jù)要素交易流通等工作,其前提就要求確保數(shù)據(jù)質(zhì)量,由第三方機(jī)構(gòu)出具數(shù)據(jù)質(zhì)量報(bào)告。但數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)在各行業(yè)、各地區(qū)的落地轉(zhuǎn)化、評(píng)估認(rèn)證仍然缺乏統(tǒng)一的體系,尺度和要求不一。
數(shù)據(jù)質(zhì)量報(bào)告難以跨行業(yè)、跨地區(qū)的相互認(rèn)可,這不僅限制了大規(guī)模數(shù)據(jù)交易和應(yīng)用,也增加了國(guó)家和行業(yè)監(jiān)管的難度,無法準(zhǔn)確衡量數(shù)據(jù)質(zhì)量和制定監(jiān)管措施,影響數(shù)據(jù)市場(chǎng)的長(zhǎng)遠(yuǎn)健康發(fā)展。
政務(wù)數(shù)據(jù)的特點(diǎn)與嘗試
零壹財(cái)經(jīng):各行各業(yè)都有很多數(shù)據(jù)其實(shí)掌握在政府部門。從政府?dāng)?shù)據(jù)管理的角度看,目前“數(shù)據(jù)成熟度”如何?
國(guó)家計(jì)算機(jī)質(zhì)檢中心專家:
政府和政務(wù)數(shù)據(jù)是我國(guó)近年在數(shù)據(jù)治理領(lǐng)域意識(shí)比較領(lǐng)先的,發(fā)揮著積極作用。一方面各地政數(shù)局等數(shù)據(jù)主管部門牽頭制定公共數(shù)據(jù)共享服務(wù)標(biāo)準(zhǔn),規(guī)劃和規(guī)范各地區(qū)數(shù)據(jù)治理的頂層設(shè)計(jì)。
同時(shí)一些發(fā)展水平較成熟的地區(qū),積極牽頭建設(shè)數(shù)據(jù)交換共享服務(wù)平臺(tái),甚至設(shè)立數(shù)據(jù)交易流通市場(chǎng),深度參與到數(shù)據(jù)治理工作中,推動(dòng)數(shù)據(jù)資源的整合和共享,為政府?dāng)?shù)據(jù)管理提供了更加便捷、高效的工具,有助于提升各地?cái)?shù)據(jù)管理的規(guī)范化和標(biāo)準(zhǔn)化水平。
一些數(shù)字化水平較高的行業(yè),也由各地行業(yè)主管部門積極推進(jìn),統(tǒng)籌行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化管理。比如金融、能源、醫(yī)療等行業(yè)的監(jiān)管水平都相對(duì)領(lǐng)先。
我們接觸了一些醫(yī)療機(jī)構(gòu),了解到北京數(shù)交所去年在北京醫(yī)管局選擇了六家醫(yī)院做數(shù)據(jù)共享和交易試點(diǎn)。數(shù)據(jù)交易有多種模式,包括統(tǒng)一的、分場(chǎng)景的、分級(jí)分類的,目前主要是集中共享到交易平臺(tái),需求方經(jīng)授權(quán)后按需使用,但不能拿走數(shù)據(jù)。
但不管是地方政府或者行業(yè)主管部門,他們?cè)跀?shù)據(jù)要素市場(chǎng)中的定位和權(quán)責(zé)與企業(yè)、公民有很大不同,更多是管理方或監(jiān)管方的身份。
政務(wù)數(shù)據(jù)在數(shù)據(jù)安全、數(shù)據(jù)價(jià)值等方面的要求和關(guān)注點(diǎn),也與其他種類數(shù)據(jù)有所不同。
因此在數(shù)據(jù)治理和交易流通的鏈條中,仍然需要不同參與方基于自身的訴求和特點(diǎn),承擔(dān)不同的數(shù)據(jù)治理任務(wù),共同構(gòu)建數(shù)據(jù)治理生態(tài)。
金融業(yè)數(shù)據(jù)“成熟度”較高
零壹財(cái)經(jīng):很多金融機(jī)構(gòu)和金融科技機(jī)構(gòu)在推進(jìn)金融大模型的發(fā)展和創(chuàng)新。金融業(yè)是數(shù)據(jù)密度、敏感度很高的行業(yè)。在金融數(shù)據(jù)管理方面,目前整體情況如何,是否為金融大模型的發(fā)展做好了準(zhǔn)備,您有什么建議?
國(guó)家計(jì)算機(jī)質(zhì)檢中心專家:
金融行業(yè)在數(shù)據(jù)管理方面,目前整體呈現(xiàn)出積極向好的態(tài)勢(shì),建議持續(xù)完善和提升,積極探索金融大模型的發(fā)展。
以DCMM全國(guó)貫標(biāo)工作的統(tǒng)計(jì)數(shù)據(jù)來看,金融業(yè)雖然在企業(yè)絕對(duì)數(shù)量上不多,在獲得DCMM證書的金融企業(yè)中,DCMM三級(jí)以上占比超過一半,取得最高等級(jí)的五級(jí)企業(yè)(銀行)也有多家,數(shù)據(jù)治理平均能力處于全國(guó)領(lǐng)先。
在數(shù)據(jù)治理平臺(tái)建設(shè)、數(shù)據(jù)分析應(yīng)用開發(fā)等方面得分較高,在數(shù)據(jù)安全這一其他行業(yè)普遍偏弱的領(lǐng)域,由于金融行業(yè)的特點(diǎn),也有較高的數(shù)據(jù)管理意識(shí)和管理水平。
甚至于DCMM國(guó)家標(biāo)準(zhǔn)本身,在起草之初也參考調(diào)研了我國(guó)金融行業(yè)的數(shù)據(jù)治理實(shí)踐經(jīng)驗(yàn)。
有力的行業(yè)監(jiān)管和良好的數(shù)字化基礎(chǔ),強(qiáng)烈的數(shù)據(jù)治理的需求,以銀行為代表的集團(tuán)公司+子公司的組織形態(tài),這些條件都為金融行業(yè)各機(jī)構(gòu)、各級(jí)數(shù)據(jù)管理工作的落實(shí)提供了持續(xù)推力和資源保證。
金融數(shù)據(jù)行業(yè)可以充分發(fā)揮自身的優(yōu)勢(shì)積累,以行業(yè)頭部機(jī)構(gòu)為優(yōu)勢(shì)示范案例和帶頭,在全面深化提升整個(gè)行業(yè)的數(shù)據(jù)管理水平的同時(shí),從數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)開放共享等方面繼續(xù)完善數(shù)據(jù)治理成果。
加強(qiáng)數(shù)據(jù)要素生態(tài)合作,積極創(chuàng)新實(shí)踐,探索發(fā)展適合行業(yè)特點(diǎn)和發(fā)展需求的金融大模型。
免責(zé)聲明:本文、圖片均轉(zhuǎn)載網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系刪除。
致力于分享最及時(shí)的金融行業(yè)資訊
企業(yè)信息共享互動(dòng)平臺(tái)