投稿邮箱: mszkjr2022@126.com
数据标准化+AI大模型:银行数据治理新动能
2024年12月09日 13:52 来源:农金在线网

摘要:


随着科技的迅猛发展,数据的价值日益凸显。它被银行用在各个方面,数据资产入表、数据质押贷款、基于大数据定制千人千面的客户交互流程等等。数据标准化对于推动数据的充分使用发挥着至关重要的作用。近日,国家数据局为充分发挥标准在激活数据要素潜能方面等作用,发布《国家数据标准体系建设指南》。指南出要以数据“供得出、流得动、用得好、保安全”为指引,构建数据标准体系。


为了充分激活数据要素得潜能,各大银行也纷纷做出了许多努力,构建湖仓一体数据平台、制定行内数据治理标准等等。与此同时,人工智能也在各大银行遍地开花,AI问答、AI代码助手等。数据治理平台与AI大模型的碰撞将引领数字治理的迭代升级。


数据治理现状及痛点


从数据的生命周期来看,首先设计存储系统的表结构,然后捕捉来自各个方向的数据并存储在数据库,其次下游系统使用数据用于决策分析,再次是将不常用的数据归档,最后是将永久不需要的数据删除。不同系统、不同人员设计的表结构会有不同,数据存储方式也有不同。此时,数据的归集分析就遇到了难题,数据治理应运而生。数据治理是一项质量管理过程,它专注于通过策略制定、流程设计、持续监控等手段对数据采集源头、数据使用环节进行治理,以确保数据资产的可用性和合规性。为了更加科学的对数据进行治理,不少银行选择依托国家及行业标准制定行内标准对数据进行监管,并利用数据设计平台通过标准化行内表结构设计过程在源头对数据进行治理。


通过分析银行的案例可以看出,目前的数据治理流程存在着一些痛点。首先,它对人员的素质要求较高。以需求业务人员、技术人员、数据人员对在各类场景中对数据理解一致、定义一致为前提,不符合UTAUT理论(技术接受与使用统一理论)。其次,数据治理天然是标准性的工作,包括许多机械性的条条框框,而人脑更擅长处理复杂、非结构化的信息。最后,不断的沉淀、归纳、修正数据标准也需要浪费大量的人力成本。而这些问题恰巧是人工智能善于解决的,我们可以运用生成式大模型,赋能数据治理。


人工智能在银行应用


近两年,随着ChatGPT的横空出世,人工智能中的生成式大模型愈加炙手可热。生成式大模型是一种通过大规模训练数据构建的复杂神经网络。从谷歌精选的人工智能案例可以看出,它包含协助解答客户问题的客户代理、解答员工问题的员工代理、依托代码规则生成代码的代码代理、协助分析数据问题的数据代理等。不少银行也将其纳入发展规划,落实在自己系统的各个角落,比如招商银行的“低代码+大模型”、兴业银行的“随兴写”、工行的“未问先答+多轮场景+线上图文”智能服务模式等等。其中,本文提出的”数据治理+AI大模型”就与代码生成有着异曲同工之妙。


“数据治理+AI大模型”创建银行数据治理新范式


因此,我们可以仿照此种做法,结合质量管理的PDCA循环理念,在数据治理的各个环节嵌入大模型。首先,标准数据抽取。利用大模型处理存量数据,从中抽象出基础标准、词根、词缀等信息。然后利用人工标注的方法进行修订,最终形成基础版本。其次,源头防控。在设计表结构时,由用户输入目的。然后让大模型根据词根、词缀及相关规则匹配,生成表字段甚至表结构生成的内容可以修改,人工二次复合。这样,一方面可以减少人工从零到一编写的时间成本,提高效率。另一方面,生成式大模型目前存在一定的幻觉问题,准确率从70%100%提升时,需要极高的成本人工二次复合可以更低成本提高这个准确率。


然后,中间环节监测及修改。数据入湖后,利用人工智能算法结合行内外数据标准实时分析湖内不合标数据,定时通知、及时修改。最后,反馈修补。尾部治理时,利用人工智能算法分析存量表结构,沉淀词根、词缀,迭代数据标准、反向优化生成式模型算法,提高其准确率。


未来挑战与展望


人工智能正在赋能各行各业的发展,数据飞轮与人工智能相辅相成。展望未来,数据治理与AI大模型在银行业的融合应用前景广阔。一方面,银行通过数据治理沉淀大量数据资产并利用AI挖掘有价值信息,另一方面,通过AI辅助生成在各个治理环节降本增效。

 

(通讯员: 李新婷)

 



【责任编辑:刘一然】

分享到:
链接已复制