• PG电子·(中国)官方网站

    创新中心观点
    数字金融 | 祝世虎:ChatGPT给金融机构带来的思考
    2023-06-05

    以下文章来源于金融科技研究 ,作者金融科技50人论坛

    导读:近期,由金融科技50人论坛联合pg电子官方网站、高景立学共同推出的“2023数字金融公益直播课”第二期顺利开讲。本期嘉宾邀请到光大信托信息技术部副总经理、数据中心总经理祝世虎,他分别从ChatGPT简述、ChatGPT的技术分析、ChatGPT的应用边界、法律与合规以及在金融行业的应用展望四个方面,阐述了“ChatGPT给金融机构带来的思考”。

    以下为实录内容:

    一、ChatGPT简述

    1、ChatGPT简述

    ChatGPT是自然语言对话方式的聊天机器人,”Chat”指聊天,GPT是一种算法。ChatGPT包含文本、图画、自动问答、翻译和代码等功能。“2022年末以来,它迅速走红全球,全球客户突破3亿”充分说明产品评价取决于客户数。ChatGPT由OpenAI公司开发,微软为公司提供资金支持。目前国内与ChatGPT同类型的产品是百度研发的文心一言,已经推出测试版。网上有一位画家用ChatGPT绘制名为《有光有爱有远方》的画作,得到广泛关注。我也尝试用ChatGPT撰写一封表扬信的开放性作文,撰写效果非常好,这封表扬信放在任何一家银行、信托公司都是可以通用的。

    2、ChatGPT:从技术到客户的珠联璧合

    诚然ChatGPT的技术非常好,但我觉着其成功更多是产品的成功,因为产品具有易用、好用和实用的三个特征。易用方面,OpenAI公司斥巨资提供了便捷的API接口,使每个人都可以方便地用手机、笔记本接入,为ChatGPT产品吸引了大量客户。好用方面,其效果远高于同类型的传统产品,让很多出于好奇的客户变成初级使用者。实用方面,学生可以用其写作业,程序员可以用其写代码,画师可以用其画画,这正是解决劳动力问题的地方。让人们慢慢地从初级使用者变成了坚定的使用者,这个过程好比客户旅程。因此,我认为易用、好用、实用所带来的客户旅程是ChatGPT成功的关键之一。

    从技术和产品关系的角度分析,首先,我所经历的AI史上第一个里程碑AlaphaGo,虽然其技术是很领先的,但是因为其产品设计使客户群体仅局限于围棋的垂直领域,难以形成ChatGPT这样受欢迎的场景。技术好不是全面的,产品好才更重要。其次,以二维码支付为例,现在大部分人都会用二维码去支付,但是二维码技术推广同期有更先进的技术,比如门禁卡技术、芯片卡技术。二维码的成功并不是源于技术先进,而是产品成功,也是延续易用、好用、实用的路线。以金融机构的视角来看,第一,创新产品、数字化转型时一定是业务引领,而不是科技引领;第二,转型和创新的成功一定是业务的成功,而不是科技和风险的成功;第三,业务成功的关键一定是产品的成功;第四,线上唯一可以调动客户行为的是产品设计。综上,ChatGPT带给金融机构的启示是:路线业务引领,标志业务成功,核心是产品成功,产品调动客户。

    3、OpenAI:工程师的桃花源

    OpenAI成功的关键因素包括两方面,一方面在于其有300多名工程师,这些工程师自由散漫但理想崇高,它可以无忧无虑地以工程师的思维改变世界。“自由散漫”指的是当技术路线和管理路线发生冲突时,工程师要站在技术角度进行取舍。“理想崇高”指的是坚定自身技术路线。OpenAI公司300名工程师中,包括模型人员90人,系统人员15人、数据人员180人、ITBP人员15人。模型人员和ITBP人员的占比从侧面反映一家金融机构的数字化转型的程度。对于金融机构而言,模型人员占比越高,机构的自动化程度越智能;ITBP人员占比越高,机构的科技和数字化转型越贴近业务。

    另一方面,OpenAI将算力、专业化的数据处理全部外包。这对于金融机构在设置外包和自主研发边界中具有启示:体现核心竞争力的地方一定要自主研发,非核心竞争力的专业能力可以外包,比如算力、简单人工数据、人工标注等。

    4、Microsoft:第三代的王者荣耀

    微软主要实现了三代“王者荣耀”时刻。第一代“王者荣耀”是Office,它实现了文字的电子化,但是本地化的Office存在问题,当我们进行“CTRL+C”和“CTRL+V”拷贝粘贴时,仅限于这台电脑中的文字。第二代“王者荣耀”是搜索引擎,我们可以“CTRL+C”和“CTRL+V”拷贝粘贴所有互联网的文字,文字范围有所扩大。第二代半“王者荣耀”是搜索引擎变种即主动推荐,形成主动数据采集和搜索功能,相比于传统搜索更加智能。第三代“王者荣耀”是ChatGPT,其范围不再局限于历史已有文字,而是可以组合形成新文字,读起来更加合情合理。

    5、岗位之争:人与AI的边界线

    关于人和AI的边界线究竟在什么地方。第一,体力劳动一定会被简单机械所取代,这是已经发生的;第二,重复性劳动能被简单智能机器所取代,比如金融机构OA系统、RPA机器人等。此外,目前90%的人相信自动驾驶会实现。ChatGPT可以取代什么工作,有些人总结成简单的创造性工作,但是我觉得这种说法是不恰当的。第一,任何不需要深度感情交流的工作都可能会被AI所取代。以包饺子为例,机器包饺子早已实现且味道不错。但饺子是容易被注入感情的,机器无论如何也包不出妈妈的味道。虽然机器有可能写出有感情的作品,但是机器不一定能够理解感情。因此,抢走工作的不是AI,而是先掌握AI的人。如何保证自己的工作不被AI所替代?这需要我们在工作中奉献爱,用爱去工作,只要把爱心放到工作中,我们的工作就很难被取代。

    第二,ChatGPT本质是生产力的跃升,这与历史上的生产力提升是一样的,蒸汽机替代马车、电力替代蒸汽机。虽然会在短时间内对人类的就业结构产生冲击,但由于人力资源的稀缺性,中长期不会存在大规模失业,只是就业结构发生了变化。启示便是,我们可能需要提前考虑子女上学时什么专业不会被AI所取代,人与AI边界线哲学观点将会深刻影响下一代的就业结构、思维观念等。传统上,我们认为人类劳动者分为体力劳动者和智力劳动者,从AI视角看,可能只存在碳基劳动者(体力劳动者、智力劳动中)和硅基劳动者,并且它可能认为碳基劳动者是为硅基劳动者服务的,这就需要哲学家们帮我们区分人与AI的边界线,以及AI算法的人工智能伦理。

    6、岗位之争:从社会主义的初级阶段的基本理论去理解

    ChatGPT时代会颠覆很多事情,引起岗位变化。很难想象在医疗资源相对贫瘠的非洲大陆上,昨天的一家网吧会在今天摇身一变成为互联网医院。但是现在可以相信互联网技术的变化,无论是网吧还是医院,对于互联网、人工智能而言,无非是一个终端。在这种大变革下,某些岗位会发生变更。

    从社会主义初级阶段的基本理论来理解,社会主义初级阶段主要矛盾是人们日益增长的物质文化需求同落后的社会生产之间的矛盾。落后的社会生产指的是两点:人力资源稀缺和生产力。ChatGPT本质上是通过科技创新提高生产效率,以更少人力去生产原来商品,让节约的人力进入新的行业,增加新的商品和服务供给。综合来看,ChatGPT只会短期内对人类的就业结构造成冲击,中长期并不会导致人类的大规模失业。

    二、ChatGPT的技术分析

    1、技术路线:工程师思维的成功

    ChatGPT的成功是工程师思维的成功。第一,创建大脑。工程师思维中有一个“通用复用”的思维,即强调代码、部件在各个场合可以通用的,生产的发动机在工厂各个汽车里是通用的。在工程师眼中,创建大脑一定是创建通用人工智能AGI大系统,系统中间有学习的大模型,靠大算力从大数据中学习人类的知识,从而形成AI智能。第二,从哪里学?人类的知识存储在书本里、文字里、图画里、语言里。在工程师眼里,大模型要从人类语言中学,要建立大型语言模型LLM。工程师拥有建模型的想法和硬件后,随着数据和算力越来越大,模型效果越来越好,这就是工程师们力大砖飞的思维。第三,怎么学?关于技术路线的选择,当时NLP领域中存在着两类技术路线,第一类是深度学习模型,第二类是预训练模型。但深度学习模型已经遇到瓶颈,依靠增加深度学习的模型层深来提高模型效果微乎其微,此时深度学习已经逐渐被预训练模型所取代。预训练模型又存在了两个技术方案:Bert方案和GPT方案,大部分研究者选择Bert方案,而大部分工程师选择GPT方案。Bert方案是双向的方案,即我对你说话,你先听明白我说的话,再回答我的问题。GPT方案是我说话你只需要回答,不用知道说了什么。这种一问一答的方案体现出工程师大道至简的思维。这种双向过程可能比直接回答更难。我认为GPT路线在开放式领域中的成功只是领域问题,在金融领域内,封闭性Bert技术路线或许更有优势。第四,学成归来。通过不停地堆模型、堆数据,最终实现成功是智力涌现的过程。智力涌现涌现后便可以做产品。学成归来指的是厚积薄发以后形成产品成功,任何创新和数字化转型的成功,都应该是产品的成功。

    2、智能涌现:人工智能的厚积薄发

    人工智能在GPT上变化体现很明显,从2018年最初的GPT模型参数只有1.17亿,到2020年GPT-3模型参数达到1750亿,再到2022年产品化,其厚积薄发体现在三个方面。第一,技术积累。技术积累实际上是不断试错的过程,解决的是理论推导和工程实践中的技术差异。不断试错就是技术的积累,任何产品的成功都需要两个发明,一个是理论上科学家们在实验室的发明;另一个是工程师们在实际应用中将科学家的发明低成本实现的过程。第二,知识积累。GPT模型参数从1.17亿到1750亿的积累,训练成本极其昂贵。据传闻,微软为其训练花费20~30亿美金。第三,理念积累。在NLP领域中,曾经深度学习模型逐渐失效,GPT采用为自回归的技术路线,后来出现的Bert采用的是双向语言模型,而且当时Bert技术方案的效果远远优于GPT1的效果。直到GPT3的出现,其优势才显示出来,这就是工程师们对技术路线的厚积薄发。对于给金融机构的启示是,并非谁的技术好就用谁的技术,应该用成本的思维去选择适合自己的技术。

    有些资深专家认为GPT3的成功不仅是技术,而且是代表AI模型的发展理念。我是同意这种观点的。我认为AI理念包括以下几个方面:一是对AGI架构设想的坚持;二是对LLM通往AGI道路的坚持;三是工程师们对未来“人与AI分工设想”的坚持。在人与AI共同写作文时,人与AI的分工究竟是BERT技术路线还是GPT的技术路线。对于BERT和GPT之争,它们只是各有所长,在开放式领域GPT有天然优势,但在垂直场景与受控领域,只要坚持下去,BERT也会脱颖而出。

    3、融合技术:多模态大模型

    通用人工智能AGI的核心是与任务无关的大模型LLM,目前在自然语言相关领域有三大方向:GPT适用于语言领域、Codex适用于代码领域、DALLE适用于图像领域。上述应用让ChatGPT成为多模态大模型,多模态大模型拥有两种能力:一是寻找到不同模态数据之间的对应关系,例如将一段文本和对应图片联系起来;二是实现不同模态数据间的相互转化与生成,例如根据一张图片生成对应的语言描述。这种技术路线的关键是,将不同模态的原始数据映射到统一或相似语义空间当中,从而实现不同模态信号间的相互理解与对齐。

    4、算法逻辑:ChatGPT写文章的逻辑

    AI写作文会应用所有人的词汇量,其作文空间比每个人的作文空间全且大。首先,必须把文字和图片向量化,才能输入到人工智能算法中。假设1页PPT图片为400×500的像素即2万个像素点,每个点用0~255的灰度值描述。在二维空间中,2万个像素点可以排成1张图。上升至2万维空间,这个图片相当于2万维空间中的1个点。假设作文空间2万维,AI写的作文就是2万维空间中的一个点。其次,词向量即在写一句话或做语言标注时,通过将语言的词汇标注出来,让电脑理解词之间的计算关系。当词组成句子后,要判断两个句子之间的距离。比如有两首古诗,“两个黄鹂鸣翠柳,一行白鹭上青天”、“黄鹂百转趁红日,白鹭一行登碧霄”。我们能够理解这两首诗句是一个意思,计算机也能理解,因为计算机判断两首诗句中都有“白鹭”,“上”和“登”是一个意思,“青天”和“碧霄”也是一个意思。假设诗句中的七个字代表七维空间,每个词汇代表七维空间不同的点,两个点之间的距离一定很近即向量很近。

    AI作文通过类似人类语言来训练,突破了人类的词汇量和语法的限制。中国有句古诗说得好,叫做“文章本天成,妙手偶得之”。在想象力之外还有巨大的作文空间。在互联网上AIGC的文字将会超过人类五千年产生的文字,产生的图画量很快就超过人类五千年产生的书画量。当AI产生的文字和书画的量变得远远大于人类产生的文字和书画数量,真理会被谁控制?我们要警惕真理被数据控制,数据被资本控制。这些真理包括共识、宗教、意识形态。比如当今社会普遍的共识是以瘦为为美,但在唐朝可能以胖为美。

    三、ChatGPT的应用边界、法律与合规

    第一,应用平民化但建模贵族化。应用平民化体现在每个人都可以通过手机接入API以使用ChatGPT。建模贵族化体现在ChatGPT建模过程经历300名工程师、1750亿个参数、355块高级显卡以及长达1年的模型训练,这是非常大的消耗和资源投入。由于这种重资源、重投入的底层能力建设,我觉得未来在AGI领域只有中国和美国具有构建基础底层能力。

    第二,AI出现“大而不能改”的现象,迫使人们适应AI。GPT有1750亿参数存储知识逻辑,其中逻辑关系、相互关系、学习过程等在技术上尚未完全明确。参数修改主要靠昂贵的模型训练,这就容易出现“大而不能改”的缺陷。进而产生“反直觉”的问题:究竟是人去适应AI模型,还是AI模型适应人?

    第三,智能缺陷。ChatGPT通过文本语言等训练模型,其智能类型仅仅是感知智能,而不是决策智能,更不是计算智能。具体来看,感知智能基于Bayes公式,决策智能基于先验概率,计算智能基于计算公式。智能缺陷在于ChatGPT的使用边界。例如在金融机构中,由于ChatGPT不是决策智能,会在风险决策过程中受限;此外其不是计算智能,在资本计量方面会受限;作为语言领域的感知智能,它更多是以文字助手的身份嵌入与文本相关的工作中。

    第四,技术缺陷。ChatGPT具有与传统人工智能技术类似的缺陷,一是算法黑箱。由于算法模型的黑箱运作机制,其运行规律和因果逻辑不会显而易见地呈现给研发者。二是算法稳健性。算法运行时容易受到数据、模型、训练方法等综合因素干扰,出现非稳健性的特征,这有可能会出现针对性的病毒。三是算法歧视。算法以数据为原料,如果初始使用的数据存在偏见,无形中会造成生成的内容存在偏见或歧视,引发用户对于算法公平性的争议,这种歧视主要来自于资本绑架,体现在训练样本数量上。

    第五,数据安全缺陷。多个环节存在合规问题,一是在个人信息收集阶段,用户使用ChatGPT需要输入个人数据,依据《个人信息保护法》需要强调用户进行单独授权。二是在个人数据的加工使用阶段,ChatGPT使用RLHF的训练方法,用户使用过程中的输入和交互信息可能会用于持续选代训练,进一步被用于为其他用户提供服务,造成数据共享,这或许与用户最初使用目的相悖,根据《个人信息保护法》需要用户重新授权。三是训练数据获取,ChatGPT抓取互联网上信息的过程可能存在合规问题。四是数据泄漏,用户在使用过程中输入个人及企业相关的信息,可能导致公司敏感信息泄露。五是算法缺简导致数据主体行权困难,例如更改权、刷除权、访问权等行权困难。

    此外,ChatGPT还可能存在3条法律红线。一是版权问题,ChatGPT撰写作品的版权归属问题。二是帮信罪,利用ChatGPT撰写代码并用于黑产上,个人和ChatGPT需要承担哪些责任。三是关于拒不履行信息安全管理义务罪,比如科技公司被监管所约谈整改,但是由于模型存在“大而不能改”的特性而难以及时修改和完善。

    四、ChatGPT在金融行业的应用与展望

    1、ChatGPT的直接应用

    第一,ChatGPT的能力分为底层能力和应用能力。大公司应关注底层能力的建设,小公司可以在垂直领域开发应用能力。

    第二,ChatGPT与人机设备的整合。ChatGPT能力需要有载体去实现,如手机是现实社会和虚拟社会中的载体,把人从现实社会拉到虚拟社会中,是现实社会到虚拟社会的入口。但当眼镜、耳机拥有ChatGPT功能,会成为下一个虚拟社会和现实社会的颠覆性入口。

    第三,ChatGPT与现有APP的整合。安卓市场排名前20的APP基本上都可以和ChatGPT的功能相结合。

    第四,ChatGPT在金融领域的应用。首先,ChatGPT无法改变金融领域的运行规律,但能提升金融领域的现有智能。比如金融领域的RPA机器人和ChatGPT结合后变成智能RPA机器人;OA系统和ChatGPT结合变成智能OA系统。其次,智能客服,包括责任客服和非责任客服,责任客服更看好Bert方案,非责任客服更看好GPT方案。再次,ChatGPT是感知智能,而不是计算智能,它可以通过文字感知来解读法律文本和合规文本,通过案例进行风险感知、审计感知以及反洗钱案例感知。最后,在保险领域的应用快于在银行领域,相对银行简单的信贷产品,保险产品更复杂,叠加银行业的约束更多一些,我认为ChatGPT在保险业优先发力更合适。

    2、从业务角度看:改变客户流量入口

    从银行的角度来看,ChatGPT颠覆了什么?银行需要需要客户,客户就是流量。互联网目前是“入口为王”和“内容为王”,ChatGPT可能会改变这一切。假设ChatGPT的账号是这么设计:首先要注册一个Chat号,然后用底层账号登陆微信时,微信就成为智能微信;登录抖音时,抖音就成为了智能抖音,此时ChatGPT可能在必要的底层能力成为流量入口。从银行角度来看,我们要抓住可能会被ChatGPT改变的流量和客户入口。

    3、金融机构推动数据金融形态:资源化、资产化、要素化、市场化

    未来,ChatGPT的发展特别是底层AI能力的发展,一定靠数据发展。数据越多,模型训练越好。这体现数据资源化、资产化、要素化和市场化的过程。

    首先,数据具有三重属性,资源属性、技术属性和金融属性,并且数据具有相关性和正外部性。将100万的数据放在一起,可能产生“1+1>2”的效果。其次,数据作为生产要素,它和土地是不同的。数据的价值不在数据本身,而是源于技术加工,数据的价值体现于数据产品的权益分配,但它受制于传统的知情同意的授权模式,形成市场化有一定的困难。对于数据本身,数据通过资源化将记录进行标注,形成了数据资源,如果数据资源具备可控制、可获益、可量化三个属性,数据就由数据资源变成了数据资产。最后,数据资产形成数据要素需要三个条件:数据要素的过程需要其他生产要素的投入、数据要素可以赋能其他要素、数据要素可以催生新的生产方式。数据资产变成了数据要素后,便是数据要素的市场化。前一步数据资本化由金融工作者完成。主要途径包括数据银行、数据信托、数据化、数据信贷融资四个方面。当金融人实现了数据资本化后,可能会解决数据要素市场化的关键问题。

    金融机构要参与人工智能治理中。第一是技术与内容并重;第二是行业自律,伦理先行;第三是企业治理,即主体责任与社会责任相结合。

    4、数据信托:数据与信托的完美结合

    第一,数据要素化过程中的信托双层所有权架构优势,将数据所有权与名义所有权分离,这恰恰与数据信托的双层所有权架构榫卯相扣。

    第二,数据确权中的数据信托制度优势。“数据二十条”持有权、加工使用权、经营权的分置机制与信托制度的委托人、受托人、受益人的制度安排道同契合。

    第三,数据流通中的数据信托风险隔离与信托制衡优势。数据信托制度产生的信任制衡贯于风险隔离穿于数据全流通过程。

    第四,数据要素收益分配中的数据信托的权益优势。数据要素市场化配置与按价值贡献的分配机制体现信托权益优势与市场化优势。

    第五,数据要素治理中的数据信托服务优势。服务信托则具备将政府、企业、社会等多方主体,资金方、资产方、技术方、交易商与交易所等多方角色的撮合能力。

    第六,数据跨境流动中的信托制度的国际通用性优势,信托制度的国际通用性。

    5、从AI的视角看AI

    第一,我认为AI兴起堪比文艺复兴,文艺复兴破除了人类创造力的禁锢,实现了人类创造力“由0到1”,AI的复兴使人类创造力“由1到100”

    第二,有一种思想为“万事皆模型”。以画家为例,任何一个画家的主要风格为其画风,画家的风格就是一个模型。模型任何一个参数的调整就会生成该画风的新画作。以毕加索的画风为模型,可以通过调整参数生成100幅毕加索的画。

    第三,自学习AI。当算法会写算法,当机器人会生产自己时,这是多么恐怖的事情,需要解决人和AI伦理边界线的问题。

    第四,从AI视角来看,人类对AI的反应会认为硅基劳动力正在取代碳基劳动力。值得思考的是,人在利用AI扩展人的智能,还是AI在利用人展现智能。站在AI角度,人类对AI的反应可以分为两类,一类人是开始对AI敌对和不屑,随后发现效果很好便开始抵制和限制AI,最后发现限制不住而感到迷茫。另一类人对AI很友好,从起初的好奇、尝试,到逐步学习,最后学会使用AI并和AI共存。我更希望我们是第二类人,这需要哲学家给提供指导,在明确与AI的边界线后,立法、工程师、应用才具有边界和方向。

    友情链接: