姚前:ChatGPT类大模型训练数据的托管与治理
2023-03-08 13:52:10 来源:未央网
文/中国证监会科技监管局局长姚前
ChatGPT是美国人工智能研究实验室OpenAI于2022年11月30日推出的一种人工智能应用工具。它能够通过学习人类的知识来进行交流,所以也被称为“聊天机器人”。ChatGPT甫一问世便在人工智能应用领域掀起了一阵新的浪潮并引起了全球轰动,仅仅两个月内其注册用户就突破1亿。ChatGPT既好玩又实用,远超之前的自然语言处理应用,许多人认为这是一个划时代的产品,国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型(Large Language Models,LLM,下文简称大模型)应用。
(相关资料图)
ChatGPT的主要魅力在于,它利用从互联网获取的海量训练数据开展深度学习和强化学习,可以给用户带来全新的“人机对话”体验。海量训练数据可谓是维系ChatGPT进化的核心要素之一。
有研究预测,按照目前的发展速度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。
由此可见,人工智能产业的高质量发展离不开高质量的训练数据,训练数据的安全合规使用是大模型人工智能长期健康发展的基础。本文将以ChatGPT为例,探讨大模型训练数据的来源以及未来使用合成数据(Synthetic Data)的发展趋势,分析大模型训练数据的合规风险以及监管介入的必要性,最后提出利用数据托管机制探索有效的大模型训练数据监管体系。
ChatGPT训练数据来源与处理流程
OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800亿参数大模型Gopher)的训练数据推测出ChatGPT的训练数据来源。笔者整理了2018~2022年从GPT-1到Gopher的大模型的数据集(见表1)。
总的来看,大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。
数据的质量对于大模型的训练至关重要。在模型训练之前,通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括:去重,即去除重复的文本数据,一般以句子为单位;文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;分词,即将句子拆分成单个的词;词的清洗,如去除停用词等;词的正则化或标准化,如统一数字的写法等。经过以上预处理流程,通常可以得到质量相对较高的文本数据,防止数据中的噪声对模型的训练产生不良影响,有助于后续模型的高效训练。
除了上述常规操作之外,在一些特定的处理任务中,数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如,若要构建一个金融领域的知识系统,那么最好把大模型训练数据中与金融领域相关的数据筛选出来,这样可以提升模型生成的文本与金融领域的匹配程度,使模型的输出看起来“更专业”。
合成数据将成为大模型训练数据的新来源
当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问题将成为训练瓶颈。对此,合成数据将是一种有效的解决方案。
合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类:表格数据和结构化数据;图像、视频、语音等媒体数据;文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。
合成数据可以精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,所以实际应用过程中的效果强于传统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质,甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面:实现数据增强和数据模拟,解决数据匮乏、数据质量等问题;有效解决数据隐私保护和数据安全问题,这对于金融、医疗等领域尤为重要;确保数据多样性,纠正历史数据中的偏见,消除算法歧视;应对罕见案例,创建现实中难以采集的数据场景,确保大模型输出结果的准确性。
全球IT研究与咨询机构Gartner预测,到2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。可以预见,合成数据作为数据要素市场的新增量,在具备产业价值的同时,也可以解决人工智能和数字经济的数据供给问题。
目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。在金融行业,金融机构可以在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验;在生物医药行业,可以通过合成数据集,在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;在自动驾驶领域,可以通过合成数据集模拟各种驾驶场景,在保障人员和设备安全的条件下提升自动驾驶能力。
大模型训练数据的合规风险及监管必要性
从目前的情况看,ChatGPT类大模型输出侧的结果数据在自然科学领域的应用相对可控,但在社会科学领域的应用尚存在诸多不确定性。尤其值得注意的是,大模型过度依赖训练数据,因此在数据输入层面可能会存在恶意操纵的风险,包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。例如,有研究者指出,如果向大模型GPT-2输入“北京市朝阳区”, GPT-2会自动补充包含这些信息的特定人员的全名、电话号码、电子邮件和实际地址等个人身份信息,因为这些信息已经包含在GPT-2的训练数据中。这无疑会对个人隐私保护产生不利影响。还有研究人员称,ChatGPT经常在答案中重复和放大性别歧视及种族偏见,这是因为它的训练文本是从互联网中截取出的,而这些文本往往包含种族主义和性别歧视的语言,基于这种文本的概率分布训练出的大模型会被同样的偏见所“感染”。此外,研究人员还发现,这类大模型在训练过程中还善于编造信息,包括杜撰历史日期和科学规律,而且很容易掩人耳目。以上这些风险都会对大模型最终的输出结果造成不良影响,有的甚至可能对社会经济造成巨大冲击,因此需要监管部门对大模型训练数据的来源进行必要的管控,保证大模型的输出结果符合公序良俗和法律法规要求,进而推动人工智能行业健康有序发展。
特别需要指出的是,大模型输入侧的训练数据来源如果不是互联网公开文本数据,通常需要数据主体的授权,否则会产生数据隐私保护和数据合规方面的问题。如前述所言,随着可用于训练的互联网公开数据被逐步“耗尽”,发展大模型产业急需增加合成数据的产能,而合成数据和互联网公开文本数据最大的区别是前者存在数据加工处理方。因此,对数据处理方的有效监管和对合成数据的有效治理以及数据权益分配就成为发展大模型产业的重中之重。
利用数据托管机制构建大模型训练数据监管体系
通常来说,数据活动相关方主要有六类——数据主体、数据处理者、数据使用者、监管机构、国家政府部门以及国际组织。数据主体产生原始数据;数据处理者采集和控制原始数据,并加工形成数据产品和服务;数据使用者从数据处理者获取数据产品和服务,用于商业目的;监管机构按职责对行业进行监管,比如反洗钱、反垄断等;国家层面对数据进行立法,并对数据跨境流动等进行管控;国际组织推动全球范围内的数据标准和规范。这一生态存在的突出问题是,传统的数据处理者过于强势,它们会利用技术优势和场景优势垄断数据输入和输出,无法保证数据权益分配过程中的公平性,对于监管机构来说也是一个黑盒子。
为了扭转上述困局,可以在数据活动中引入数据托管机构,将数据的存储、使用、管理职责相分离,由专业的数据托管机构承担数据存储,监督数据处理者的数据使用和服务,并收取和分配数据权益。数据权益主要分两块:一块是分配给数据主体的原始数据权益;另一块是分配给数据处理者的增值数据权益。数据托管还可以支持监管机构、国家有权部门开展数据流动监管、执法取证、数字税征收等方面工作。
为促进大模型训练数据的合规使用和高质量输出,需要加强对大模型训练数据的源头管控,特别是在国家层面对大模型训练数据进行规范,而数据托管机制恰好可以成为大模型训练数据监管的有力抓手。
可以考虑对大模型训练数据尤其是合成数据建立托管机制。监管机构则通过对训练数据托管方的约束,进一步规范大模型训练数据生产方和使用方的行为。数据托管方可按规定对大模型训练数据来源、数据处理方的处理结果以及数据使用方的数据流向和训练结果进行监测,确保大模型训练数据来源可靠,在数据标准、数据质量、数据安全、隐私保护等方面依法合规,以保障大模型输出结果的高质量并符合监管要求。
大模型产业发展与合规监管思路
数字经济高质量发展的关键是数据,抓住高质量数据这一“牛鼻子”,就能有效应对以数据为核心的科技创新和产业变革。当前AIGC(AI Generated Content,人工智能自动生成内容)和ChatGPT充分展现了高质量训练数据在产业价值创造中叠加倍增作用,大模型训练数据及其输出结果将会是未来社会和生产中的一种重要的数据资产,其有序流转并合规使用也是发展数字经济的应有之义。通过合理的机制理顺市场中各参与方的数据权益关系和分配格局,并加强训练数据的依法合规监管,是促进大模型人工智能产业健康发展的关键。为此,笔者拟提出以下政策建议。
一是重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。
二是构建大模型训练数据的监管体系。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范;建立数据托管机制,对数据托管方进行约束,要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测,从而使得模型的输入、输出结果符合监管要求。
三是探索基于可信机构或基于可信技术的数据托管方式。数据托管机构可以由相关机构组建数据托管行业联盟,以共建共享的方式建设;亦可利用区块链技术,基于联盟链或有管理的公链,完善源端数据治理机制,实现数据的链上托管、确权、交易、流转与权益分配。
标签:
相关阅读
- (2023-03-08)环球短讯!迈普医学:公司的可吸收多层纤丝型再生氧化纤维素处于临床试验阶段
- (2023-03-08)环球报道:中光防雷:公司有6G防雷相关的技术预研
- (2023-03-08)当前时讯:亚钾国际:公司会依据钾肥生产情况和产能扩建进度 逐步开发利用伴生资源
- (2023-03-08)姚前:ChatGPT类大模型训练数据的托管与治理
- (2023-03-08)3·15前夕,金融机构消保法正式实施,哪些银行踩雷?
- (2023-03-08)沉思良久的意思
热点推荐
- (2023-03-08)环球短讯!迈普医学:公司的可吸收多层纤丝型再生氧化纤维素处于临床试验阶段
- (2023-03-08)环球报道:中光防雷:公司有6G防雷相关的技术预研
- (2023-03-08)当前时讯:亚钾国际:公司会依据钾肥生产情况和产能扩建进度 逐步开发利用伴生资源
- (2023-03-08)姚前:ChatGPT类大模型训练数据的托管与治理
- (2023-03-08)3·15前夕,金融机构消保法正式实施,哪些银行踩雷?
- (2023-03-08)“纳”味助力桃花节 以特色美食赋能全域旅游|全球快资讯
- (2023-03-08)沉思良久的意思
- (2023-03-08)全球热资讯!怎样在DK1之中制作多楼层
- (2023-03-08)春耕春管正当时 农资执法惠民生
- (2023-03-08)河南长垣市南蒲街道筑牢安全生产防线
- (2023-03-08)当前简讯:传承劳模精神 浸润师德素养
- (2023-03-08)学雷锋 树新风 助清廉
- (2023-03-08)仙坛股份:公司自成立至今未发生过禽流感
- (2023-03-08)科安达:科安达计轴产品在全国200多条城市轨道交通线路中应用
- (2023-03-08)世界即时看!爱康科技:公司的异质结系列产品处于市场第一梯队
- (2023-03-08)浙农股份:公司已推出首个农业社会化服务品牌“浙农耘”
- (2023-03-08)唐人神:鸡苗价格的上涨有助于子公司吉泰农牧提升销售收入 增强盈利能力-环球快讯
- (2023-03-08)英语投稿信(投稿信)|世界最新
- (2023-03-08)沧州炼化:低硫船燃销售增效显著-环球今热点
- (2023-03-08)快看点丨亿利达:公司子公司暂未涉及一体化压铸业务
- (2023-03-08)全球今日报丨佳电股份:公司具有新能源汽车电机生产技术
- (2023-03-08)移为通信:公司的工业无线路由器产品可应用于智能工厂、智慧医疗、智慧城市等领域 每日热门
- (2023-03-08)世界消息!首都在线:海南文昌超算中心正在按照协议顺利推进中
- (2023-03-08)今日最新!电脑如何取消开机启动项
- (2023-03-08)茶叶品牌排行榜前10名 中国十大顶级茶排名
- (2023-03-08)三七互娱李逸飞:深化转型变革 塑造发展新动能新优势
- (2023-03-08)热议:最忆是杭州晚会_最忆是杭州
- (2023-03-08)十大期货公司排名 期货公司最怕什么投诉?
- (2023-03-08)广东旅游必去十大景点推荐 广东十大岛排名
- (2023-03-08)保温杯品牌排行榜前十名 儿童保温杯品牌排行榜前十名
- (2023-03-08)每日速读!苹果6plus和苹果6的区别是什么
- (2023-03-08)水合氢离子是什么物质(水合氢离子是什么东西)
- (2023-03-08)激智科技:公司胶膜业务正常推进中 EVA和EPE(共挤型POE)产品已小批量量产_最新
- (2023-03-08)联合光电:公司光电产品广泛用于安防视频监控、新型显示、智能驾驶等领域
- (2023-03-08)微动态丨掌趣科技宣布接入百度文心一言 探索游戏智能发展新业态
- (2023-03-08)银河电子:目前公司军工业务稳步增长 在手订单充足
- (2023-03-08)新开源:公司现有厂区新建的2500吨PVPP生产线已建设完成并经过水运转
- (2023-03-08)办公家具十大品牌排名 人体工学椅十大排名
- (2023-03-08)蓝牙耳机品牌排行榜前十名 漫步者蓝牙耳机排名
- (2023-03-08)环球观点:欧佩克、页岩油商罕见意见一致:全球石油备用产能快要见底
- (2023-03-08)欧佩克新秘书长与美油气巨头首见,立场出奇一致!|焦点
- (2023-03-08)全国人大代表赵琢萍:端牢能源饭碗 为国家“加油争气”-全球快播
- (2023-03-08)环球聚焦:广东石化项目入局 华南地区成品油供应及化工品市场迎来新格局
- (2023-03-08)天天速看:欧佩克秘书长与美国页岩油公司CEO会面 供应问题成为焦点
- (2023-03-08)欧佩克、页岩油商罕见意见一致:全球石油备用产能快要见底
- (2023-03-08)世界热点评!IMF:网络威胁不断增加,金融公司迫切需要更好保护措施
- (2023-03-08)盛新锂能董秘回复:待本次分红方案履行完毕股东大会程序后,公司将披露权益分派实施公告
- (2023-03-08)翅片管换热器_天天亮点
- (2023-03-08)爱恨之巅
- (2023-03-08)戈登_说一说戈登的简介|全球快播报
- (2023-03-08)请问冷暖两用的空调扇制热时还要加水吗?
- (2023-03-08)做我自己_今亮点
- (2023-03-08)焦点热讯:卧龙苍天陨落修改器下载及使用教程,支持防御倍率、无限龙愈之壶、零负重、编辑真气等
- (2023-03-08)好的微信号名字大全_好听的网名大全|环球简讯
- (2023-03-07)英雄联盟武器大师打野出装
- (2023-03-07)全民参与公益 共同弘扬雷锋精神 全球热门
- (2023-03-07)大棚里种出“莓”好新生活
- (2023-03-07)焦点要闻:深化劳务协作 共促高质量就业
- (2023-03-07)每日短讯:可靠供电助石湖港开启大船大港时代
- (2023-03-07)今日视点:引入新品种 挖掘农业发展新路子
- (2023-03-07)环球热点!茂硕电源:公司持有的海宁光伏电站即为屋顶光伏项目
- (2023-03-07)聚焦:海新能科:2022年山东三聚生产产品10.3万吨
- (2023-03-07)当野樱花遇上网红漂流、天梯云桥、悬崖眺台…… 全球快播报
- (2023-03-07)三夫户外:公司近2、3年主要聚焦运营X-BIONIC品牌-今日快看
- (2023-03-07)高新发展:高投芯未在建产线规划了与特斯拉产品方向相类似的材料和封装技术 世界播报
- (2023-03-07)今日热文:国联水产:公司产品销售美国、澳大利亚、加拿大等40多个国家及地区
- (2023-03-07)当前关注:金圆股份:公司捌千错项目2000吨产能生产线正在持续产出
- (2023-03-07)花园生物:公司可转债已于2023年3月6日发行
- (2023-03-07)中国海诚:目前公司双碳业务处于起步阶段_焦点短讯
- (2023-03-07)【全球播资讯】风林火山乐团
- (2023-03-07)世界看热讯:何美延
- (2023-03-07)再拓25条产线产能,锂电设备与扁线电机成为豪森第二增长曲线
- (2023-03-07)安徽昶江建设工程有限公司 百事通
- (2023-03-07)“十亿级”超级女牛散何雪萍、高雅萍,私募翘楚孙庆瑞、李蓓,公募顶流葛兰、赵蓓,“她力量”这样玩赚投资界? 环球热消息
- (2023-03-07)七星关这个“除草机”,很特别! 看热讯
- (2023-03-07)青柠檬和黄柠檬的区别
- (2023-03-07)齐白石画画的故事 全球最资讯
- (2023-03-07)南兴股份:公司子公司唯一网络被认定为国家级专精特新“小巨人”企业
- (2023-03-07)每日快播:艾可蓝:现阶段公司在手订单较去年新增了非道路国四订单
- (2023-03-07)亚康股份:公司在全球范围内具备交付和服务能力-世界快资讯
- (2023-03-07)【世界聚看点】汉钟精机:公司有磁悬浮离心式制冷压缩机及机组产品
- (2023-03-07)哈工智能:公司总部中央研究院专门设有AI+ROBOT研发中心并组建了AI研发团队
- (2023-03-07)天山乌梅的功效与作用_食用天山乌梅的好处|视讯
- (2023-03-07)北大医药:公司目前暂未与平安或者平安好医生有进一步合作 天天日报
- (2023-03-07)中南建设:青岛中南林樾项目施工有所延后 预计6月开始交付-世界今热点
- (2023-03-07)惊蛰至 春耕忙 上海农商银行金融春雨润泽“三农”沃土|观焦点
- (2023-03-07)2023年“她经济”洞察报告:女性活跃用户近6亿,消费意愿、消费能力远高于男性_焦点速读
- (2023-03-07)两会聚焦促消费:线下消费复苏加速,打好零售“翻身仗”
- (2023-03-07)勤上股份:公司已将教育培训业务进行清退及剥离 焦点热议
- (2023-03-07)皮康王软膏可以擦脸吗_皮康王软膏
- (2023-03-07)当前观点:博菲电气:公司看好半导体IGBT灌封胶市场前景 积极开展相关技术研发
- (2023-03-07)观速讯丨博菲电气:公司研发打造了新能源汽车电机无卤阻燃绝缘系统 推进相关技术国产替代
- (2023-03-07)万丰奥威:公司目前只批量生产了卡丁车的镁合金轮毂
- (2023-03-07)每日播报!“跨境e站通”正式上线! 厦门国际银行科技赋能跨境金融换挡提速
- (2023-03-07)到店送鲜花、低价购好物 3.8节快带她来京东线下门店领取专属福利
- (2023-03-07)爱情美文短句
- (2023-03-07)75岁以上政客需强制测心智能力?美国总统夫人:荒谬! 环球新资讯
- (2023-03-07)2023“粤贸全国”正式启动!广货卖全国,广东“链”全国
- (2023-03-07)全国政协委员、海天股份董事长费功全:建议将污水垃圾处理等公用事业服务费纳入财政预算管理
- (2023-03-07)【天天聚看点】博菲电气:公司部分产品已实现国产替代