基于数据元件构建大模型数据底座推动数据要素流通
佚名 2023-07-10 07:59:27 浏览量:148

7月8日,由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海举行。中国电子党组成员、副总经理、中国电子数据产业有限公司党委书记、董事长陆志鹏围绕“数据要素驱动的大模型体系”做主旨演讲,他认为,大模型技术实现高质量发展,数据有效供给是关键,亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。

陆志鹏首先谈到大模型数据集的训练过程,他认为,大模型训练一般要经历以下流程:一般是公开数据,包括互联网数据、代码库,然后对这些数据进行半监管的训练,训练后形成了一个较为高质量的数据语料库以后,供大模型训练。

“但大模型公司可能会因为侵犯隐私和知识产权被起诉。”陆志鹏举例说,美国大模型出来后,就已经面临着一些法律风险。主要来自两个方面,一个是隐私,一个是知识产权。

与美国目前鼓励型的监管政策、欧洲保守型的监管政策相比,中国是一种包容型、审慎的监管政策。


“大模型技术出现后,数据供应的过程中间遇到了什么问题?”陆志鹏说,一是缺少合规确权的机制,目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库,但数据都非常有限,而且可能面临着统一标准的问题;二是缺少数据的计量估价机制;三是缺少协调分配;四是缺少安全隐私保护机制。

面对这四个方面的问题,陆志鹏提及,中国电子这几年来和清华大学进行了跨学科研究,因为数据的构建非常复杂,涉及到了法律、管理、经济、金融、技术还有人文甚至政治等因素,为此,中国电子联合清华大学七个学院、将近一百个专家进行了联合攻关,形成了一套方案。大模型训练与数据要素的问题实际上是一致的,同样涉及确权、计量定价、流通分配和保护安全。

目前,中国电子研究开发出来的数据底座,可以对现有的数据进行归集、清洗、治理以后,形成一个标准的数据产品,这个初级产品可能是文本数据,也可能是结构数据,也可能是非结构数据,并能够将这些数据提供给大模型及各个应用方。

陆志鹏说,之所以OpenAI发布的语言大模型震动很大,其中一个原因是提供给其的语料非常好,“用我们的话是小学、初中、高中到大学都是名校,所以数据需要进行治理”。

数据运算过程中,变量越多,大模型的反应就会越来越灵敏;参数越多,大模型的精准度越高,然而,面对大的参数计算机运算时,还要经过多层次的变化、多层次的降维才可以实现。如果数据量不经过加工治理,很难获得应用、很难挖掘价值,于是,中国电子提出“数据元件”,先把数据加工成元件,由元件来支撑流通、支撑模型训练。这样就有效地解决了四个问题。

第一个是确权问题,目前数据确权是大问题,大家感觉无处下手, “数据二十条”发布提出数据产权“三权分置” 破解数据产权难题,数据元件与此相呼应。

第二个是计量问题,无论是文本数据还是结构化数据,从数据字段而言,它的价值很难进行计量,只有融合后的计量才有意义。也就是说,原始数据的价值是很难估量的。以前大家有一个误区,提出把数据评估进入会计报表,如果对现在的数据进行估值,只能通过成本法,计算采集数据花了多少人力、保存数据花了多少电费等等。而如果推动数据流通,计量这个数据到底有什么价值,此时数据的最大价值,即它承载的信息量能够计算出来,数据的价值就出来了。

第三个是在定价阶段,需要分阶段定价、分阶段分配。如果不在“数据元件”阶段前把分配问题解决,后续分配就很难落实。

第四个则是安全隐私问题,有了“数据元件”以后,可以通过元件监管方式回避安全问题。一是防止数据泄露,二是防止数据篡改。“大模型会不会把我的数据带走,会不会篡改我的数据,会不会滥用我的数据?”这些都是公众比较关心的问题。

最后,陆志鹏谈到了数据元件支撑的政务大模型应用探索,中国电子正在推动中国数字政府建设,参与数字广东、数字云南、数字湖南等省域数字政府平台建设。基于数据元件的数据底座,能够支撑政务系统的大模型训练,为目前国内很多的大模型公司提供数据支撑,即政务行业大模型。

“基于数据元件破解数据有效供给难题,构建多模态优质数据集,打造支撑大模型高质量发展的安全可信数据底座,推动数据要素高效流通、释放数据价值。”陆志鹏说。

评论
关于我们

数据交易网是围绕数据要素产业进行多边服务的综合性平台,数据要素领域商业信息服务商,专注于围绕数据要素领域展开一系列深度研究与观察。通过媒体资讯+数据服务+产业落地,前中后端“三位一体”线上线下协同的运营模式,发现业内具备创新与机遇的公司与产品,解读并传递市场动态变化,为业内外机构提供高效、精准、专业的服务与决策参考。

联系我们

数据业务合作

张先生 / 15109213331(同微信)

媒体广告合作

岳女士 / 18697333678(同微信)

宁夏市场合作(负责人)

何先生 / 17695012803(同微信)


数据交易网
数商研究所
数据官HR

Copyright 2023 西安数源数据科技有限公司 版权所有 | 工信部备案:陕ICP备2022006051号-1
关键字:数据交易网 数据交易 数据要素