上海数据交易所总经理汤奇峰:构建大模型时代语料库数据生态 推动数据要素市场创新
宋薇萍 2023-07-08 16:44:13 浏览量:269

7月8日,由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海世博中心举行。上海数交所总经理汤奇峰作题为“大模型时代下的语料库”的主旨演讲,带来关于国内语料库建设挑战的观察,并从语料库质量和开放程度两个维度给出建设建议。


汤奇峰认为,大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。

“语料库建设不是单一企业的责任,需要多方共同推进,如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”汤奇峰说。

当天活动上,上海数交所正式启动语料数据生态创新合作伙伴计划,携手首批合作伙伴丰富语料库,推动数据要素市场建设。

关于语料库建设的挑战,汤奇峰认为,这主要集中于开放程度和数据质量两方面:能否有大模型企业所需的高质量语料,目标对象愿不愿意开放数据。他认为,可以根据开放程度强弱和数据质量高低将语料数据生态机构分出四类供方。

据悉,上海数据交易所语料库为这四类供方制定差异化工作策略。汤奇峰建议,从政府引导市场主导、丰富种类提高质量、统一标准规范建设、加强监管保障安全、加强监管保障安全四个方向建设大模型时代下的语料库。

汤奇峰说,针对数据质量高但开放程度低的供方,可以通过数据交易链有效破解语料数据流通的信任问题,“核心之一在于产权和参与大模型后的收益分配问题”。

此外,上海数据交易所语料库还将提供特色标签服务体系、挖掘应用场景价值、驱动稀缺数据开放流通以提高该类供方开放数据积极性。

针对开放程度高但数据质量低的机构,上海数交所语料库则通过搭建专业化数商服务渠道提高数据质量。

汤奇峰介绍,上海数交所在建设语料库时考虑的两个维度与数交所对企业数据发展进程四个阶段的观察密切相关。对于这四个阶段,汤奇峰解释,第一个阶段是企业数据自产自用阶段。随着企业数据的内部供给有限时,企业数据需求逐步转向外部,进入到第二阶段,在该阶段,大平台和大企业通过资本纽带在体系内部形成数据流通。到了第三个阶段,企业累积的数据将开放给整个行业,产业内形成标准。第四个阶段,数据使用在资产化过程中会产生新的更高阶业态。

汤奇峰说:“语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。”

据悉,上海数交所官网已经于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。

评论
关于我们

数据交易网是围绕数据要素产业进行多边服务的综合性平台,数据要素领域商业信息服务商,专注于围绕数据要素领域展开一系列深度研究与观察。通过媒体资讯+数据服务+产业落地,前中后端“三位一体”线上线下协同的运营模式,发现业内具备创新与机遇的公司与产品,解读并传递市场动态变化,为业内外机构提供高效、精准、专业的服务与决策参考。

联系我们

数据业务合作

张先生 / 15109213331(同微信)

媒体广告合作

岳女士 / 18697333678(同微信)

宁夏市场合作(负责人)

何先生 / 17695012803(同微信)


数据交易网
数商研究所
数据官HR

Copyright 2023 西安数源数据科技有限公司 版权所有 | 工信部备案:陕ICP备2022006051号-1
关键字:数据交易网 数据交易 数据要素