华为云提出数据标注基地的数据要素模式,为大模型高质量供数
佚名 2024-10-23 09:04:58 浏览量:159

10月22日,在国家数据局数字科技和基础设施建设司指导下,首届“数据标注产业大会暨供需对接会”在北京顺利召开。大会旨在进一步推动数据标注产业高质量发展,促进数据标注基地快速形成规模化服务能力。政府主管部门、产业研究机构、人工智能企业、数据标注服务商、数据资源单位等各领域百余人现场参会,共议高质量数据标注建设路径。

模型进化亟需高质量语料数据供给

高质量的训练数据集决定着模型的精度与表现,AI发展正加速从“以模型为中心”转向“以数据为中心”。大模型对训练数据的需求呈指数级增长,有研究机构研究指出,开放的高质量文本训练数据集将在2026年耗尽。为加快推动国内数据标注产业发展,国家数据局已确定七个承担数据标注基地建设任务的城市,进而推动全国数据产业高质量发展。


作为国内人工智能企业代表,华为既是大模型语料数据需求使用方,同时提供数据工程能力。华为混合云行业总经理刘朋冲发表《高质量数据标注的关键需求和探索实践》主题演讲,从行业大模型训练洞察及华为云盘古大模型开发实践出发,提出大规模高质量数据集的加工和治理需要一套流程完整、功能齐全、效率较高的标注工具链,并分享了华为云语料加工流水线的工作流程与关键能力。

以数据要素模式盘活标注基地运营

作为国家级试点产业,数据标注需要以商业闭环和产业发展的视角进行基地整体设计。华为云结合数据标注基地任务书及与试点城市的交流合作,总结出框架模式、能力构建、产业运营三类,包括商业模式可闭环、满足多模态标注、保障数据流通安全等在内的八种关键需求。

围绕上述需求,刘朋冲表示:“标注基地整体业务框架应以数据要素的生命周期为业务基线。我们认为,数据标注公共服务平台为业务核心,通过纳管华为数据工程在内的各类标注工具,赋能标注企业高效完成标注任务;依托可信数据空间等数据流通利用基础设施,以数据集采购和委托标注两种商业模式盘活基地运营,实现商业闭环,最终实现数据要素场景下的‘供得出、流得动、用得好、保安全’。”

创新技术为大模型高效率高质量供数

会议期间,由中国信通院和中国人工智能产业发展联盟编制的《人工智能数据标注产业图谱》正式发布。图谱在洞察人工智能数据标注产业发展现状及未来趋势的基础上,梳理了产业上下游相关企业的分布情况。华为云以成熟的平台能力位列“数据标注核心服务方”,通过提供数据标注平台服务,有效提高数据价值,助力数据产业价值释放。

今年9月,在华为全联接大会2024期间,华为主机上云军团CEO、混合云总裁尚海峰发布全新的ModelArts工程工具套件,包括数据、模型和应用三大模块,致力于推动AI工程化落地,让大模型构建、训练和部署更简单。其中,ModelArts数据工程套件:提供60多种 AI4Data算子,支持QA对、视频Caption等智能辅助标注及团队标注,实现数据清洗及标注效率10倍提升;沉淀3大类15个指标项100多个评估项确保质量评估标准化,并通过自动评估模型的迭代优化实现数据飞轮效应;以权限管控、隐私数据保护、内容审核、数据胶囊等关键能力,守护全流程数据安全。套件以全模态数据获取、智能数据加工、安全高效用数的能力,为大模型训练高质量供数。

未来,华为云Stack将结合自身及行业实践,持续优化数据工程能力,与数据标注基地及产业链伙伴紧密携手,共同推动数据产业高质量发展,并坚持AI for industries的理念,以高质量语料数据为基石,将智能推向新高度!

评论
关于我们

数据交易网是围绕数据要素产业进行多边服务的综合性平台,数据要素领域商业信息服务商,专注于围绕数据要素领域展开一系列深度研究与观察。通过媒体资讯+数据服务+产业落地,前中后端“三位一体”线上线下协同的运营模式,发现业内具备创新与机遇的公司与产品,解读并传递市场动态变化,为业内外机构提供高效、精准、专业的服务与决策参考。

联系我们

数据业务合作

张先生 / 15109213331(同微信)

媒体广告合作

岳女士 / 18697333678(同微信)

宁夏市场合作(负责人)

何先生 / 17695012803(同微信)


数据交易网
数商研究所
数据官HR

Copyright 2023 西安数源数据科技有限公司 版权所有 | 工信部备案:陕ICP备2022006051号-1
关键字:数据交易网 数据交易 数据要素