暂无
围绕数据资产化过程主要有三大类:一是数据管理,当前数据管理的工具和智能化不够,人为介入比较多,应该更技术化;二是数据安全,原来数据安全主要靠防火墙的边界,只有在边界内才是安全可控的,数据要素要求在流通中解决安全问题,就要将边界安全变为数据的内生安全;三是数据流通,致力于从“流通即失控”变为“可用不可见”。
近日,在由人民网·人民数据举办的数据要素发展座谈会上,中国信息通信研究院云计算与大数据研究所所长何宝宏发表了《数据要素技术概览》的主题演讲。何宝宏表示,让数据资源向数据资产发展,从能存、能算到释放价值、对外流通。
近年来,随着技术的发展,大数据时代让所有的数据能够管起来、用起来,把原始数据提炼成数据资源,但仍然面临着“用得不够好、价值释放不够”的难题。从大数据到数据要素时代的目标,是让数据资源发展成为数据资产,从能存、能算到释放价值、对外流通,才算真正进入数据3.0时代。
何宝宏指出,围绕数据资产化过程主要有三大类:一是数据管理,当前数据管理的工具和智能化程度较低,人为介入比较多,应该更技术化;二是数据安全,原来数据安全主要靠防火墙的边界,只有在边界内才是安全可控的,数据要素要求在流通中解决安全问题,就要将边界安全变为数据的内生安全;三是数据流通,致力于从“流通即失控”变为“可用不可见”。
数据管理技术应满足易用、好用的技术需求。易用,即灵活应对各类需求;好用,即数据质量全面提升。数据管理的基础性技术现已成熟,而创新融合还在继续。面向数据质量自动化管理的AI技术方案已基本成熟,有待进一步推广应用;针对如何“让数据更好地找到人,而不是让人找数据”的问题,融合各类技术进行数据管理以实现“数据主动找人”的数据编织技术正在快速兴起,但目前处于概念期;数据仓库和数据湖技术已得到广泛应用,融合数据仓库、数据湖各自优势的湖仓一体技术有待进一步提高性能。
何宝宏表示,数据安全保护技术已相对成熟,全生命周期的模式创新不断。在数据安全技术方面,应从数据存储、访问、使用和流通安全及数据的分级分类几个方面实现数据的有效保护和有力控制。建立“规则+AI识别”是当前常用的数据安全保护技术路线,分类分级、防泄露、零信任验证等均在一定程度上依赖相应规则的设置和人工智能的精准度;基于“持续验证,永不信任”理念的零信任技术架构进一步适应不断突破边界的云、网环境,进一步推动数据安全对全生命周期的覆盖。
数据流通中的主要问题是确权、转移和定价,在法律法规的基础上需要相应技术手段的支持。在确权方面要解决声明技术和共识问题:声明权利可通过在数据内嵌入标识、凭证以声明权利的数字水印等技术来实现;权利获得共识且不可篡改则可通过数据各类权利共识存证、不可篡改、可追溯的区块链/Web3等技术来实现。
数据转移是核心问题,涉及很多相关技术。基于加密隐藏的多方安全计算技术是数据转移的一个重要技术,其需要去中心化及支持通用计算。一方面,目前计算效率较低、开发难度较大,应用性距产业化推广还需要一个过程;另一方面,传递建模中间信息隐藏原始数据的联邦学习发展日趋成熟,广泛适用于风控、营销、政务、医疗、互联网金融等应用场景,但这项技术的局限性在于目前缺乏严谨的安全证明机制,参与方可能通过交互的中间数据反推出原始数据,还易受到数据投毒和模型攻击等。
定价问题的技术需求则是多方合作时的数据价值贡献度量。对于多方联合参与计算的场景,各方提供数据的价值衡量需要技术支持,即在联合计算的过程中通过算法公平合理地衡量数据价值贡献度,作为收益分配的依据。数据定价在多方参与联合建模的场景中,综合运用博弈论、人工智能模型、信息论等,探讨数据价值与决策模型精度的关系,可以为度量各数据方的贡献度、进一步分配收益提供依据。何宝宏认为,目前其应用的场景相对比较局限、产业化不足,新的应用场景还不多。总体而言,围绕数据要素需要更多新技术,也需要相关法律法规的密切配合,目前依然面临严峻考验。