暂无
“得数据者得天下”,大模型带火数据要素板块。机构人士向财联社记者表示,大模型的发展会对很多行业产生较大改变,通过大模型去训练针对特定行业应用的小模型,将会让数据变得精细化、专业化,做数据确权或手上有优质数据的公司将会获益。
近期国内百度(09888.HK)、阿里巴巴(09988.HK)、商汤(00020.HK)等企业陆续进军大模型领域,加速了垂直行业应用落地。在具体赋能行业的过程中,投喂专业数据进行微调可以大幅提升模型表现。数据要素的重要性突出,有机构甚至称其为AI时代的“锂矿”,还称“得数据者得天下”。
前述机构人士告诉记者,“锂矿”的比喻很恰当,但数据跟锂矿的背后逻辑不同。“一般情况下,锂矿挖掘出来后,作为商品可以自由售卖。但数据即便挖掘出来,只能在‘可用不可见’的时候,脱敏后去销售一些数据的计算结果,而不能拿到原始数据。”该机构人士认为,一些数据供应商会受益于此,比如有政府数据或做政府数据开放的供应商。
有业内人士向记者表示,“现在还不清楚大模型的数据具体是从哪里来的,比如百度、知乎里很多是个人数据,平台可以取得用户授权去引用,但这个数据不一定能够合法合规地进行售卖。如果要开发个人数据或使用个人数据去做大模型,肯定是需要个人同意开发数据,这个方面还存疑。”
据悉,百度文心一言和阿里通义千文并未公开具体的训练数据集。百度此前在回应文心一言“套壳”时称,文心一言文生图能力来自文心跨模态大模型ERNIE-ViLG,“在大模型训练中,我们使用的是互联网公开数据,符合行业惯例。”
值得注意的是,昨日网信办发布《生成式人工智能服务管理办法(征求意见稿)》,其中第七条提到,“提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责”,强调对数据安全方向的关注。
受消息提振,二级市场上数据要素概念板块拉升。记者注意到,其中一类为拥有政企、地域数据的企业,如每日互动(300766.SZ)、易华录(300212.SZ)等,另一类则为手握IP、版权的文化传媒企业,如华策影视(300133.SZ)、捷成股份(300182.SZ)、中文在线(300364.SZ)等,还有包含第三方内容审核业务的人民网(603000.SH)等公司。
每日互动证券部相关人士对以投资者身份致电的记者表示,“我们数据合规走在非常前面,在业务开展过程中,都有双道保险。比如说我们在开展之前都会获得用户授权,包括我们开展这个业务都是所学的数据都是最小化的,是合理必要的这样一个数字范围。”
分析人士告诉记者,当前AI对于数据相关概念板块的拉动,也包含了一定的“市场热情”。目前来看,还不是落在具体业绩和落地方向上,而是一个偏概念的行情。在AI浪潮下,仍有许多应当警惕的风险,首当其冲的是个人隐私问题,此外还存在假数据、数据不精准等问题。