深圳数交所成功举办“湾区数据沙龙——大模型语料数据供需推介会”

当前位置：首页 / 行业资讯 / 深圳数交所成功举办“湾区数据沙龙——大模型语料数据供需推介会”

佚名 2023-10-06 17:18:24 浏览量：514

微博分享

微信分享

近年来，人工智能技术得到了快速发展，成为了推动社会进步和经济发展的强大引擎。其中，预训练大模型训练作为人工智能的新型基础设施，开创了人工智能新纪元。语料数据，作为大模型训练的重要燃料，有助于大模型更好地适配实际应用场景，实现人工智能赋能千行百业的愿景。

9月22日下午，由深圳市发改委指导，深圳数据交易所主办的“湾区数据沙龙——大模型语料数据供需推介会”以线上+线下的方式同步召开。本次会议聚焦大模型训练数据供给问题，打通供需两侧产业资源，针对大模型厂商现有市场需求展开深入交流，邀请了飞笛科技、海天瑞声、数据堂、网智天元、晴数智慧、希尔贝壳等优质数据商等进行产品路演。

深圳飞笛科技有限公司CEO丘慧慧表示，飞笛财经信息大数据引擎及其特色数据库，历经7年迭代与积累，基于日均处理2亿+新闻、言论、事件及其在社交平台上发生、发酵的全过程，构建的一套对“有用”信息的发现、生产、分发机制和数据服务体系。飞笛团队由资深财经媒体人和互联网产品经理构成，有跨界融合的基因、有清晰稳定的方法论，坚持多年积累了中国财经领域最领先和最具“价值发现”能力的非结构化数据库，特色事件库、观点库、归因库等数据产品已经成熟应用于华泰证券、安信证券、平安证券、盈米基金、汇丰银行等一批龙头金融机构用户促活与陪伴、产品营销等场景中。秉承场景驱动数据能力扩维和深化原则，飞笛积累了一批历时多年高质量的特色数据和语料，可以为垂直大模型的训练及场景深度应用提供支持。但是丘慧慧也谈到，从2016年到2023年，作为一个历经Alpha Go到大模型两次AI热潮、并持续深度实践人工智能在文本与数据训练及其商业化应用的团队，飞笛的感悟是，最近几年AI在机器侧进化很快，但是短板在“人”本身，AI在垂直领域的突破，赋能千行百业，有赖于该领域内“专家”两大突破——数字化思维的突破，深度理解场景的能力突破。“聚焦特定领域业务价值，人机磨合，持续和长期坚守，有序迭代”，丘慧慧认为飞笛就是当前大模型垂直化在数据+场景化上的最优合作伙伴。

北京海天瑞声科技股份有限公司高级客户经理刘明玉代表海天瑞声做了精彩分享。海天瑞声是全球领先AI数据解决方案供应商，公司产品/服务线已覆盖全球超过200个语种及方言，积累超过1,300个自有知识产权的AI训练数据产品，客户累计数量达到810家，覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业，教育科研机构以及部分政企机构。今年，海天瑞声战略布局大模型相关数据建设，已经发布自有版权的大模型千万轮中文多轮对话数据集，同时，在大模型预训练阶段提供大规模数据采集、清洗服务；在强化学习阶段提供专业的数据标注包括RLHF等，通过人类对机器回答进行反馈，使模型表达更趋近于人类；在大模型应用阶段提供评测优化服务。

数据堂（北京）科技股份有限公司华南大区负责人彭颖岚分享了数据堂在人工智能领域的高质量数据供给。作为一家成立于2011年全球领先的人工智能数据服务商，数据堂拥有12年以上的数据处理经验。深刻理解客户需求与数据需求，可以高质量满足客户需求。数据堂通过丰富的项目实施和管理经验，人机结合的数据生产平台既可以提供无监督数据的获取、清洗，也可以为后续监督学习阶段提供定制化数据服务。针对无监督学习需要的训练数据，数据堂可以提供文本、图像、语音、视频、点云等单一模态及跨模态融合的数据获取与清洗服务，针对监督学习需要的人工标注的高质量训练数据，数据堂可以提供单一模态及跨模态的数据定制标注服务，包括问答对编写（SFT）、基于强化学习的人类反馈（RLHF）等。数据堂在国内及海外拥有4个大型数据标注基地，多语种、多类型大模型数据需求都可以高质量完成，助力客户提升大模型性能。

网智天元科技集团股份有限公司数据产品经理张博分享了网智天元数据行业的可信实践。网智天元高质量数据集经过精心筛选、整理和标准化输出的金融数据的产品，包括声誉风险事件数据集、企业风险智库数据集、监管处罚与裁判数据集、区域产业链数据集、藏语语音文本句对数据集、绿色投资标的评估数据集，打造全量、全域、全周期多语种金融数据集，为金融机构提供了准确、全面和可靠的市场数据，在投资决策、风险管理和战略规划等方面为机构提升竞争力。

北京晴数智慧科技有限公司大模型业务负责人乔天分享了晴数智慧的高品质大模型数据集。晴数智慧已经在智能汽车、智慧金融、智能社交、智能家居、智能终端等多领域积累了百亿token，超20万小时的独家合规高质量训练数据集。数据类型包含经典语音识别数据集、语音合成（语音复刻）数据集以及适用大模型构建和微调的通用SFT prompt文本数据集，垂直领域SFT prompt文本数据集，Stable Diffusion SFT prompt图片数据集，SFT prompt音乐数据集，语音+摘要多模态数据集，语音+翻译多模态数据集等。晴数智慧同时对外发布企业版数据分级分类标准。标准将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。未来，晴数智慧将继续围绕构建高质量数据，为客户提供MLOps闭环支撑，在数据咨询，生成，清洗，分类，微调，测试等环节，提供专业解决方案。

北京希尔贝壳科技有限公司创始人兼CEO卜辉介绍了希尔贝壳在大模型领域的解决方案。北京希尔贝壳科技有限公司是一家专注人工智能基础数据服务的创新公司。针对人工智能大模型所必须的高质量数据提供精准的语音、文本、多模态数据产品及数据采集、标注、清洗、模型训练方案。利用机器学习平台，在AI模型评测、AI辅助标注、AI数据分析等场景业务建立了领先的核心技术体系。希尔贝壳在智能语音技术领域的数据集建设已经达到了国际领先水平，部分产品已成为产学研的标准。拥有40多项知识产权，与产业、高校共同建设实验研发平台，并联合发表多篇顶级学术论文。

上一篇文章 3.14 GB数据被盗！索尼证实重大数据泄露事件

下一篇文章深圳数交所获颁国家发展改革委价格监测中心全国价格监测定点单位