7月22日,在2025中国国际大数据产业博览会新闻发布会上,国家数据局副局长余英向记者介绍了国家数据局围绕高质量数据集建设和数据标注产业培育等重点方向开展的工作情况。
余英介绍,今年政府工作报告指出,要持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。数据,特别是高质量、多模态、精标注的数据,对人工智能发展至关重要,在提质赋能中发挥关键作用,是人工智能发展的不竭动力。中国在人工智能领域取得的成果与数据工作的创新实践密不可分。
国家数据局联合各部门、各地区创新工作模式,构建“部门协同、央地联动”的工作机制,联合施策、协同发力,全面加速高质量数据集建设和应用落地,进一步推动数据要素市场化、价值化,为培育新质生产力提供坚实的数据支撑。
国家数据局组织开展生态培育专项行动,主要包括三个方面内容:一是组织开展高质量数据集典型案例征集和示范推广,挖掘医疗、工业、交通等重点领域标杆实践;二是定期举办技术交流活动,围绕数据标注、合成、高质量数据集建设方法论等开展深度研讨;三是搭建常态化供需对接平台,促进数据供给方、技术提供方、场景应用方精准匹配。同时我们还指导合肥、成都等7个城市建设数据标注基地,先行先试探索数据标注产业发展经验。截至今年上半年,7个数据标注基地建设数据集有524个,规模超过29PB,服务大模型也有163个。
此外,国家数据局指导全国数据标准化技术委员会秘书处发布《高质量数据建设指南》《高质量数据集格式要求》《高质量数据集分类指南》《高质量数据集质量评测规范》等一系列技术文件和标准草案,并且组织开展试点验证,未来将推动这些标准转化为国家标准。
“下一步,我们还将充分发挥有效市场和有为政府的作用,以制度创新释放数据要素活力,以设施建设保障数据流通共享,着力打造‘数据标注+高质量数据集+模型+应用场景+市场化价值化’的闭环生态,推进数据要素市场化配置改革和‘人工智能+’行动同向发力、同频共振。”余英表示,国家数据局将借本次数博会之机,开展高质量数据集和数据标注交流活动,举办数据标注和高质量数据集供需对接活动,并发布一批高质量数据集典型案例,欢迎社会各界积极参与。
贵州日报天眼新闻