您的位置: 首页 > 实时讯息 >

孟庆国:培育数据标注新业态 推动建设高质量数据集

0次浏览     发布时间:2025-08-26 15:44:00    

人民网深圳8月26日电 (记者栗翘楚)随着人工智能技术快速发展,高质量数据集已成为推动生成式人工智能创新发展的核心稀缺要素。

清华大学中国电子数据治理工程研究院院长孟庆国在“2025人民数据大会”发表主旨演讲。人民网记者 翁奇羽摄

8月26日,清华大学中国电子数据治理工程研究院院长孟庆国在“2025人民数据大会”发表主旨演讲时表示,人工智能的每一次发展和进步都与数据有关,没有数据的支撑,人工智能将寸步难行。在大模型时代,有没有成规模、高质量、多模态的数据,成为行业发展的基础。

高质量数据集是什么?

孟庆国表示,高质量数据集需要具备以下要素:有一定规模、准确性高和拥有足够多样性,同时还包括数据的时效性,数据是否合规、合法,以及数据和训练模型之间的匹配程度。

数据标注作为将原始数据转化为可识别、可训练、可计算的关键环节,其质量直接决定了数据集的应用价值。培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。

孟庆国表示,近年来,我国数据标注产业链发展迅速,市场规模达800多亿,但依然存在高质量行业数据规模较小、数据治理的能力不足、复合型标注人才存在缺口、数据质量的评价体系不完善等现象。

如何开展数据标注?

在国家战略布局和大模型技术突破的双重驱动下,数据标注产业正在经历从劳动密集型向知识密集型的深刻转型。孟庆国表示,从历史维度来看,过去的数据更多依赖人工,如今是以工具和平台作为标注手段,未来,依靠人工智能自身去进行数据标注将成为趋势。在做好布局和探索过程中要把握以下几方面路径:

要进行需求牵引,通过挖掘人工智能的场景,来释放标注的需求。要因地制宜,通过构建一些特色产业的场景,来发展具有特色性的数据标注产业。要夯实基础支撑,在数据质量、数据伦理、数据安全得到保障的前提下,构建数据可信的标注空间,助力数据价值释放。要打造产业聚集,通过产业聚集推动数据产业的发展。要带动就业,通过数据标注,发展具有专业领域知识的专门性标注人才。要营造良好产业生态,特别是在政策、制度、标准、公共服务平台建设等方面进一步营造好数据标注的发展环境。