加快高质量数据集建设

发布时间:2026-02-27     稿件来源:《群众·决策资讯》     作者:韦志林    
  《江苏省“人工智能+”行动方案》围绕科学研究、产业升级、新兴产业、消费提质等重点领域实施“人工智能+”部署,旨在推动人工智能赋能千行百业、进入千商万店和千家万户,加快江苏全域的数智化转型,实现江苏数智产业变革与智能经济的发展。促进全省“人工智能+”行动部署的落地实施,亟须进一步加快建设高质量数据集,以更高的创新发展要求开展全省数据市场建设。
  人工智能的数据新需求催生数据市场创新发展
  人工智能大模型技术与应用形态的演进使得社会的数智化转型正在快速推进,人工智能技术对数据的新需求催生全省数据市场的创新发展,需要构建高质量数据集付费机制,推动垂类模型和智能体开发提升数据质量建设,同时加快促进人工智能技术应用推进技术平权。
  构建高效完善的高质量数据付费机制。高质量数据集对AI技术以及市场创新发展极其重要,高质量数据集的市场规模将会快速增长。围绕行业和人工智能技术的数据需求,激发全社会对数据进行开发利用与创新的活力与能力,形成价值创造的正向循环机制,增强数据付费的市场环境。探索利用江苏数据交易所构建的全链条服务体系,将原本需要由每个企业独自承担的高昂成本,转变为由平台整合承担的公共成本,加快降低全社会用数的门槛和总成本。
  推动垂类模型和智能体开发提升数据质量。基础大模型的广泛部署、垂类模型与智能体的开发应用,对数据的数量需求呈现爆发式非线性增长,对数据的质量要求更是突破原有维度层级。通过优先开放政府和公共事业应用场景,为全社会提供真实、低成本的技术试验场和首购市场,并基于具体行业应用场景与“小切口”应用,开发垂类模型与智能体。以垂类模型与智能体的应用效果作为高质量数据集质量验证的关键维度,加快构建高质量数据集质量建设与评估体系。
  促进人工智能技术应用推进技术平权。基础大模型部署使得社会在使用人工智能技术的能力上逐步趋于平等。市场对高质量数据集的利用不再仅限于金融、医疗等“用数大户”行业。强化全省数据开发利用和流通交易能力建设,可为社会提供普惠的数据开发利用公共服务能力,避免企业重复投入,提升资源利用率,摊薄单位成本。此外,通过产业补贴、税收优惠等有效的培育政策可以降低社会应用与试错成本,为人工智能赋能千行百业、进入千商万店和千家万户奠定技术基础。
  加快高质量数据集供给与开发利用
  高质量数据集作为人工智能技术发展的核心“原料”,其供给的数量与质量往往影响着后续人工智能的训练效果,因此应加快全省高质量数据集高效安全供给,强化高质量公共数据的开发供给,打破高价值企业数据集的流通壁垒,同时建设便捷化高质量数据集开发利用工具平台与生态。
  强化高质量公共数据集开发供给。公共数据的供给目前尚无法满足数据市场的需求,大量高价值的公共数据仍然沉睡在各个政府部门和公共机构内部。需持续完善公共数据授权运营流程,在加快建设公共数据资源技术底座的同时,从小切口、小场景的智能体应用需求出发,扩大高质量公共数据资源供给,服务公共部门自身“人工智能+”政务,满足各行业、多场景对高质量公共数据资源的需求,降低全社会用数成本。
  鼓励高价值企业数据集应用流通。充分调动国有企业在数据供给的示范带动作用,结合江苏“1650”重点产业链特点,发挥行业龙头企业数字化转型成熟度高、行业数据富集、数据技术能力强等优势,立足“人工智能+”生产经营核心场景,打造一批行业高质量数据集。发挥江苏数据交易所数据流通核心枢纽功能,以可信数据空间技术为支撑,建设行业数据专区,创新企业高质量数据集流通模式,服务人工智能的推理训练,赋能行业和产业链人工智能技术与场景应用,提升核心竞争力。
  培育高质量数据集数商生态体系。高质量数据集的开发,人工智能技术的应用,具备一定程度的技术门槛,需要一批数据治理、数据加工、数据安全等市场主体,服务数据资源化、数据产品化等全流程。江苏数据交易所大力推进“引数入苏”工程,面向全国招引各类数商,同时依托“1+13”区域专板培育本地数商,目前已集聚超过2200个。要聚焦“人工智能+”面向传统行业、中小企业以及OPC企业在生产、获取、利用高质量数据集过程中的难点、堵点等技术问题,着力发展数据治理、数据标注、智能体开发等数商,构建高质量数据集建设的产业生态。
  促进高质量数据集安全合规流通交易
  基于公开数据所形成的高质量数据集、大模型训练所需要的语料数据接近上限,而深藏公共部门、智转数改成熟度高的大型企业所持有垂类私域数据价值高、需求量大,但同时在流通利用的过程中面临的数据安全、商业秘密等方面要求也相对较高。通过构建高质量数据集建设安全合规规则体系,以可信数据空间构建数据安全流通技术底座以及深化数据市场全链条服务体系,保障高质量数据集的安全流通。
  完善高质量数据集安全合规规则体系。作为全省数据流通交易主枢纽,江苏数据交易所构建了“1+8”数据交易规则制度体系,覆盖了数据产品交易前、交易中、交易后全流程,筑起数据流通交易安全合规制度规则屏障,同时充分发挥数据安全合规评估数商的专业力量以及数据可信交付技术等,不断完善和提升数据流通安全合规能力。要结合高质量数据集生产、流通、交付的新特点,完善安全合规评估指南,研发安全合规智能体提升评估效率。
  构建以可信数据空间为核心的数据安全流通技术底座。数据流通市场日趋活跃,破解数据流通安全的技术、产品和解决方案不断迭代,数据流通技术路线正逐步收敛,以可信数据空间推动数据流通交易成为共识。江苏省数据集团正在加大以可信数据空间为核心技术探索构建全省一体化数据基础设施,通过可信数据空间构建身份可认、使用可控、过程可溯、效果可验的数据可信流通环境。江苏省数据交易所将依托全省一体化数据基础设施,不断夯实数据流通交付技术与功能,为高质量数据集高效安全合规流通服务“人工智能+”提供技术保障。
  提升高质量数据集流通交易全链条服务能力。江苏数据交易所作为数据流通交易服务机构新时代的新兴力量,高起点架构数据流通交易全流程服务体系。在不断迭代完善数据流通交易核心功能的基础上,围绕数据资源化、产品化、价值化、资产化不同阶段,聚焦公共数据产品、高质量数据集、AI Agent(智能体)等不同数据交易标的物,面向各行各业数据应用场景特别是OPC企业,建设便捷化数据开发工具平台,通过提供数据规划、数据采集、数据标注以及模型智能体应用验证等高质量数据集开发利用所需的各类技术工具,并协同全省算力统一调度平台,构建起高质量数据集产品加工、流通、应用、算力等一站式公共服务能力,降低全社会用数总成本,有效服务千行百业“人工智能+”对于高质量数据的旺盛需求。
  (作者系江苏省数据交易所总经理)
   责任编辑:赵文韬
  
  
 
【加入收藏】    【打印此文】     【关闭】
分享到:
无标题文档