扫码文末“投小圈” 加入行业交流群
文章来源:中国交通信息化
近日,交通运输部印发了《交通运输行业高质量数据集建设方案》,系统部署交通运输行业高质量数据集建设任务。此外,国家数据局公布“高质量数据集建设先行先试入围名单”,旨在建设一批产业亟需、规模庞大、模态丰富、质量过硬、富有行业特色的行业高质量数据集,其中多个交通运输项目入选。交通行业数据集的建设受到越来越多的关注。
数据集建设情况
近年来,多项相关政策频发,积极推进高质量数据集建设:
2022年,《关于构建数据基础制度更好发挥数据要素作用的意见》提出“探索开展数据质量标准化体系建设”;
2023年,《“数据要素×”三年行动计划(2024—2026年)》强调“打造高质量人工智能大模型训练数据集”“支持交通运输龙头企业推进高质量数据集建设和复用”;
2025年,国务院发布《关于深入实施“人工智能+”行动的意见》提出“打造开放共享的高质量科学数据集”“以应用为导向,持续加强人工智能高质量数据集建设”“促进模型、工具、数据集等汇聚开放”;
展开剩余89%2025年,国家数据局印发《数字中国建设2025年行动方案》,明确提出“加强交通、医疗、金融、制造、农业等重点领域数据标注,建设行业高质量数据集”;
2025年,交通运输部印发了《交通运输行业高质量数据集建设方案》提出“到 2030 年底,建成一批服务于不同应用场景的高质量数据集,形成一批高质量数据集驱动交通运输行业模型应用的典型案例”。
随着应用实践的深入,大规模低质量的数据集局限性逐步显现,“高质量”数据集成为影响大模型“智商”的核心因素,数据清洗、标注等工作受到重视。在“国家数据局”发布的《专家解读|夯实高质量数据集底座:完善数据资源体系,助力“人工智能+”创新发展》一文中指出,高质量数据集成为人工智能能力提升和“人工智能+”场景落地的关键支撑。
该文章还指出,在实际工作中,仍面临着诸多挑战,制约了行业高质量数据集的高效建设与应用。
一是数据采集标准与转化机制有待进一步完善。数据标准不一、采集误差等影响,数据存在分布偏差、颗粒度不一、采集缺失等状况,导致大量数据沉淀且难以直接使用。同时,为更好支持数据资源向可供人工智能大模型使用的高质量数据集转化,还需进一步完善面向应用端的数据治理、标注、评估和开发利用机制。
二是数据治理技术融合创新有待提升。现阶段行业专识数据集主要依赖人工标注,亟需智能化、自动化标注工具以及精准的数据合成技术支持,以提升数据集生产效率。
三是高质量数据集专项支持政策有待完善。高知识密度、高应用价值的数据集开发周期长、成本高、复用率低,数据价值转化路径不清,市场回报机制不明,缺乏专门针对行业专识数据集的投资或补贴政策。同时,高质量数据集价值实现面临流通慢、责任界定不清等问题,影响供需双方的积极性和规模化交易,需要进一步构建涵盖高质量数据集建设、流通交易、创新应用、运营收益的政策体系。
在此背景下,交通运输行业积极推动数据集的建设。据业内人士介绍,交通数据集可分为通识数据集、行业通识数据集、行业专识数据集。其中,通识数据集包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用,如维基百科;行业通识数据集:包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用,如交通运行分析报告;行业专识数据集包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用,如特定用户的出行画像。
交通行业数据集建设探讨
1.建设过程
林成创[1]等介绍了交通行业AI数据集的建设情况。具体而言,数据集建设是一个严谨而系统的过程,旨在保障数据的准确性、完整性和可用性,从而满足项目需求并推动业务发展。AI数据集建设过程如下图所示,主要步骤如下。
数据集建设过程
第一,明确目标与数据收集。首先明确数据集的目标、用途和范围,深入理解业务需求,确保数据收集的针对性和实效性。接着,从多元化的来源广泛收集数据,确保数据的全面性和可靠性,同时建立严格的质量控制机制,确保数据的准确性。
第二,数据清洗与整合。进行数据的清洗和整合,去除冗余、无效和异常的数据,纠正数据中的错误,对数据进行格式化、标准化或归一化处理,以保证数据的一致性和可比性。在数据整合过程中,解决不同来源数据之间的冲突,确保数据集的统一性和准确性。
第三,数据标注。对于需要标注的数据集,进行细致而准确的标注工作,确保标注的准确性和一致性,为机器学习或数据分析任务提供有力支持。同时,根据需要将数据集划分为训练集、验证集和测试集,确保每个集合中的数据分布一致,避免数据泄露问题。
第四,特征工程与数据集质量评估。在特征工程阶段,从原始数据中提取和创建具有意义的特征,为机器学习模型提供有效的输入。接着,对数据集进行质量评估,通过统计方法、可视化工具或机器学习模型来检查数据集的完整性、准确性、一致性和代表性。
第五,数据存储与管理。在数据存储和管理方面,选择适合项目需求的数据存储方式,并建立数据版本控制机制,以追踪数据集的变更历史。同时,确保数据的安全性、隐私性和可访问性,为数据的使用提供可靠保障。
第六,编写数据集使用说明。为了使用户能够充分理解和高效利用数据集,编写数据集使用说明。说明详细阐述数据集的结构、格式、内容、特征描述、标注方法等关键信息。通过使用说明,用户可以轻松理解数据集的组成和用途,从而更加便捷地将其应用于各种研究和开发项目中。
这些步骤共同构成了数据集建设的主要流程,确保了建设数据集的质量和有效性。在实际操作中,可以根据具体项目和数据类型的需求进行调整和优化。
2. 标签管理
标签规范化:确定标签命名规范,包括语言、格式和约定,以确保标签的一致性和易读性。
标签定义标准化:标签定义应该具有明确的范围和边界,以确保标注人员能够准确地进行标注。
建立标签组:通过创建标签组或者使用预置标签组对标签进行分组管理,当需要新的标签或者需对标签进行更改时,可以仅对单个需要使用的标签组进行操作。
建立标签库:将所有标签组收集到标签库中,以便团队成员在处理数据时能够方便地访问和参考。
数据质量检查:在数据标注过程中,进行定期的数据质量检查,以确保标签的准确性和一致性。对不符合规范的标签,及时进行修正。
3.数据标注
在图片数据和标签定义均已完备的基础上,开始着手对图片中的主要物体进行精细的标注工作。主要包括标注工作的执行、严格的验收流程、数据集的发布与应用。
基于以上分析,总体来看,通过边端服务应用回传数据及人工定期收集数据,获取原始业务数据,通过人工初筛过滤无效数据。对筛选数据进行数据清洗和增强,包括移除重复、不清晰的帧,对图像进行亮度调整、对比度增强等处理,并通过旋转、裁剪、翻转等方法扩充数据。处理好的图片上传至AI数据中台,预先设定车辆和行人标签,由标注人员对图片进行标注。
标注完成后,进行数据验证和质量检查,确保标注的准确性和一致性,包括样本验证和对标注结果的审查修正。根据需要对涉及的路段信息进行脱敏处理,保护隐私和敏感信息。完成脱敏处理后,将数据集分为训练集、验证集和测试集,确保每个子集的代表性和均衡性。数据集构建完成后,进行验证,通过随机抽取部分数据进行手动检查,确保数据的准确性和一致性,并使用预置模型进行测试。完成所有处理步骤后,数据集即可发布,用于AI模型的训练优化和业务场景分析。
高质量数据集建设案例
近期,国家数据局发布了多个高质量数据集的建设方案及创新点。以下介绍了交通行业相关的「应急管理“久安”AI大模型高质量数据集」[2]与「高质量自动驾驶数据集标注与应用」[3]的方案情况。
案例1:
在国家数据局发布的高质量数据集典型案例中的「应急管理“久安”AI大模型高质量数据集」[2]着力构建覆盖多场景、多模态,兼具全面性、规范性与行业权威性的应急管理行业高质量数据集,具体建设方案主要体现在四个方面。
整体架构图[2](图片来源:“国家数据局”公众号)
一是构建分类体系,夯实数据集基础。将数据集划分为安全生产、防灾减灾救灾、应急救援、综合管理等4个一级分类和27个二级场景分类,包含文本、图像、视频等多模态数据,实现应急场景数据“全维度覆盖”。建立“部级引领+省市协同”工作机制,统一各环节操作标准,为“久安”大模型提供规范的数据支撑。
二是完善建设流程,提升数据集质量。通过应急管理部应用系统、日常业务科研积累、地方试点应用三大渠道采集数据,形成基础数据底座,采用“大模型预处理+人工校准”混合标注模式深度加工,为模型训练提供可靠“燃料”,模型准确率从74%显著提升至89%。
四是打造共享生态,深化数据集应用。构建全国一体化应急管理数据支撑网络,为28个省份提供智能数据服务,共享知识库等标准化数据,满足地方数据应用需求,推动跨区域协同。
案例2:
整体框架[3](图片来源:“国家数据局”公众号)
一是构建数据采集平台,消除融合数据误差。构建自动驾驶数据采集平台,集成车载激光雷达、摄像头、毫米波雷达等设备。自研高精度时间同步与空间配准技术,控制时间同步误差1ms内,空间配准重投影偏差小于5像素,消除多源传感器数据采集时钟差异与位置偏差致融合数据误差。
二是分级智能数据标注,提升传统标注效率。构建基于不同类型数据标注需求的分级标注策略,融合无监督、弱监督、少监督技术,打造了高效分级分层的半自动标注模式,实现了“不标”、“少标”再到“精标”的经济标注生产方式,较传统人工标注效率提高90%以上。
参考资料:
[1] 林成创,张昱晟,关龙辉,等..交通行业AI数据集建设[J].中国交通信息化,2025 (06):95-98.
[2] 高质量数据集典型案例|应急管理“久安”AI大模型高质量数据集[EB/OL].[2025-09-19].https://mp.weixin.qq.com/s/eEnfP1EzZFZzSIX9nMwEng.
[3] 数据标注优秀案例集之三十八|高质量自动驾驶数据集标注与应用[EB/OL].[2025-06-14].https://mp.weixin.qq.com/s/h-VrMij9vneoHOQB2IN44g.
发布于:北京市