机器之心原创
作者:吴昕
2022 年的 3 月,或将被写入自动驾驶史册——美国颁布无人驾驶法规,中国也许将从政策层面允许 L3 自动驾驶乘用车上路,国内首条支持自动驾驶的快速路通车运营…… 毫无疑问,自动驾驶已经逐渐从快速迭代迈入大规模落地阶段。在这个 “临门一脚” 的关键时刻,想要让汽车本身的算法做到处理更多、更复杂的场景,不可或缺的是海量的场景数据支撑。
通过对话国内唯一 A 股上市数据服务商—海天瑞声,透视 AI 数据在助推自动驾驶实现的路上,所面临的机会与挑战。
一、自动驾驶数据迎来爆发期
2022 年将会是自动驾驶商业化转折点。
回溯 2021 年底,北京成为国内首个明确认可 「 RoboTaxi 」 商业化试点的城市,标志着国内自动驾驶赛道迎来商业化运营阶段。
相关数据和图片来自 36 氪、汉能投资发布的《2022 中国自动驾驶行业研究报告》
Gartner 公司 2022 年汽车行业十大业务趋势
常规自动驾驶汽车服务启动,挑战随之而来,也是值得关注的业务趋势之一
目前,自动驾驶主流算法模型主要以有监督学习为主,这需要大量的标注数据对模型进行训练和调优。只有通过各个场景的数据迭代,自动驾驶才可能真正落地。
是否能高效获取大量标注数据直接决定了各家能否获得自动驾驶市场上的先发优势。
尽管一些行业头部企业已经内部搭建起数据标注团队,训练数据服务商依然是它们背后无法忽略的存在。
作为国内训练数据行业的领头羊,海天瑞声近几年也开始与一些传统车企、造车新势力以及头部自动驾驶技术公司合作,探索如何帮助合作伙伴最大程度释放自动驾驶数据的价值。
IDC 预测,到 2025 年,中国人工智能数据采标服务市场规模将达到 123.4 亿元人民币。市场的发展驱动力一方面来源于人工智能市场的迅猛发展,另一方面来源于行业用户加大数据采集力度。
IDC 数据显示,自动驾驶也是 AI 基础服务市场当中最具增长潜力的行业
二、把好「第一关」:数据方案的设计能力
与智能家居、新零售、安防等垂直领域相比,自动驾驶的数据需求格外“苛刻”,对数据服务商也提出了新的挑战。
例如,数据样本丰富度层面,场景覆盖全面的数据集对自动驾驶系统安全性至关重要。想象一下,如果高速路上突然出现一群野象,或者突然有人横穿马路,自动驾驶汽车该如何应对?
这类 Corner case 数据很难采集,我们不可能真的找一群野象去高速上漫步,然后采集数据。
对于这些现实生活中完全有可能发生的情况,系统如果识别不了,将会导致严重的后果甚至生命损失。所以,相应的数据必不可少,无论是通过技术手段合成还是模拟,数据方案的设计能力都尤为重要。
此时,海天瑞声作为综合数据服务商的显著优势就凸显出来:总的说来,行业现阶段训练数据采集标注的定制化需求较多,海天瑞声在基础研究上的多年积累,使得其能够更好把握现有技术方向,深入了解客户对训练数据的运用逻辑和需求痛点,保证客户算法取得尽可能好的落地效果。
具体到自动驾驶项目需求上,海天瑞声在项目启动前会安排专业团队先根据需求设计好训练数据集结构,让容量有限的训练数据集能够覆盖尽可能多的现象,并制定相应合理的数据比例。
比如,项目如果涉及卡车,覆盖高速路场景的比例会很高,上下闸道之类的相关场景也要考虑到;如果涉及市内乘用车,设计方案时需要覆盖各种路口情况,诸如三叉路的十字路口、转向线等,有没有掉头的,或者不是两侧掉头的,甚至左转道在最右侧等罕见情况,都要覆盖到。
为了让数据集更完整、丰富,诸如道路两侧场景、路上障碍物,车辆拥挤、稀疏以及行人多少之类情况也要提前考虑,特别是一些突发情况,比如突然横穿马路,尽管这种场景的覆盖难度会更大。
海天瑞声自动驾驶数据业务的主要内容
有时,客户也并不清楚什么样的数据方案更符合算法需求。例如较之经验相对丰富的互联网大厂,传统车企更需要拥有丰富方案设计经验的服务商,帮忙引导、梳理并细化出具体需求。
比如,面对突发状况司机踩刹车,对于自动驾驶决策系统来说,急刹车之前多少秒的数据更有价值?低可视度恶劣天气场景的数据量需要多少?需要以何种方式采集?以多少秒一帧的速度采集?
通过技术对技术、算法层面的反复沟通,海天瑞声可以帮助客户找到更加贴合使用场景的数据方案,缩减研发周期、加快落地进程,同时避免客户花费更多成本。
三、「人机耦合」下的精度、效率与规模
高质量自动驾驶训练数据,除了来自样本丰富度的“刁难”,还要面临标注过程高精度、高效率规模化作业带来的挑战。
举例来说,同样是 99% 精准度,对语音合成任务中的大多场景来说已经足够优质,但对于自动驾驶场景来说,却极有可能埋下安全隐患。
基于对安全性的严苛要求,智能驾驶数据(主要是舱外)正朝着多模态的方向发展,所谓多模态,是指多维时间、空间、环境数据的感知与融合。比如,一辆车可能配置少则 4-5 个、多则十几个摄像头,外加雷达(激光雷达、毫米波雷达、超声波雷达等)。
市面采用的激光雷达基本都是 64 线甚至以上,受限于各种硬件设备,传回来的数据很难做到完全同步。由于点云是一个连续帧的概念,标注多路数据如果不一致,会影响到算法模型训练。另一方面,3D 激光雷达数据和 2D 普通摄像头数据标注如何同步,也是一个难点。这些都成为横亘在高精度标注需求面前的难题。
与此相对应的却是标注环节生产力的落后。
训练数据生产过程示意图
《2019 年中国人工智能基础数据服务行业白皮书》分析指出,2010-2016 年早期数据标注需求激增,加之入行门槛低,涌入了大量玩家,鱼龙混杂。直到今天,绝大部分数据服务商还处于解决「数据标注工具有无」的阶段。
很多团队依靠开源工具完成绝大部分项目,不仅没有点云标注工具,基本流程管理也没有(比如,哪类数据应该被筛选?质量不合格的标注该怎么办?),根本不可能交付自动驾驶所需的高质量、高精度数据集。
而伴随 AI 在出行领域的深入落地,智能驾驶级别越高,所需的传感器数量则越多、精度要求也越高,相应的数据量就会急剧增加,一个项目动辄数百万条的数据处理量,早已不是作坊式作业可以应对。
例如,Waymo Open Dataset 有 16.7 个小时的视频数据,3,000 个驾驶场景,60 万视频帧,将近 200 万 3D 多边形和 2200 万 2D 多边形标注,而这只是 Waymo 大量私有自动驾驶数据集的一小部分。
快速变化的市场环境,对数据交付工期的要求也更为苛刻,只有更加自动化、智能化、平台化的数据服务,才能更好地满足客户需求。
作为浸润行业十几年的头部服务商,海天瑞声从成立之初,就在摸索各环节人机协作的可能,实现数据标注服务质量、速度和规模化的最佳平衡。
一体化数据处理平台示意图
其十多项核心技术应用于训练数据生产的设计、采集、加工、质检中,自主研发一体化数据处理平台,将项目流程管理、质量把控、数据安全管理融入其中,并嵌入上千款自主开发积累的,适用于各种业务场景训练数据处理需求的工具,充分提高了数据训练的生产效率与质量控制水平。
具体到自动驾驶场景,一般人眼中,3D 点云只是一片点状物,很难直观看出具体是什么。但资深标注员会就同一个连续帧的前、后几帧来回看,有时还会搭配 2D 图片一起看,「脑补」点云数据无法呈现的部分。
海天瑞声自动驾驶标注平台有一个叫做「辅助构建物体脑补框」的工具,能帮助标注员进行更为精确的「脑补」。比如,拉框后,系统会自动就同一个连续帧的前、后几帧内容进行预判,还会给出一些诸如车辆大小的参考。
其次,这一标注平台覆盖自动驾驶场景下不同类型数据的标注工具,能够大幅提升标注效率。例如,平台支持 3D 点云标注、3D 点云连续帧标注、3D 连续帧与 2D 联合的标注、3D 语义分割等,还可根据客户的个性化需求对平台工具进行二次开发,当属业内领先。
海天瑞声 3D 点云标注平台
3D 点云连续帧标注时,前两帧标注的物体,自动化工具会在第三帧上自动预测物体位置。由于算法会先介入做判断,标注员的工作很大程度上是一个校正过程,效率和准确率都有极大的保证。
最后,一体化数据处理平台的先进性不仅在于提供了统一入口和统一风格,有助于提升数据采集、加工效率,还将公司多年行业深耕经验沉淀到平台上,不仅简化并统一了训练数据生产流程,模块式的项目生成和管理方式使得生产人员可以根据实际项目需求有机结合、灵活调整。
四、系统化平台:落脚质保与安全
除了精度、效率和规模化,一体化平台还能为数据标注质量保驾护航。
质量检测和控制理念被嵌入到平台各环节工具之中:比如在采集环节,采集工具可对原始数据质量进行即时质检,不符合要求的原始数据会被系统工具提示因某项要求不达标,无法录入;中端加工环节,运用自动标注工具 + 人工校对检验的方式,对数据标注情况进行检查,提升数据质量;在后端大规模质检环节,运用全自动校验技术,实现大规模训练数据集 100% 的质检需求。
目前,海天瑞声一体化平台已经沉淀数百个质检点,可满足所有日常业务场景需求,如检验图片、视频文件格式是否正确、物体种类数量是否达标,打点标框准确率是否符合要求等。
其实,人机协作下的高效率、高质量数据标注,只是数据服务整体流程中的一部分。数据集管理、项目管理、团队人员管理等与数据安全、合规息息相关,同样不可忽略。
与一体化数据处理平台相配合,海天瑞声还建立了全时日志库及终端人管理系统,实现平台内操作留痕、透明可追溯和平台内不同角色的严格权限分级,确保数据安全。
针对不同安全等级的诉求,海天瑞声可以提供不同级别的解决方案。客户可以把数据放在海天的平台上来做,也可以部署到自己服务器,甚至还能提供入场标注。
随着国家大举培养数据要素市场、数据流通持续改善,《网络安全法》《数据安全法》与《个人信息保护法》等上位法的陆续发布,数据安全与隐私保护也得到社会各界越来越多的关注。
海天瑞声也率先通过了 ISO/IEC 27701 认证,这意味着,其数据生产过程中个人隐私信息安全管理和保护能力符合「重要的全球性隐私保护标准」,也通过了「最严苛资质的审核」。
如今,个人信息从设计、采集、处理、质检到交付均已严格管控在平台范围内,并通过标准化的数据脱敏、严格的终端人管理系统、隐私程度分级及权限隔离、全时自动监控等措施全流程保障个人隐私信息的安全。
长远来看,只有在安全、合规的角度下树立数据服务标杆,才能在行业里实现良币驱逐劣币,真正让人工智能成为新一轮技术革命的引擎。
五、面对未知:摸石头过河的底层能力
对数据生产效率、数据质量保证和数据隐私安全的严格把控,帮助海天瑞声在市场竞争中脱颖而出。
除了这些,还有一项异常重要的底层能力—与客户一起摸着石头过河、共同探索全新业务挑战的实力与勇气。
20 年前,人工智能商业落地还处在起步阶段,真实场景下的泛化能力有限。
海天瑞声历经数千个项目的打磨,服务全球 500 余家大型科技公司、头部 AI 企业和科研院所,积累了大量行业 Know-how,探索出帮助 AI 项目大幅缩短落地周期、降低成本的技术与方案能力,这也是其能够探索 “未知” 领域的底气所在。
就自动驾驶数据标注市场来说,当前大多数客户的痛点之一在于如何实现驾驶中的数据闭环,这些数据服务商的要求已经远远超越了简单的采集和标注能力,需要集技术、资金、经验等综合实力于一体的数据服务商与客户一起摸索、试错。
如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正成为推动人类进入智能时代的决定性力量。
随着人工智能迈入「数据 + 知识」双轮驱动的新一代,数据要素的市场地位被高度认同,市场空间广阔。根据艾瑞、IDC 等第三方机构对 AI 训练数据行业的研究,中国市场规模预计在 2025 年达到 100 + 亿,全球训练数据市场规模约在 500 亿以上。
麦肯锡中国区数字化咨询业务近期预测,未来几年中国自动驾驶商业化会比预期更早来临。
在迈向商业化的征途中,海天瑞声会与企业共同摸索出加速模型训练、产品落地和迭代更新的最佳路径,更好地服务于未来社会。