咕噜咕噜肚子饿
发表于 2021-4-18 05:09:54
如果不深究42号车库那个7分钟的“惊艳”表现的具体技术原因(当下也没条件深究),仅从测试场景条件看,其实很容易找到造成这种体验反差的原因:简单说就是国内的City road道路条件(典型地,相比较于Highspeed road)下,因为存在大量混杂的小型机动车辆(电动单车)、非机动车辆(自行车)和行人,从而使得我们观察美国Tesla FSD测试视频中的道路环境所获取的直观经验,一下子被抬高到“地狱级难度”的水准。在这个难度下,华为自动驾驶系统基本上是做到了收放自如、应对有序、安全和有效率地通过……那就没理由不赞美了。
但如果需要我们理性一点点去思考,那么其实很容易会提出以下问题,而至少在这个视频中是没有给出具体答案的:
1 除了视频中所呈现的道路环境,是否涉及在上海进行过其它更恶劣的道路环境考验?即,徐值军徐董所提到的上海1000公里无接管,是在类似区域的累计,还是曾经尝试过更大范围的测试?
2 视频中的测试道路/区域,是否完成HDmap绘制和部署?还是仅采用一般的导航级别的地图?
3 视频中的测试道路/区域,是否提供V2X基础设施?在测试中,极狐阿尔法S是否有借助V2X能力获取外部信息?(比如红绿灯状态)
4 视频中的极狐阿尔法S车辆本身是否部署并依赖GPS-RTK高精度定位技术?还是有其他方式解决高精度定位能力?
5 视频中所涉及的载车是否为极狐阿尔法S的量产商用车辆?或者尚未达到量产商用的测试部件/功能占比多少?
从现在可以公开获知的宣传资料表明,相较于目前量产的商用车辆的自动驾驶能力而言,如果不算庞大复杂且昂贵的Robotaxi测试车队(类似于Waymo、滴滴等),最大的差异是,我们第一次在量产车(虽然还未发布)上看到激光雷达。如下图所示:
而且是三颗96线,FOV视场达到120度的激光雷达,10Hz的探测帧率意味着每100ms,在车头指向处给出一个接近300度跨度的点云数据图,如下范围:
我们这里就不考虑去论证极狐这款搭载全套华为自动驾驶系统的车辆的其它硬件配置了,就Lidar这一项的新增,已经足够“奢华”了。考虑到Lidar对于目标物体(特别是近处小于50m)的测距、轮廓绘制的精度可以算是非常高了,而且是属于传感器直接给出结构化数据,CPU都不用耗费资源进行结构化计算即可直接对目标物体进行判断,或者和其他传感器数据进行融合后的综合判断。所以激光雷达在自动驾驶系统里的关键角色,就不言而喻了。读者可以在原则上这样理解传感器的感知质量:如果传感器的精度不够高、或者说感知结果的可靠性不够高(即置信度不够高),那么必然面对这需要在对于目标识别的“假阳性”和“假阴性”之间找平衡。这意味着要么牺牲安全性,要么牺牲驾乘体验,而这很难统一。但如果传感器的数据感知能力足够好,感知的数据结果置信度足够高,那么就不必面临这个艰难的二选一困境,可以同时抑制“假阳性”和“假阴性”。所以看得清楚、看得真切,是自动驾驶感知系统传感器的核心使命。
这里有读者可能会问,那么到底为啥Elon Musk这么看不上Lidar呢?我的个人判断应该是这样,在Autopilot的研发早期,即2016年左右,Musk是拄着Mobileye的前向视觉(单目)ADAS系统的拐棍儿前行的。在那个时代,Tesla也是付出很大的努力在自己的车辆上逐步完成了对于Bosch的毫米波雷达和Mobileye的视觉系统的集成,不论从成本还是技术难度上看,Camera+Radar就是那个阶段的配置了,在前装量产车上,是不可能去考虑超级昂贵的Velandar机械式激光雷达的,一颗Lidar快顶上半辆Model S的价格了,Tesla的目标在彼时根本就不是直奔Level-4的Robotaxi,所以不论从哪个角度来看,都完全没必要。至于后来历经和Mobileye分手,自身逐渐长大成熟,在2019年的Tesla自动驾驶开放日上,纳入视觉机器学习顶级专家Andrej Karpathy的Musk就放出了那句著名的“Lidar is doomed”离奇论调,但确实是符合他一贯坚守的“第一性原理”,既然人类不需要两眼发射激光来辨识和量化外部环境,那么我们也不用!
从另一个角度看,成本还是决定性因素。Lidar在产品上的突破确实是就这两年的事情,尤其国内的玩家越来越多,而且不乏像华为这样的大玩家,所以Lidar成本做下来前装得起,可靠性做上去过得了车规,当下确实是激光类传感器曙光浮现的时刻。如果随着华为的入局,还有其他几家专业Lidar厂家在今明两年的逐步进入整车的前装量产市场,再有两年的普适的实践考核,Lidar应该还是利远大于弊的传感器。而且Lidar本身还是属于主机车身上的附加传感器,这部分成本随时间终会合理摊入整车成本而被消费者一次性购车而消化;对比而言,非常重系统的广义上的传感器,比如V2X和HDmap,在成本上和大系统维护上,被市场所消化的周期可能就会更长一些。
我们看过很多关于Tesla和其Autopilot的分析文章和测试视频了,一个显而易见的道理是,Tesla偏偏就是挑选了最难实现的单车纯视觉路线,当然他在通用性上肯定更强(因为不依赖或者尽可能少依赖外部条件),但是对于技术实现的难度上,那不是难了一点儿半点儿。Lidar如果产品化做得好,也许确实可以商辍。至少到目前FSD的进展(v8.2),在湾区几个城市的测试表现来看,单纯视觉识别还是有不少的问题,感觉对于这些细枝末节的问题,收敛起来还是比较困难的。(也许下个月的FSD v9版本会有大幅度进步嘛?)
与此形成对照,第一次看到华为和极狐的这段自动驾驶实操视频(不同于公司的宣传视频),确实有几个地方很令人感到“惊艳”,我们在这里逐一分析。
细节一:交通灯在中控面板上显示风格
通过路口时,中控UI中所显示的红绿灯位置和个数,都和实际的本路口红绿灯配置不吻合,即非写实,只是表达红绿灯组合信息的作用。而且华为这个红绿灯显示是从头到尾整个驾驶过程中都存在的,绿灯状态和无红绿灯路段置灰,红灯状态为红。这个和Tesla的FSD有明显的差别,如下图:
Tesla FSD的中控UI中,真实反映的不仅仅是红绿灯的内容信息,还包括红绿灯的个数和实际位置(甚至包括高低)。突出这个差异没有技术水平高低的评判含义,我觉得只能说明FSD确实非常依赖视觉信号(也只有视觉信息可以依赖了),而且真实显示视觉结果,人类驾驶员在这个UI环境下应该会有更加真实和直观的体验。
Tesla的karpathy在公开的技术演讲上提到过,FSD对待每一个十字路口都仿佛第一次看到,以来自己强大的视觉能力即时处理千变万化的路口信息,从而获取最大化的普适能力。但实际上这话也有点吹牛,因为后续的一些曝光资料显示,Tesla的道路结构底图,虽然不是真正意义上的高精地图,也实实在在包含了一些必要的十字路口信息和道路结构信息,里面确实有红绿灯的具体位置,和十字路口车道的对应关系。如果如Karpathy所说,都交给视觉系统去即时判读,那么必然通过效率会降低,FSD的MTBF(在这里读者可以理解为人类司机的干预次数)会上升,这不是Tesla希望看到的结果。
华为在这段测试路段上,按照我的推测,HDmap条件肯定是具备的,即每个红绿灯的位置和高度必然在HDmap中有标定值,但华为在中控UI中选择了简化(即位置固定)处理红绿灯显示方式,只根据视觉捕捉的红绿黄信号进行UI上的填充处理,也是没问题的。本质上和Tesla的低精度驾驶底图中红绿灯位置的预埋信息一致。
细节二:第一次无保护左转
【Huawei-1】
这个左转总得来说表现是不错的,比较好地实现了通行效率和安全性之间的折中,当然牺牲的是乘坐体验,因为执行了一脚从15Kmph直接大幅度刹停的操作。在国内的这种无保护左转的通行条件下,如果倾向保守的安全性,那就会造成局部拥堵、被后车鸣笛催促等小范围的交通混乱,这是必然的,也是我们多数人每天的直接体验。因此华为这个抵近式——刹停——再贴着直行车尾左转的动作,看似激进,实则必要。
对比Tesla的FSD,哪怕是在西海岸湾区几个大城市的测试,也很难遇到类似国内的这种场景。他们基本都是“等停——通过”的机制,而且FSD本身也很保守,毕竟他是大规模测试,且交给的是平民驾驶员,出任何一件安全事故都是巨大的压力。所以直观感受就是,通过路口的效率很慢。如果你看过早期Waymo的表现,那就更慢了。而且Waymo直到现在在亚利桑那的Robotaxi服务还是有“规避左转”的规划政策的,一个左转可抵达的目的地,会导致绕路执行四个右转,安全至上了。
从技术底层看,华为可以做到激进左转的原因应该是有Lidar助力,可以在低时延内获取高置信度的路口车流状态和测量结果,在这个基础之上,做针对“他车”的状态预测就很快,而且客观上也比较准确,包括他车的位置、速度、加速度、指向和基于此的未来轨迹预测。在视频中,主车提速执行左转操作,速度提到15秒且接近对向车道的时候,由视觉、Lidar和毫米波雷达感知融合后的数据判定对向直行车辆已经开始接近,但在目测应该可以先完成自身左转的前提下,执行了大脚刹车。你可以理解为后台的规划算法有“礼让直行”的机制存在,由硬代码实现;也可以理解为数据驱动的结果就是如此,如果规划任务的实现是依赖机器学习,那么日常训练中的大脚刹车就会固化到机器处理能力当中去。
另外一个有意思的地方在于,华为主车敢于紧贴着对向直行车通过的动作,而执行左转动作,不拖泥带水,这都是基于Lidar精确感知结果能力提升的基础之上的。纯视觉感知目前看,还做不到这么激进。
细节三:第二次无保护左转
【Huawei-2】
这里的细节在于,左转之后直接、准确地进入最里侧车道,应该这个过程是没有视觉车道对准并矫正的过程。因为十字路口通常是大范围的正方形区域,无地面标识线,自动驾驶的难点区域之一。Tesla FSD在这个区域内是优选前车(人类驾驶员)跟随,直到可以视觉捕捉目标方向上的目标车道(左转或者右转都有这个问题),再做微调。华为没有这个动作,或者说肉眼不可见,应该是高精地图和高精定位(融合定位)在起作用,转弯之前和过程中,都很清楚地面看不见的轨迹,而准确进入目标车道。
细节四:直行被左转车辆干扰
【Huawei-3】
华为的主车作为直行车辆在有优先权的前提下,通过路口时提速已经到了27kmph,在受到转弯车辆威胁之后,大脚刹车到4Kmph之后,立刻在威胁解除之后恢复到正常速度。整个过程和人类驾驶的行为基本是一致的。这种场景下,如果是正常的司机都会采取接管手段,但测试车辆并没有,而是完整依赖自动驾驶能力通过,比较完整。潜台词是,测试司机应该是处理过很多这样的局面了。所以我倾向于相信,这种类人的“规划”输出,应该主体还是数据驱动的深度学习机制,在经历太多类似场景的训练之后,就变成了这个样子。
可能会有个模型过拟合的问题,可能在面临更极端场景下会出问题,但现在这个表现应该是令人满意的。
细节五:通过机动车、非机动车、行人干扰路段
【Huawei-4】
<a href="http://www.zhihu.com/zvideo/1366771969967497216" data-draft-node="block" data-draft-type="link-card">这段视频也是流传最广泛的一段,对于国内普遍存在的开放社区路段,比较有代表性。难点体现在:对向机动车辆不遵守道路中心线分割原则而借道行驶,反之主车也有需要借道的需求;路旁泊车侵占非机动车道,导致非机动车驶入机动车道,并有大量的横穿现象;行人横穿马路无规则……等等。
作为人类驾驶员,我们其实每天也需要处理不少这样的“极端”路况,除了平均通行速度慢一些,还是可以处理的。主要原因是人类驾驶员具备比较好的“预测能力”,道路的竞争目标虽然很多,但我们每天看的多了,基本可以根据当前画面信息判断哪些人会突然穿越公路,哪些不会,哪些非机动车基本稳定,哪些会有超机动行为(比如快递小哥就特别危险)……建立在人类高层认知的基础上,通过预测,我们会选择把注意力放在最容易出问题的方向和距离上进行观察,所以可以在很高的水平上安全通过。
机器自动驾驶的道理是一样的,所以机器最重要的是在感知能力过关的基础上,执行快速和高置信度的预测动作。Lidar在低速场景下,对于近距离目标的探测,就是完美的;在这个基础之上,在做预测,一个是快一个是准确。这就是为什么华为这辆车可以在低速但丝毫不迟滞的节奏下,踩了两脚刹车(一脚是因为快递小哥,移交是因为那个黑衣服的行人),但平均通过速度并不低(大概5-10Kmph),最终安全穿越这个复杂路段。
这款车上的Lidar三颗,安装位置直比车轮高一点点,大家还记得蔚来的激光雷达是安装在前风挡顶部的。小编感觉还是华为这个位置比较合适,特别适合密集且无规律的国内社区道路。
解读差不多就这么些,希望在未来可以看到更多相关测试结果,也希望Lidar上量产车一切顺利。而且最最希望这辆测试车辆的惊艳表现,真的是量产级别的,而非依赖太多的系统手段,而变得很重,从而为商用推广造成困难。
视频和基于视频的截图分别来自于:
来自于42号车库在B站上的七分钟视频截图,URL:https://www.bilibili.com/video/BV1Jp4y1t7X7?from=search&seid=1337358608828144428;
插图分别来自于:
来自于凤凰网相关资讯,URL: http://auto.ifeng.com/c/84J7HnMp8QH ;
来自于 https://www.sohu.com/a/460039192_607980;
来自于“Whole Mars Catalog”的FSD测试视频截图, URL: https://www.youtube.com/watch?v=Oxf33H8WFH4 ;