@
wisej 现在不算是智驾的从业者了,转到机器人了,做的还是 VLA 的事情。就我个人而言,智驾体感上实力比较强的供应商还是地大华魔这四家,主机厂是理想小鹏,感觉理想转到 VLA 之后声量弱了一点。其他的没有试乘过,不做评价,Tesla 很强,但在中国水土不服,如果能解决数据的问题,应该很厉害的
从我们算法的角度来看,VLA 、World Model 都是一样的东西,都是端到端的架构,这个范式很重要,让自动驾驶真正进入了 data-centric learning-based 迭代。模型需要学的能力核心其实还是这个 VA 模型中,vision 到 action 的映射,而这个映射是从极高维度转移到极低维度(多摄图像是 N * 1280 * 720 这种维度,会过 resize ,看算力大小,但是 action 维度极低,trajectory 就是 N * 个位数这种维度),会导致模型学到很多捷径,比如一直直行我就能 cover 大部分场景,或者一直跟车启停,那模型就偷懒了。所以 Language 和 world model 的加入都是来缓解这个问题
1. VLA 路线:LLM/VLM 有 scaling law ,那么借力打力,拿一个通识能力比较强的模型来提取一些有效的 feature 约束我的 observation -> action 的映射不要学到一些捷径,但大家用过 VLM/LLM 能感受到这些模型的幻觉,所以要把前面这个 Language 用好可能是比较困难的(也可以听张小郡和小鹏新负责人刘先明的 talk ,language 的作用还有待验证和加强)
2. world model:这个东西大家都在做,事实上希望加一个辅助任务,希望能够预测未来。如果能预测未来,那么也能对当下有更好的理解。很多厂商讲的故事更大,想把 world model 用于训练评测,对当下的理解以及对未来的预测是否准确,决定了 world model 是否能作为一个仿真环境去用于训练和评测。就现阶段而言,我觉得能卡掉一部分有问题的模型,也能够初步结合 RL 的范式训起来,但没有达到大家去做这件事的预期。所以 world model 这个路线,现在的用法也可以理解为是一种辅助监督,用于约束 observation -> action 的映射学的更好。至于训练/评测,或许还需要几个技术突破才能达到可用的水平
所以最终回归的还是大家先做基建 infra ,先把 vision-action pair 的数据积累的多多的,上面两个路线同步推进,场景积累的越来越多,大家越来越愿意用智驾,数据回流就能做的越好越好,是一个正循环。所以有积累的主机厂(小鹏、理想等等)+ 比较强的 infra 实力(影子模式之类的)能够在比较短的时候把能力给提上来
最后还是提醒大家城区少用 AD ,你无法预测鬼探头、电动车、路上的盒子塑料袋这些会造成什么影响,生命安全最重要,高速上 AD 做的比较成熟了,在好的工况下(非大雾、大雨、堵车)可以逐步解锁,摸索他的能力,找到人机共驾的感觉