编程笔记

lifelong learning & practice makes perfect

纯视觉的幕后英雄:特斯拉如何利用激光雷达车,加速 Robotaxi 的到来

奥斯汀的目击事件引发争议

配备了激光雷达(LiDAR)传感器的特斯拉汽车被多次发现在奥斯汀市中心行驶,特别是在南国会大桥(South Congress Bridge)附近。这一发现立即引发了猜测:特斯拉要放弃其纯视觉(Vision-Only)方案了吗?

但 @pbeisel 对此给出了更细致的解读:“这是在为他们的视觉系统进行验证。特斯拉利用激光雷达创建基线并建立地面实况(这在他们著名的专利 US 11,048,999 B2 中有提及)。他们很可能是在用精确数据绘制特定道路的地图,然后将 Robotaxi 的行驶轨迹与这些数据进行比较。”

时间戳革命:特斯拉如何训练纯视觉系统

要理解那些在奥斯汀的特斯拉汽车究竟在做什么,我们需要研究特斯拉基于时间戳的数据同步技术。

训练一个纯视觉系统需要完美的地面实况数据。挑战在于,将摄像头画面与激光雷达测量结果匹配通常需要大量手动标注——这是一个耗时且昂贵的过程。特斯拉通过一个优雅的基于时间戳的自动配对系统解决了这个问题。当传感器使用相同的时间参考记录数据时,后处理过程会自动将它们匹配起来,从而极大地减少了手动工作量。

专利一:时间序列地面实况生成(US10956755B2)

该专利详细说明了特斯拉如何使用时间戳将激光雷达的距离和速度测量值与摄像头图像同步。

例如:在交通繁忙时,当激光雷达检测到“前方车辆距离5米,以10公里/小时的速度行驶”时,这个数据会自动标记到该精确时间戳对应的摄像头帧上。该专利强调“基于时间序列的地面实况”和“时间戳确保同步”是其核心特性。

结果就是,摄像头通过激光雷达的“教导”学会了独立估算距离。可以把激光雷达看作是在训练期间提供答案的“老师”,让摄像头这个“学生”日后能够独立解决问题。

专利二:隐藏议程——自动化训练数据生成(US20230385698A1)

虽然这项专利表面上看起来是在描述传感器融合技术,但仔细分析后会发现其另有目的。

这里真正的创新是为纯视觉系统自动生成训练数据。值得注意的是,该专利将激光雷达作为一个例子。特斯拉收集摄像机和激光雷达/雷达的同步数据,无需复杂的校准程序即可创建带有时间戳的配对数据集。

工作流程如下:
1️⃣ 测试车辆(如奥斯汀的那些)搭载摄像头和激光雷达行驶
2️⃣ 通用时间戳创建自动同步的数据对
3️⃣ 激光雷达精确的距离测量值成为摄像头图像的标签
4️⃣ 这个庞大的训练数据集用于教导纯视觉神经网络
5️⃣ 训练好的模型部署到量产的 Robotaxi 上(仅使用摄像头)

更宏大的图景

那些在奥斯汀配备激光雷达的特斯拉并不是从纯视觉路线的倒退——它们是在为 Robotaxi 的扩张建立必要的地面实况。这并非“传感器融合的回归”,而是“为纯视觉自动驾驶做必要准备”。

正如 @pbeisel 所指出的,特斯拉不需要绘制每一条道路的地图。来自关键路段的精确数据校准了视觉系统,而通用化的 AI 模型则像人类一样处理新的情况。

基于时间戳的同步不仅仅是一个技术细节——它是从依赖昂贵的激光雷达到实现纯视觉自动驾驶的桥梁。这也解释了为什么特斯拉甚至在 AI 芯片层面也要投入资源以确保精确定时。

那些夜晚在奥斯汀巡航的特斯拉汽车?它们正在为即将到来的纯视觉 Robotaxi 时代收集“教材”。

原文

欢迎关注我的其它发布渠道