分享
端到端智能驾驶
输入“/”快速插入内容
端到端智能驾驶
飞书用户2749
端到端自动驾驶工作原理
1.1、视觉感知层
计算机视觉
中物体检测任务的架构通常包含以下组成部分:
💾
1.
Input
:
输入是一幅或多幅图像,可能经过预处理以适应模型的需求,例如
归一化
、
缩放
等。
2.
Backbone
:
特征提取网络的核心部分,负责从输入图像中提取高层次的特征。它通常基于经典的
卷积神经网络(CNN)结构
,比如
AlexNet
、
VGGNet
、
ResNet
,这些网络通过一系列卷积层和池化层逐层抽象并压缩信息。
3.
Neck
:
在主干网络之后,这部分网络对不同层级的特征进行整合与优化,有时称为“
中间层
”或“
特征融合层
”。
4.
Detection Head
:
此部分用于预测最终的物体位置和类别。在
特征提取(骨干)
之后,提供输入的特征图表示。
5.
Output
:
输出通常是物体检测的结果,包括每个对象的类别
标签、置信度分数以及精确的边界框坐标
。
2021年,特斯拉创建HydraNet自动驾驶网络,用于视觉感知任务,这是一种
多任务学习神经网络架构
,通过一个统一的神经网络模型来并行处理多种不同的感知任务。在自动驾驶场景下,车辆需要同时完成多个复杂环境下的理解任务,涵盖
目标检测
(如识别其他车辆、行人、交通标志等)、
车道线检测
、
可行驶区域分割
以及
深度估计
等。
💾
•
在
HydraNet
中,为了同时完成多种感知任务,例如车道线检测、车辆和行人检测与追踪、交通信号灯识别等,设计了多个并行的
“任务头”(task-specific heads)
。
•
每个任务头都连接到共享的基础
特征提取层(backbone)
,从而可以从同一份输入数据中抽取不同层次的语义信息,并分别对特定任务进行处理。其构建了这样一个流程:
1.
图像预处理与特征提取
:
通过类似于
ResNet
的神经网络结构对环绕车身的8个摄像头拍摄的图像进行初步处理。
2.
多机位融合
:
使用
Transformer-like
架构将来自不同视角和位置的8幅图像信息进行深度融合,生成一个综合了多个视图信息的“超级图像”以消除单个相机视野受限带来的问题。
3.
时间融合
:
将时间维度纳入考虑范围,将连续时间段内的“
超级图像
”序列进行融合以增强感知模型对动态环境的理解。
4.
任务导向输出
:
最后,融合后的时空特征会被送入多个任务导向的
输出层(HEADS)
,每个HEAD专门负责一个特定的感知任务,比如车道线检测、车辆/行人检测与追踪、交通信号识别等。
1.2、路径规划层
特斯拉的
Occupancy Network
通过处理摄像头捕捉到的多视图图像数据,来预测三维空间中每个点被物体占据的概率。这一网络模型旨在实现对车辆周围环境的精确建模,从而帮助车辆在没有使用超声波传感器或雷达的情况下(纯视觉方案),也能有效地理解道路场景和进行路径规划。
50%
50%
在特斯拉端到端的
自动驾驶系统
规划模块中,引入占据网络(
Occupancy Network
)后,系统的感知和规划决策过程可以概述如下:
感知阶段: