这里是技术栏目的第14期推送。
当 ChatGPT 遇见自动驾驶
毫末率先取到了
RLHF(从人类反馈中强化学习)的真经
在问鼎 AI“大战”的赛道上
毫末当然不甘示弱
具体如何,赶紧看下去!
在1月5日的 HAOMO AI DAY 上,毫末 CEO 顾维灏提到 MANA 五大模型中的人驾自监督认知大模型,“这与 AGI 领域爆火的 ChatGPT 的思路相同,通过人类行为反馈来选出最优答案”,全新引入用户真实的接管数据,帮助模型做出拟人化决策。MANA 超硬核智能实力与 ChatGPT 如何双向奔赴?
顾维灏提到:“实现 GPT3 到 ChatGPT 的龙门一跃最重要的是 ChatGPT 模型使用了‘利用人类反馈强化学习 RLHF’的训练方式,更好的利用了人类知识,让模型自己能够判断其答案的质量,逐步提升自己给出高质量答案的能力。”
那这对自动驾驶有什么启发呢?
毫末认为,ChatGPT 的技术思路和自动驾驶认知决策的思路一致。
毫末在认知驾驶决策算法的进化上分成了3个阶段:
第一个阶段是引入了个别场景的端到端模仿学习,直接拟合人驾行为。
第二个阶段是通过大模型,引入海量正常人驾数据,通过 Prompt 的方式实现认知决策的可控可解释。
第三个阶段就是引入了真实接管数据,在其中尝试使用“人类反馈强化学习(RLHF)”。一般来说,人类司机的每一次接管,都是对自动驾驶策略的一次人为反馈(Human Feedback);这个接管数据可以被简单当成一个负样本来使用,就是自动驾驶决策被纠正的一次记录。也可以被当作改进认知决策的正样本来学习。
为此,毫末构建了一个“旧策略、接管策略、人工 label 策略”的 pairwise 排序模型。基于这个模型,毫末构建了自动驾驶决策的奖励模型(reward model),从而在各种情况下做出最优的决策。
毫末将这一模型称之为人驾自监督认知大模型。简单来说,就是为了让自动驾驶系统能够学习到老司机的优秀开车方法,让毫末的认知大模型要从人类反馈中学会选择和辨别,并稳定地输出最优解。通过这种方式,毫末在公认的困难场景,例如掉头、环岛等公认的困难场景中,通过率提升30%以上。
小编预测,如果 ChatGPT 再继续搜索和学习下去的话,它就会知道2023年1月5日的第八届HAOMO AI DAY上,毫末不仅发布了人驾自监督认知大模型,还一口气共计发布了五大模型。这五大模型可以帮助毫末实现车端感知架构跨代升级,也就是将过去分散的多个下游任务都集成到一起,形成一个更加端到端架构,包括红绿灯、局部路网、预测等任务,实现了跨代升级。
人工智能的这场变革并不是必然发生
它有赖于一个天才算法结构的横空出世
它有赖于海量数据和算力的成本
下降与容易获得
也依赖于人工智能技术从业者的勇敢尝试
ChatGPT 的出现是如此
自动驾驶的实现也是如此