自動駕駛的同學看過來:DriveLM:世界首個語言+自動駕駛全棧開源數(shù)據(jù)集
DriveLM:世界首個語言+自動駕駛全棧開源數(shù)據(jù)集,旨在借助大語言模型和海量自然語言數(shù)據(jù)集,構筑復雜場景下安全、精準、可解釋的自動駕駛系統(tǒng),突破現(xiàn)有自動駕駛推理能力上限,數(shù)據(jù)集已開源! DriveLM提供了量化的推理能力評估標準,改變了模型的結構化推理(Structured-reasoning)或思維圖(Graph of Thoughts)能力難以量化評估的現(xiàn)狀。如下圖所示,DriveLM提供了從物體識別、物體運動狀態(tài)判斷到物體未來運動軌跡預測、自車運動規(guī)劃的完整邏輯鏈條,確保了整個決策過程中每一步的合理性和可解釋性。 DriveLM是一個基于nuScenes自動駕駛數(shù)據(jù)集構建的、以關鍵幀描述+問答對(Description+Q&A)為核心的數(shù)據(jù)集。 數(shù)據(jù)集中的問答對主要可以分為三類:感知(Perception)、預測(Prediction)和規(guī)劃(Planning)。感知部分著重于詢問物體相對自車的位置或運動狀態(tài);預測部分詢問車輛或行人的未來可能行為和狀態(tài);規(guī)劃部分詢問自車可以采取的行動。 整個數(shù)據(jù)集分為訓練集和驗證集兩部分,訓練集共包含697個場景,驗證集包含150個場景。每個場景包含大約40幀(采樣頻率約為2赫茲),標注員會在其中選擇4-8個關鍵幀進行標注。
代碼地址:https://github.com/OpenDriveLab/DriveLM 項目地址:https://opendrivelab.github.io/DriveLM/ 更多論文創(chuàng)新點加微信群:Lh1141755859 公眾號:CV算法小屋