最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

最新!自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃全面回顧:全局規(guī)劃、局部規(guī)劃、模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等!

2023-07-16 22:35 作者:自動(dòng)駕駛之心  | 我要投稿

今天自動(dòng)駕駛之心為大家分享自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃的最新綜述,文章全面回顧了流水線和端到端方法!如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!


>>點(diǎn)擊進(jìn)入→自動(dòng)駕駛之心【規(guī)劃控制】技術(shù)交流群

論文作者?| Siyu Teng


編輯 | 自動(dòng)駕駛之心



論文鏈接:https://arxiv.org/pdf/2303.09824v4.pdf


智能汽車(IV)因其日益增加的便利性、安全優(yōu)勢(shì)和潛在的商業(yè)價(jià)值而受到全球關(guān)注。盡管預(yù)測(cè)到2025年將實(shí)現(xiàn)商業(yè)部署,但實(shí)施仍僅限于小規(guī)模驗(yàn)證,精確的跟蹤控制器和運(yùn)動(dòng)規(guī)劃器是IVs的基本先決條件。本文綜述了最先進(jìn)的IVs運(yùn)動(dòng)規(guī)劃方法,包括管道規(guī)劃和端到端規(guī)劃方法。該研究考察了流水線方法中的選擇、擴(kuò)展和優(yōu)化操作,同時(shí)研究了端到端方法中驅(qū)動(dòng)任務(wù)的訓(xùn)練方法和驗(yàn)證場(chǎng)景。對(duì)實(shí)驗(yàn)平臺(tái)進(jìn)行了審查,以幫助讀者選擇合適的培訓(xùn)和驗(yàn)證策略。提供了這些方法的并排比較,以突出它們的優(yōu)勢(shì)和局限性,有助于系統(tǒng)級(jí)設(shè)計(jì)的選擇。此外我們還討論了當(dāng)前的挑戰(zhàn)和未來(lái)的展望。


規(guī)劃控制作為整個(gè)自動(dòng)駕駛/機(jī)器人算法流程中最下游的模塊,直接決定著自動(dòng)駕駛的安全性及舒適度。一個(gè)好的規(guī)控直接影響司機(jī)和乘客的乘車體驗(yàn)。這里也推薦自動(dòng)駕駛之心聯(lián)合業(yè)內(nèi)某大廠規(guī)控工程師共同打磨的《規(guī)劃控制理論與實(shí)戰(zhàn)課程》線上課程,如果你正想要入門規(guī)劃控制,深入理解算法原理,或者需要提升這方面的技術(shù)能力,不知如何優(yōu)化,同時(shí)又缺少項(xiàng)目實(shí)戰(zhàn)經(jīng)驗(yàn),那么一定要學(xué)習(xí)下這門課,課程內(nèi)容詳細(xì)介紹了規(guī)劃算法基礎(chǔ)知識(shí)、橫縱解耦/聯(lián)合的決策規(guī)劃框架及常用的控制算法(PID、LQR、MPC等等)。課程即將開(kāi)課,馬上恢復(fù)原價(jià)!



本文對(duì)自動(dòng)駕駛的總體規(guī)劃方法進(jìn)行了全面分析。從廣義上講,自動(dòng)駕駛的規(guī)劃方法可以分為兩類:流水線和端到端。


在IVs的運(yùn)動(dòng)規(guī)劃方面已經(jīng)有了許多最先進(jìn)的工作,然而,尚未對(duì)流水線和端到端方法進(jìn)行全面的審查。流水線是行業(yè)中常用的經(jīng)典規(guī)劃方法,在先前的研究中概述了一般類別。在本文中,我們提出了一種新的流水線方法分類,基于每種方法的擴(kuò)展和優(yōu)化機(jī)制,以與行業(yè)選擇更相關(guān)的方式捕捉廣泛部署的方法。我們提出的分類包括狀態(tài)網(wǎng)格識(shí)別、原始生成和其他方法。近年來(lái),端到端方法已成為一個(gè)流行的研究方向,如先前的工作說(shuō)明了將原始感知輸入映射到控制命令輸出的方法。在這項(xiàng)調(diào)查中,我們不僅回顧了模仿學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)的最新成果,還介紹了一個(gè)新的類別,稱為并行規(guī)劃。這一類別提出了一種虛擬現(xiàn)實(shí)交互混淆學(xué)習(xí)方法,用于可靠的端到端規(guī)劃方法。此外,我們對(duì)最新的數(shù)據(jù)集、模擬平臺(tái)和半開(kāi)放的真實(shí)世界測(cè)試場(chǎng)景進(jìn)行了全面的分析和總結(jié),這些都是IVs發(fā)展的重要輔助元素。據(jù)我們所知,這項(xiàng)調(diào)查首次全面分析了各種場(chǎng)景和任務(wù)中的運(yùn)動(dòng)規(guī)劃方法。


流水線規(guī)劃方法


流水線方法,也被稱為模塊化方法,在行業(yè)中被廣泛使用,并已成為傳統(tǒng)方法。這種方法源于主要為自主移動(dòng)機(jī)器人發(fā)展的體系結(jié)構(gòu),由感知、定位、規(guī)劃和控制等獨(dú)立的互連模塊組成。


規(guī)劃方法負(fù)責(zé)計(jì)算ego車輛的低級(jí)控制器要跟蹤的軌跡點(diǎn)序列,通常由三個(gè)函數(shù)組成:全局路線規(guī)劃、局部行為規(guī)劃和局部軌跡規(guī)劃。全局路線規(guī)劃在全局地圖上提供從起點(diǎn)到終點(diǎn)的道路級(jí)路徑。當(dāng)?shù)匦袨橐?guī)劃決定了接下來(lái)幾秒鐘的駕駛行為類型(例如,跟車、輕推、側(cè)傳、讓行和超車)。局部軌跡規(guī)劃根據(jù)確定的行為類型生成短期軌跡。事實(shí)上,局部行為規(guī)劃和局部軌跡規(guī)劃之間的界限有些模糊,因?yàn)橐恍┬袨橐?guī)劃人員所做的不僅僅是識(shí)別行為類型。為了清晰起見(jiàn),本文沒(méi)有嚴(yán)格區(qū)分這兩種函數(shù),相關(guān)方法被簡(jiǎn)單地視為軌跡規(guī)劃方法。


本節(jié)將相關(guān)算法分為兩個(gè)功能:全局路線規(guī)劃和局部行為/軌跡規(guī)劃。為了提供更詳細(xì)的分析和討論,根據(jù)各自的擴(kuò)展方法和優(yōu)化理論,將局部行為/軌跡規(guī)劃分為三個(gè)部分:狀態(tài)網(wǎng)格識(shí)別、原始生成和其他方法。


A. 全局路徑規(guī)劃


全局路徑規(guī)劃負(fù)責(zé)在道路網(wǎng)絡(luò)中找到最佳道路級(jí)路徑,該路徑以包含數(shù)百萬(wàn)條邊和節(jié)點(diǎn)的有向圖的形式呈現(xiàn)。路線規(guī)劃器在有向圖中搜索,以找到連接起點(diǎn)和終點(diǎn)節(jié)點(diǎn)的最小成本序列。在此,成本是基于所考慮的查詢時(shí)間、預(yù)處理復(fù)雜性、內(nèi)存占用率和解決方案穩(wěn)健性來(lái)定義的。Edsger Wybe Dijkstra是這一領(lǐng)域的先驅(qū),他創(chuàng)新性地提出了Dijkstra算法。Lotfi等人構(gòu)建了一個(gè)基于Dijkstra的智能調(diào)度框架,該框架計(jì)算每個(gè)代理的最優(yōu)調(diào)度,包括最大速度、最小移動(dòng)和最小消耗成本。A-star算法是道路級(jí)導(dǎo)航任務(wù)中另一個(gè)著名的算法,它利用啟發(fā)式函數(shù)的優(yōu)勢(shì)來(lái)精簡(jiǎn)研究空間。所有這些算法都大大緩解了交通效率問(wèn)題,并在智能交通系統(tǒng)領(lǐng)域引起了極大的關(guān)注。


B. 局部行為/軌跡規(guī)劃


局部行為規(guī)劃和局部軌跡規(guī)劃功能協(xié)同工作,根據(jù)路線規(guī)劃中識(shí)別的全局路線計(jì)算安全、舒適和連續(xù)的局部軌跡。由于產(chǎn)生的軌跡是局部的,除非全球目的地不遠(yuǎn),否則這兩個(gè)功能必須以后退的方式實(shí)現(xiàn)。值得強(qiáng)調(diào)的是,這兩個(gè)函數(shù)的輸出應(yīng)該是軌跡,而不是路徑,并且軌跡與其他動(dòng)態(tài)交通參與者相互作用,否則,自車需要額外的努力來(lái)躲避環(huán)境中的移動(dòng)障礙物。


名義上,局部規(guī)劃是通過(guò)解決最優(yōu)控制問(wèn)題(OCP)來(lái)完成的,該問(wèn)題在滿足多種類型的硬約束或軟約束的情況下最小化預(yù)定義的成本函數(shù)。OCP的解決方案表示為時(shí)間連續(xù)控制和狀態(tài)輪廓,其中所需的軌跡由狀態(tài)輪廓的一部分反映。



由于這種OCP的分析解決方案通常不可用,因此需要兩種類型的操作來(lái)構(gòu)建軌跡。具體而言,局部規(guī)劃分為三部分,第一類操作是識(shí)別一系列狀態(tài)網(wǎng)格,第二類操作是在相鄰狀態(tài)網(wǎng)格之間生成基元,第三類操作是前兩者的有機(jī)結(jié)合。


1)狀態(tài)網(wǎng)格識(shí)別:狀態(tài)網(wǎng)格識(shí)別可以通過(guò)搜索、選擇、優(yōu)化或潛在的小型化來(lái)完成?;谒阉鞯姆椒▽⑴c上述OCP相關(guān)的連續(xù)狀態(tài)空間抽象成圖,并在那里找到狀態(tài)的鏈接。流行的基于搜索的方法包括A*搜索和動(dòng)態(tài)規(guī)劃(DP)。這些算法的許多高級(jí)應(yīng)用已經(jīng)將其影響力推到了頂峰,如混合A*、雙向A*、半優(yōu)化A*\和LQG框架?;谶x擇的方法通過(guò)尋找具有最優(yōu)成本函數(shù)的候選者來(lái)決定下一步或幾個(gè)步驟中的狀態(tài)網(wǎng)格。貪婪選擇和馬爾可夫決策過(guò)程(MDP)系列方法通常屬于這一類。


一種基于優(yōu)化的方法將原始OCP離散為數(shù)學(xué)程序(MP),其解為高分辨率狀態(tài)網(wǎng)格。MP解算器進(jìn)一步分為基于梯度的解算器和非基于梯度的求解器;基于梯度的求解器通常求解非線性規(guī)劃、二次規(guī)劃、二次約束二次規(guī)劃和混合整數(shù)規(guī)劃;基于非梯度的求解器通常由元啟發(fā)式表示。多種先前的方法可以被組合以提供從粗略到精細(xì)的局部行為/運(yùn)動(dòng)規(guī)劃策略。


2)原始生成:原始生成通常表現(xiàn)為閉式規(guī)則、模擬、插值和優(yōu)化。閉式規(guī)則代表通過(guò)具有閉式解決方案的分析方法來(lái)計(jì)算基元的方法。典型的方法包括Dubins/Reed-Shepp曲線、多項(xiàng)式和理論最優(yōu)控制方法?;诜抡娴姆椒ㄍㄟ^(guò)轉(zhuǎn)發(fā)仿真生成目標(biāo)/路徑基元,由于沒(méi)有自由度,因此運(yùn)行速度快。基于插值的方法由樣條曲線或參數(shù)化多項(xiàng)式表示?;趦?yōu)化的方法數(shù)值求解小規(guī)模OCP,以連接兩個(gè)狀態(tài)網(wǎng)格。


3)其他方法:狀態(tài)網(wǎng)格識(shí)別和初始生成是構(gòu)建軌跡的兩個(gè)基本操作。這兩種操作可以以各種方式組織。例如,Kuwata等人將這兩種操作集成在迭代循環(huán)中;胡等人在在線狀態(tài)網(wǎng)格識(shí)別之前離線構(gòu)建基元圖;Fan等人在生成連接基元之前識(shí)別狀態(tài)網(wǎng)格。如果規(guī)劃者只找到一條路徑而不是一條軌跡,那么作為后處理步驟,應(yīng)該在計(jì)劃的路徑上附加一個(gè)時(shí)間進(jìn)程。這種策略被稱為路徑速度分解(PVD),之所以被廣泛使用,是因?yàn)樗鼘⒁粋€(gè)三維問(wèn)題轉(zhuǎn)換為兩個(gè)二維問(wèn)題,這在很大程度上促進(jìn)了求解過(guò)程。相反,非PVD方法直接規(guī)劃軌跡,這具有提高解決方案最優(yōu)性的潛在優(yōu)點(diǎn)。


該研究領(lǐng)域的最新研究包括如何開(kāi)發(fā)適合特定場(chǎng)景/任務(wù)的特定規(guī)劃者,以及如何在上游/下游模塊不完善的情況下規(guī)劃安全軌跡。在過(guò)去的幾十年里,自動(dòng)駕駛領(lǐng)域取得了越來(lái)越快的進(jìn)步。除了計(jì)算硬件的進(jìn)步外,移動(dòng)機(jī)器人運(yùn)動(dòng)規(guī)劃理論計(jì)算方面的重大理論進(jìn)步也促成了這一快速進(jìn)步。毫無(wú)疑問(wèn),智能汽車將提高道路網(wǎng)絡(luò)的利用率和安全性,從而推動(dòng)了研究工作。


端到端規(guī)劃方法


端到端代表從原始傳感器數(shù)據(jù)到軌跡點(diǎn)或控制信號(hào)的直接映射。由于其提取特定任務(wù)政策的能力,它在各個(gè)領(lǐng)域都取得了巨大成功。與流水線方法相比,感知和控制模塊之間沒(méi)有外部間隙,而且很少嵌入人工定制的啟發(fā)式算法,因此端到端方法更有效地處理車輛與環(huán)境的交互。端到端有更高的天花板,有可能在自動(dòng)駕駛領(lǐng)域?qū)崿F(xiàn)專家級(jí)的性能。本節(jié)將端到端方法與學(xué)習(xí)方法分為三種不同的類型:使用監(jiān)督學(xué)習(xí)的模仿學(xué)習(xí)、使用無(wú)監(jiān)督學(xué)習(xí)的強(qiáng)化學(xué)習(xí)和包含混淆學(xué)習(xí)的并行學(xué)習(xí)。圖2進(jìn)一步闡明了端到端規(guī)劃器的結(jié)構(gòu)關(guān)系,強(qiáng)調(diào)了所審查方法的性能和先進(jìn)性。


A. 模仿學(xué)習(xí)


模仿學(xué)習(xí)(IL)是指基于專家軌跡的智能體學(xué)習(xí)策略,通常提供專家決策和控制信息。每個(gè)專家軌跡都包含一系列狀態(tài)和動(dòng)作,并提取所有“狀態(tài)-動(dòng)作”對(duì)來(lái)構(gòu)建數(shù)據(jù)集。在IL任務(wù)中,模型利用構(gòu)建的數(shù)據(jù)集來(lái)學(xué)習(xí)狀態(tài)和動(dòng)作之間的潛在關(guān)系,狀態(tài)代表特征,動(dòng)作展示標(biāo)簽。因此,IL的具體目標(biāo)是評(píng)估狀態(tài)和動(dòng)作之間的最適合度映射,以便agent盡可能多地實(shí)現(xiàn)專家軌跡。IL的配方總結(jié)如下:


基于這一公式,三種廣泛使用的訓(xùn)練方法在這一部分得以幸存,首先表現(xiàn)為一種消極的方法,稱為行為克?。˙C);第二個(gè)建立在BC的基礎(chǔ)上,命名為直接政策學(xué)習(xí)(DPL);最后是一種依賴于任務(wù)的方法,稱為逆強(qiáng)化學(xué)習(xí)(IRL)方法。表一列出了本部分所回顧的所有著名的模仿學(xué)習(xí)方法。


1)行為克隆:行為克?。˙C)是自動(dòng)駕駛中IL的主要方法。代理利用專家軌跡到訓(xùn)練模型,然后使用分類器/回歸器復(fù)制策略。BC是一種被動(dòng)方法,其目的是通過(guò)被動(dòng)觀察命令的完整執(zhí)行來(lái)學(xué)習(xí)目標(biāo)策略。這需要一個(gè)前提,即所有軌跡中的狀態(tài)-動(dòng)作對(duì)是獨(dú)立的。


Bojarski等人為BC構(gòu)建了一個(gè)開(kāi)創(chuàng)性的框架,該框架訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)僅計(jì)算前視圖單眼相機(jī)的轉(zhuǎn)向。這種方法只輸出橫向控制,而忽略縱向命令,因此只能在有限數(shù)量的簡(jiǎn)單場(chǎng)景中實(shí)現(xiàn)。Codevilla等人提出了一個(gè)著名的IL模型,稱為條件模仿學(xué)習(xí)(CIL),該模型包含橫向和縱向控制,如圖3所示。單目圖像、自車的速度測(cè)量和高級(jí)命令(直行、左行、右行和車道跟隨)被用作CIL的輸入,預(yù)測(cè)的經(jīng)度和緯度控制命令被用作輸出。每個(gè)命令都充當(dāng)一個(gè)開(kāi)關(guān)來(lái)選擇一個(gè)專門的子模塊。CIL是CL方法在自動(dòng)駕駛中的一個(gè)里程碑,證明了卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以學(xué)習(xí)自主執(zhí)行車道和道路跟蹤任務(wù)。


BC方法的主要特點(diǎn)是只有專家才能生成訓(xùn)練示例,這直接導(dǎo)致訓(xùn)練集是學(xué)習(xí)策略執(zhí)行過(guò)程中訪問(wèn)的狀態(tài)的子集。因此,當(dāng)數(shù)據(jù)集有偏差或過(guò)擬合時(shí),該方法僅限于推廣。此外,當(dāng)代理被引導(dǎo)到未知狀態(tài)時(shí),很難學(xué)習(xí)正確的恢復(fù)行為。


2)直接策略學(xué)習(xí):直接策略學(xué)習(xí)(DPL)是一種基于BC的訓(xùn)練方法,它評(píng)估當(dāng)前的策略,然后獲得更合適的訓(xùn)練數(shù)據(jù)進(jìn)行自優(yōu)化。與BC相比,DPL的主要優(yōu)勢(shì)是利用專家軌跡來(lái)指導(dǎo)代理如何從當(dāng)前錯(cuò)誤中恢復(fù)。通過(guò)這種方式,DPL緩解了由于數(shù)據(jù)不足而導(dǎo)致的BC限制。在本節(jié)中,我們總結(jié)了一系列DPL方法。


Ross等人構(gòu)建了一種經(jīng)典的在線IL方法,稱為數(shù)據(jù)集聚合(DAgger)方法。這是一種基于Follow the Leader算法的主動(dòng)方法,每個(gè)驗(yàn)證迭代都是一個(gè)在線學(xué)習(xí)示例。該方法修改代理所經(jīng)歷的所有狀態(tài)-動(dòng)作對(duì)上的主分類器或回歸器。DAgger是序列預(yù)測(cè)問(wèn)題的一種新的解決方案,但其學(xué)習(xí)效率可能會(huì)因策略空間和學(xué)習(xí)空間之間的距離太遠(yuǎn)而受到抑制。作為回應(yīng),He等人提出了一種DAgger-by-coaching算法,該算法使用coach為學(xué)習(xí)者演示易于學(xué)習(xí)的策略,并且演示的策略逐漸收斂到標(biāo)簽。為了更好地指導(dǎo)代理,教練建立了一個(gè)折衷策略,該策略并不比地面實(shí)況控制信號(hào)差多少,也比新手預(yù)測(cè)的行動(dòng)好得多。如圖4所示,π是預(yù)測(cè)的命令,π*表示專家軌跡,π'表示折衷軌跡。代理在每次迭代中學(xué)習(xí)次優(yōu)策略的π比π*容易得多,并且策略是漸近最優(yōu)的。


DPL是一種迭代的在線學(xué)習(xí)策略,它減輕了對(duì)數(shù)據(jù)集數(shù)量和分布的要求,同時(shí)通過(guò)有效地消除不正確的策略來(lái)促進(jìn)策略的持續(xù)改進(jìn)。


3)反向強(qiáng)化學(xué)習(xí):反向強(qiáng)化學(xué)習(xí)(IRL)旨在通過(guò)推斷輸入和輸出之間的潛在原因來(lái)規(guī)避上述方法的缺點(diǎn)。與之前的方法類似,IRL在開(kāi)始時(shí)需要收集一組專家軌跡。然而,不是簡(jiǎn)單地學(xué)習(xí)狀態(tài)-動(dòng)作映射,而是首先推斷這些專家軌跡,然后基于復(fù)雜的獎(jiǎng)勵(lì)函數(shù)優(yōu)化行為策略。IRL方法可分為三類,最大裕度方法、貝葉斯方法和最大熵方法。


最大裕度方法利用專家軌跡來(lái)評(píng)估獎(jiǎng)勵(lì)函數(shù),該函數(shù)最大化最優(yōu)策略和估計(jì)次最優(yōu)策略之間的裕度。這些方法使用線性組合算法表示具有一組特征的獎(jiǎng)勵(lì)函數(shù),其中所有特征被認(rèn)為是獨(dú)立的。


Andrew Wu[71]是這一領(lǐng)域的先驅(qū),他介紹了第一個(gè)最大裕度IRL方法,該方法提出了三種計(jì)算精細(xì)獎(jiǎng)勵(lì)函數(shù)的算法。更進(jìn)一步,Pieter等人設(shè)計(jì)了一種優(yōu)化算法,該算法假設(shè)專家獎(jiǎng)勵(lì)函數(shù)可以表示為已知特征的手動(dòng)線性組合,目的是揭示權(quán)重和特征之間的潛在關(guān)系。


現(xiàn)有方法的局限性在于,專家軌跡的質(zhì)量和分布為該方法的性能設(shè)置了上限。作為回應(yīng),Umar等人提出了一種基于博弈論的IRL方法,稱為乘法權(quán)重,用于學(xué)徒學(xué)習(xí),它能夠?qū)㈥P(guān)于每個(gè)特征權(quán)重的先驗(yàn)策略導(dǎo)入代理,并利用線性規(guī)劃算法修改獎(jiǎng)勵(lì)函數(shù),使其策略是穩(wěn)定的。


IRL的第二部分是貝葉斯方法,它通常利用獎(jiǎng)勵(lì)的優(yōu)化軌跡或先驗(yàn)分布來(lái)最大化獎(jiǎng)勵(lì)的后驗(yàn)分布。第一個(gè)貝葉斯IRL由Ramachandran等人提出。Levine等人將核函數(shù)集成到貝葉斯IRL模型中,以提高估計(jì)獎(jiǎng)勵(lì)的準(zhǔn)確性,并提高隱形駕駛的性能。


IRL的第三部分是最大熵方法,它是通過(guò)在優(yōu)化例程中使用最大熵來(lái)估計(jì)獎(jiǎng)勵(lì)函數(shù)來(lái)定義的。與以前的IRL方法相比,最大熵方法更適合連續(xù)空間,并且具有解決專家軌跡次優(yōu)影響的潛在能力。Ziebart提出了第一個(gè)最大熵IRL模型,該模型利用了與[71]相同的方法,可以緩解專家軌跡中的噪聲和不完美行為。代理試圖通過(guò)將特征線性映射到獎(jiǎng)勵(lì)來(lái)優(yōu)化監(jiān)督下的獎(jiǎng)勵(lì)函數(shù)。


IRL為自動(dòng)駕駛提供了一些優(yōu)秀的工作,然而與上述方法一樣,它在拐角情況下也存在長(zhǎng)尾問(wèn)題。如何有效地提高IRL的穩(wěn)健性和可解釋性也是未來(lái)的方向。


IL方法的目標(biāo)是從專家軌跡中獲取狀態(tài)到動(dòng)作的映射。然而,當(dāng)數(shù)據(jù)集存在固有缺陷(例如,過(guò)擬合或不均勻分布)時(shí),該方法的可推廣性可能會(huì)受到損害。此外,當(dāng)代理被引導(dǎo)到未知狀態(tài)時(shí),預(yù)測(cè)正確的行為成為一項(xiàng)艱巨的挑戰(zhàn)。為了克服這些限制,許多研究人員使用數(shù)據(jù)擴(kuò)充以及真實(shí)數(shù)據(jù)和虛擬數(shù)據(jù)的組合顯著豐富了數(shù)據(jù)集的分布。這些努力確保了方法的可推廣性,并獲得了有競(jìng)爭(zhēng)力的結(jié)果。


B. 強(qiáng)化學(xué)習(xí)


IL方法需要大量手動(dòng)標(biāo)記的數(shù)據(jù),當(dāng)遇到相同的情況時(shí),不同的駕駛員可能會(huì)做出完全不同的決定,這導(dǎo)致了訓(xùn)練過(guò)程中的不確定性困境。為了消除對(duì)標(biāo)記數(shù)據(jù)的渴望,一些研究人員努力利用強(qiáng)化學(xué)習(xí)(RL)算法進(jìn)行自主決策規(guī)劃。強(qiáng)化學(xué)習(xí)是指通過(guò)與環(huán)境交互來(lái)實(shí)現(xiàn)agent學(xué)習(xí)策略。RL代理的目標(biāo)不是模仿專家行為,而是通過(guò)試錯(cuò)最大限度地提高環(huán)境中的累積數(shù)字獎(jiǎng)勵(lì)。通過(guò)與環(huán)境的持續(xù)交互,代理逐漸獲得最優(yōu)策略的知識(shí),以實(shí)現(xiàn)目標(biāo)。


馬爾可夫決策過(guò)程(MDP)通常用于公式化RL問(wèn)題。目標(biāo)是找到最優(yōu)策略π*,從而獲得最高的預(yù)期折扣獎(jiǎng)勵(lì)總額:


基于這一公式,開(kāi)發(fā)了兩種實(shí)現(xiàn)最優(yōu)策略的主要RL方法,例如基于價(jià)值的強(qiáng)化學(xué)習(xí)和基于策略的強(qiáng)化學(xué)習(xí)。此外,基于這些方法,層次強(qiáng)化學(xué)習(xí)(HRL)和多智能體強(qiáng)化學(xué)習(xí)(MARL)是解決更復(fù)雜問(wèn)題和更適合真實(shí)駕駛場(chǎng)景的有前途的方法。使用RL方法訓(xùn)練無(wú)人駕駛車輛已成為端到端自動(dòng)駕駛研究的一個(gè)日益增長(zhǎng)的趨勢(shì)。


1)基于價(jià)值的強(qiáng)化學(xué)習(xí):基于價(jià)值的方法試圖估計(jì)給定狀態(tài)下不同行動(dòng)的價(jià)值,并學(xué)習(xí)根據(jù)在該狀態(tài)下采取行動(dòng)所能獲得的預(yù)期回報(bào)為每個(gè)行動(dòng)分配一個(gè)價(jià)值。代理人學(xué)會(huì)將獎(jiǎng)勵(lì)與環(huán)境中采取的狀態(tài)和行動(dòng)聯(lián)系起來(lái),并利用這些信息做出最佳決策。


在基于價(jià)值的方法中,Q學(xué)習(xí)是最突出的。在端到端規(guī)劃中實(shí)現(xiàn)Q學(xué)習(xí)的框架如圖7所示。Mnih等人提出了第一種基于Q學(xué)習(xí)的深度學(xué)習(xí)方法,該方法直接從屏幕截圖中學(xué)習(xí)以控制信號(hào)。此外,Wolf等人將Q學(xué)習(xí)方法引入智能車輛領(lǐng)域,他們?cè)贕azebo模擬器中定義了五種不同的駕駛動(dòng)作,車輛根據(jù)圖像信息選擇相應(yīng)的動(dòng)作。為了緩解高維感知輸入穩(wěn)定性差的問(wèn)題。提出了條件DQN方法,該方法利用去模糊算法來(lái)增強(qiáng)不同運(yùn)動(dòng)命令的預(yù)測(cè)穩(wěn)定性。所提出的模型在特定場(chǎng)景中實(shí)現(xiàn)了與人類駕駛相當(dāng)?shù)男阅?/p>


為了在特定場(chǎng)景下為IVs執(zhí)行高級(jí)決策,Alizadeh等人訓(xùn)練一個(gè)與DNN相結(jié)合的DQN代理,該代理輸出兩個(gè)離散動(dòng)作。自我車輛的安全性和靈活性可以在行駛中得到平衡,這表明RL代理可以學(xué)習(xí)自適應(yīng)行為。此外,Ronecker等人結(jié)合控制理論中的深度Q網(wǎng)絡(luò),提出了一種在高速公路場(chǎng)景中更安全的IV導(dǎo)航方法。通過(guò)為軌跡規(guī)劃器提出目標(biāo),在模擬中對(duì)所提出的網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,以進(jìn)行中央決策,這表明基于價(jià)值的RL可以在高速公路交通場(chǎng)景中產(chǎn)生高效和安全的駕駛行為。


端到端自動(dòng)駕駛的安全性也引起了人們的極大擔(dān)憂。約束策略優(yōu)化(CPO)是一種開(kāi)創(chuàng)性的通用策略利用算法,用于約束強(qiáng)化學(xué)習(xí),在每次迭代時(shí)都能獲得接近約束的滿足。李等人將風(fēng)險(xiǎn)感知算法引入DRL框架,以學(xué)習(xí)具有最小預(yù)期風(fēng)險(xiǎn)的變道任務(wù)的風(fēng)險(xiǎn)感知駕駛決策策略。Chow等人提出了安全策略優(yōu)化算法,該算法采用基于李雅普諾夫的方法來(lái)解決CMDP問(wèn)題。此外,Yang等人構(gòu)建了一種無(wú)模型的安全RL算法,該算法在逐步狀態(tài)約束場(chǎng)景中集成了策略和神經(jīng)屏障證書(shū)學(xué)習(xí)。Mo等人利用蒙特卡洛樹(shù)搜索來(lái)減少高速公路場(chǎng)景中超車子任務(wù)的不安全行為。


2)基于策略的強(qiáng)化學(xué)習(xí):基于價(jià)值的方法僅限于提供離散命令。然而,自動(dòng)駕駛是一個(gè)連續(xù)的過(guò)程,在不間斷的范圍內(nèi)的連續(xù)命令可以在細(xì)粒度上進(jìn)行控制。因此,連續(xù)方法更適合車輛控制?;诓呗缘姆椒ň哂性诰哂羞B續(xù)控制命令的高維動(dòng)作空間中實(shí)現(xiàn)高天花板的潛力。這些方法比基于價(jià)值的方法表現(xiàn)出更好的收斂性和探索性。


在真實(shí)世界的IVs上執(zhí)行RL是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。Kendall等人在實(shí)際的智能車輛上實(shí)現(xiàn)了深度威懾-最小策略梯度(DDPG)算法,在車上執(zhí)行所有探索和優(yōu)化,如圖8所示。單色圖像是唯一的輸入,智能體學(xué)習(xí)車道跟隨策略,并在250米的道路測(cè)試中達(dá)到人類水平的性能。這項(xiàng)工作標(biāo)志著在全尺寸自動(dòng)駕駛汽車上首次應(yīng)用深度強(qiáng)化學(xué)習(xí)。為了進(jìn)一步提高駕駛安全性和舒適性,王等人介紹了一種基于人類專家變道政策的IVs創(chuàng)新方法。這種方法可以在單車或多輛車上執(zhí)行,有助于在不需要V2X通信支持的情況下順利變道。


為了解決RL方法的學(xué)習(xí)效率限制,Huang等人設(shè)計(jì)了一種新的方法,將人類先驗(yàn)知識(shí)納入RL方法。當(dāng)面臨自動(dòng)駕駛的長(zhǎng)尾問(wèn)題時(shí),許多研究人員將他們的視角轉(zhuǎn)向了利用專家的人類經(jīng)驗(yàn)。吳等人提出了一種基于人工引導(dǎo)的RL方法,該方法利用一種新穎的優(yōu)先體驗(yàn)重放機(jī)制來(lái)提高RL算法在極端場(chǎng)景下的效率和性能,該方法的框架如圖9所示。該方法在兩個(gè)具有挑戰(zhàn)性的自動(dòng)駕駛?cè)蝿?wù)中得到了驗(yàn)證,并取得了具有競(jìng)爭(zhēng)力的結(jié)果。因此,提高駕駛?cè)蝿?wù)的表現(xiàn)可能需要多種方法的結(jié)合和特定任務(wù)訓(xùn)練方法的設(shè)計(jì)。


3)分層強(qiáng)化學(xué)習(xí):RL方法在各個(gè)領(lǐng)域都表現(xiàn)出了巨大的前景,然而,這些方法經(jīng)常因訓(xùn)練困難而受到批評(píng)。特別是在自動(dòng)駕駛領(lǐng)域,非平穩(wěn)場(chǎng)景和高維輸入數(shù)據(jù)導(dǎo)致無(wú)法忍受的訓(xùn)練時(shí)間和資源使用。分層強(qiáng)化學(xué)習(xí)(HRL)將整個(gè)問(wèn)題分解為子任務(wù)的層次結(jié)構(gòu),每個(gè)子任務(wù)都有自己的目標(biāo)和策略。子任務(wù)是以分層的方式組織的,高級(jí)子任務(wù)為低級(jí)子任務(wù)提供上下文和指導(dǎo)。這種分層組織允許代理專注于較小的子問(wèn)題,降低了學(xué)習(xí)問(wèn)題的復(fù)雜性,使其更易于處理。


4)多Agent強(qiáng)化學(xué)習(xí):在真實(shí)場(chǎng)景中,通常存在不同的流量參與者,他們的互動(dòng)會(huì)對(duì)彼此的策略產(chǎn)生重大影響。在單智能體系統(tǒng)中,其他參與者的行為通?;陬A(yù)定義的規(guī)則進(jìn)行控制,并且智能體的預(yù)測(cè)行為可能會(huì)過(guò)度擬合其他參與者,從而導(dǎo)致比多智能體更具確定性的策略。多智能體強(qiáng)化學(xué)習(xí)(MARL)旨在學(xué)習(xí)環(huán)境中多智能體的決策策略。分散的部分可觀測(cè)馬爾可夫決策過(guò)程(DEC-POMDP)是MARL的一種典型形式化,因?yàn)樵谠S多現(xiàn)實(shí)世界領(lǐng)域,智能體不可能觀察到環(huán)境狀態(tài)的所有特征,并且所有智能體都以分散的方式與環(huán)境交互。此外,狀態(tài)空間隨著代理的數(shù)量呈指數(shù)級(jí)擴(kuò)展,使得訓(xùn)練多代理系統(tǒng)(MAS)變得更具挑戰(zhàn)性和更慢。


盡管RL是一種很有吸引力的方法,可以讓智能體在沒(méi)有專家指令的環(huán)境中通過(guò)試錯(cuò)進(jìn)行學(xué)習(xí),但大多數(shù)RL方法的樣本效率都很低。隨著神經(jīng)網(wǎng)絡(luò)在RL領(lǐng)域用于深度表示學(xué)習(xí)和函數(shù)逼近,可解釋性仍然是一個(gè)挑戰(zhàn)。


C. 并行學(xué)習(xí)


自動(dòng)駕駛中的規(guī)劃方法受到幾個(gè)挑戰(zhàn)的限制。管道規(guī)劃方法結(jié)合了大量的人工定制啟發(fā)式方法,導(dǎo)致計(jì)算效率低,泛化能力低。模仿學(xué)習(xí)(IL)方法需要大量的專家軌跡和多樣化的分布,而強(qiáng)化學(xué)習(xí)(RL)方法則需要大量的計(jì)算資源。因此,這些限制的存在阻礙了自動(dòng)駕駛的廣泛實(shí)施。


為了應(yīng)對(duì)規(guī)劃方法中的各種問(wèn)題,虛擬現(xiàn)實(shí)交互提供了一個(gè)行之有效的解決方案?;诰W(wǎng)絡(luò)物理系統(tǒng)(CPS)的智能控制可以促進(jìn)物理空間和網(wǎng)絡(luò)空間之間的交互和集成,但不考慮系統(tǒng)中的人類和社會(huì)因素。作為回應(yīng),許多研究人員將社會(huì)因素和人工信息添加到CPS中,形成了網(wǎng)絡(luò)物理社會(huì)系統(tǒng)(CPSS)。在CPSS中,“C”代表兩個(gè)維度:真實(shí)世界中的信息系統(tǒng)和由軟件定義的虛擬人工系統(tǒng)?!癙”指的是傳統(tǒng)的實(shí)物系統(tǒng)。S不僅包括人類社會(huì)系統(tǒng),還包括基于現(xiàn)實(shí)世界的人工系統(tǒng)。


CPSS使虛擬系統(tǒng)和真實(shí)系統(tǒng)能夠相互作用、反饋和促進(jìn)。真實(shí)系統(tǒng)為人工系統(tǒng)的構(gòu)建和校準(zhǔn)提供了有價(jià)值的數(shù)據(jù)集,而人工系統(tǒng)則指導(dǎo)和支持真實(shí)系統(tǒng)的運(yùn)行,從而實(shí)現(xiàn)自進(jìn)化。由于虛擬現(xiàn)實(shí)交互的優(yōu)勢(shì),CPSS為端到端自動(dòng)駕駛提供了一種新的驗(yàn)證方法。


基于CPSS,王飛躍于2004年提出了并行系統(tǒng)理論的概念,如圖12所示,其核心概念是ACP方法,關(guān)于本節(jié)中提出的方法的調(diào)查如表III所示。


為了進(jìn)一步擴(kuò)展神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,并應(yīng)對(duì)IL和RL的挑戰(zhàn),Li等人提出了一個(gè)基于并行系統(tǒng)理論的并行學(xué)習(xí)基本框架,如圖13所示。在行動(dòng)階段,并行學(xué)習(xí)[128]遵循RL范式,采用狀態(tài)轉(zhuǎn)移來(lái)表示模型的運(yùn)動(dòng),從大數(shù)據(jù)中學(xué)習(xí),并將學(xué)習(xí)到的策略存儲(chǔ)在狀態(tài)轉(zhuǎn)移函數(shù)中。值得注意的是,并行學(xué)習(xí)利用計(jì)算實(shí)驗(yàn)來(lái)完善策略。通過(guò)特征提取方法,小知識(shí)可以應(yīng)用于特定場(chǎng)景或任務(wù),并用于并行控制。在這里,“小”指的是針對(duì)特定問(wèn)題的具體而聰明的知識(shí),而不是表示知識(shí)的大小。


并行系統(tǒng)理論為復(fù)雜系統(tǒng)的控制和管理提供了一種有效的工具,特別是在自主控制領(lǐng)域,并行驅(qū)動(dòng)有效地緩解了端到端規(guī)劃模型數(shù)據(jù)短缺、學(xué)習(xí)效率低下和魯棒性差的問(wèn)題。


實(shí)驗(yàn)平臺(tái)


在真實(shí)系統(tǒng)中測(cè)試IVs通常會(huì)帶來(lái)潛在的致命安全風(fēng)險(xiǎn)。因此,自動(dòng)駕駛中的算法通常在利用開(kāi)源數(shù)據(jù)集和模擬平臺(tái)的人工系統(tǒng)中進(jìn)行評(píng)估。


A. 數(shù)據(jù)集


B. 仿真平臺(tái)


C. 物理平臺(tái)


隨著計(jì)算機(jī)計(jì)算能力的提高,模擬測(cè)試越來(lái)越能夠滿足各種場(chǎng)景的測(cè)試要求,并已被證明在解決與此類系統(tǒng)相關(guān)的長(zhǎng)尾問(wèn)題方面是有效的。然而,模擬器中使用的預(yù)訓(xùn)練模型通常需要在現(xiàn)實(shí)世界中實(shí)現(xiàn)之前進(jìn)行微調(diào)。此外,雖然模擬測(cè)試可以覆蓋廣泛的場(chǎng)景,但它不能考慮所有的角落情況。因此,一個(gè)專業(yè)且安全的半開(kāi)放式自動(dòng)駕駛驗(yàn)證網(wǎng)站至關(guān)重要。


自動(dòng)駕駛技術(shù)在過(guò)去幾十年中取得了重大發(fā)展,一些國(guó)家采取了允許在公共道路上測(cè)試機(jī)器人出租車的政策。在美國(guó),從2022年起,Waymo被允許在舊金山街頭測(cè)試機(jī)器人駕駛技術(shù)。Nuro最近開(kāi)始在亞利桑那州、加利福尼亞州和得克薩斯州部署自動(dòng)駕駛送貨車。在英國(guó),Aurigo正在伯明翰機(jī)場(chǎng)進(jìn)行自動(dòng)穿梭機(jī)的試驗(yàn)。Wayve被授權(quán)在五個(gè)城市之間進(jìn)行長(zhǎng)距離自動(dòng)駕駛汽車測(cè)試。在中國(guó),無(wú)人駕駛的商業(yè)化正在迅速發(fā)展,Apollo、Pony和Momenta等公司已經(jīng)在幾個(gè)城市實(shí)施了IVs。此外,Waytous正在非結(jié)構(gòu)化和封閉場(chǎng)景中進(jìn)行無(wú)人駕駛運(yùn)輸,并已為多個(gè)露天礦提供無(wú)人駕駛解決方案。


挑戰(zhàn)和未來(lái)方向


自動(dòng)駕駛已經(jīng)取得了相當(dāng)大的里程碑,它在各個(gè)城市的半開(kāi)放道路上的成功驗(yàn)證就是明證。然而,由于需要克服許多障礙和迫在眉睫的挑戰(zhàn),其完整的商業(yè)部署尚未實(shí)現(xiàn)。


A. 挑戰(zhàn)


  • 1)感知:自動(dòng)駕駛框架在很大程度上依賴于感知數(shù)據(jù),然而大多數(shù)傳感器更容易受到環(huán)境影響,并存在部分感知問(wèn)題。因此,潛在的危險(xiǎn)可能會(huì)被忽視,這些缺點(diǎn)給自動(dòng)駕駛帶來(lái)了安全挑戰(zhàn)。


  • 2)規(guī)劃:管道和端到端規(guī)劃都有內(nèi)在的局限性,確保在不確定和復(fù)雜的場(chǎng)景下產(chǎn)生高質(zhì)量的產(chǎn)出是必不可少的研究目標(biāo)。


  • 3)安全:自動(dòng)駕駛系統(tǒng)的黑客攻擊正在增加,即使是輕微的干擾也可能引發(fā)重大偏差。因此,大規(guī)模部署匿名駕駛方法需要采取強(qiáng)有力的措施來(lái)對(duì)抗對(duì)抗性攻擊。


  • 4)數(shù)據(jù)集:模擬器對(duì)于訓(xùn)練和測(cè)試自動(dòng)駕駛模型至關(guān)重要,然而,在虛擬環(huán)境中訓(xùn)練良好的模型往往無(wú)法在現(xiàn)實(shí)中直接實(shí)現(xiàn)。因此,彌合虛擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的差距對(duì)于推進(jìn)該領(lǐng)域的研究至關(guān)重要。


B. 未來(lái)方向


端到端規(guī)劃器的機(jī)制是最接近人類驅(qū)動(dòng)程序的,根據(jù)輸入狀態(tài)來(lái)計(jì)算輸出空間。然而,由于數(shù)據(jù)、可解釋性、通用性和策略方面的挑戰(zhàn),端到端規(guī)劃者在現(xiàn)實(shí)世界中仍然很少實(shí)施。在此,我們提出了端到端規(guī)劃領(lǐng)域的一些未來(lái)展望。

  • 可解釋性:機(jī)器學(xué)習(xí)因其黑匣子特性而受到批評(píng)。目前的中間特征表示不足以解釋其推理過(guò)程的因果性。在IV的情況下,缺乏可解釋性的后果可能是災(zāi)難性的。因此,為運(yùn)動(dòng)規(guī)劃器提供清晰易懂的解釋對(duì)于增強(qiáng)對(duì)智能車輛的信任至關(guān)重要。此外,這種方法可以幫助預(yù)測(cè)和糾正可能危及乘客安全的潛在問(wèn)題。


  • Sim2Real:模擬和真實(shí)環(huán)境在場(chǎng)景多樣性和環(huán)境復(fù)雜性方面存在明顯差異,使模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)保持一致具有挑戰(zhàn)性。因此,模擬器中訓(xùn)練有素的模型可能無(wú)法在真實(shí)環(huán)境中最佳地執(zhí)行。開(kāi)發(fā)一個(gè)模型來(lái)彌合模擬環(huán)境和真實(shí)環(huán)境之間的差距,對(duì)于解決數(shù)據(jù)多樣性和公平性的挑戰(zhàn)至關(guān)重要,這也是端到端規(guī)劃的一個(gè)重要研究方向。


  • 可靠性:阻礙IVs開(kāi)發(fā)和部署的一個(gè)關(guān)鍵瓶頸是驗(yàn)證其可靠性所需的高昂經(jīng)濟(jì)和時(shí)間成本。構(gòu)建一種能夠在短時(shí)間內(nèi)識(shí)別角落案例的基于人工智能的算法是IVs驗(yàn)證的關(guān)鍵方向。


  • 治理:四不僅是一個(gè)技術(shù)問(wèn)題,健全的政策也至關(guān)重要。設(shè)計(jì)一個(gè)包括安全標(biāo)準(zhǔn)、數(shù)據(jù)隱私法規(guī)和道德準(zhǔn)則的框架對(duì)于管理IVs的開(kāi)發(fā)和部署是必要的。這一框架將促進(jìn)問(wèn)責(zé)制和透明度,降低風(fēng)險(xiǎn),并確保捍衛(wèi)公眾利益。


① 全網(wǎng)獨(dú)家視頻課程


BEV感知、毫米波雷達(dá)視覺(jué)融合、多傳感器標(biāo)定、多傳感器融合、3D目標(biāo)檢測(cè)、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)等多個(gè)方向?qū)W習(xí)視頻(掃碼免費(fèi)學(xué)習(xí))



視頻官網(wǎng):www.zdjszx.com


② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)


近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!



③【自動(dòng)駕駛之心】技術(shù)交流群


自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū),聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、Occupancy、多傳感器融合、大模型、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)


最新!自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃全面回顧:全局規(guī)劃、局部規(guī)劃、模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
大关县| 浦县| 双流县| 临江市| 滁州市| 甘谷县| 南昌县| 特克斯县| 鄯善县| 永清县| 雷州市| 蓬溪县| 阳朔县| 凯里市| 贞丰县| 宾阳县| 丰县| 沁水县| 德惠市| 滕州市| 安远县| 辛集市| 河北省| 邵阳县| 睢宁县| 措美县| 东山县| 关岭| 镇宁| 突泉县| 安丘市| 长寿区| 海原县| 射阳县| 武隆县| 满洲里市| 海城市| 临猗县| 普兰县| 台州市| 岱山县|