苍井优一级毛片免费观看,成年网站在线观看,日本一二三不卡视频,日日天天人人夜夜九九

24小時(shí)論文定制熱線(xiàn)

熱門(mén)畢設:土木工程工程造價(jià)橋梁工程計算機javaasp機械機械手夾具單片機工廠(chǎng)供電采礦工程
您當前的位置:論文定制 > 畢業(yè)設計論文 >
快速導航
畢業(yè)論文定制
關(guān)于我們
我們是一家專(zhuān)業(yè)提供高質(zhì)量代做畢業(yè)設計的網(wǎng)站。2002年成立至今為眾多客戶(hù)提供大量畢業(yè)設計、論文定制等服務(wù),贏(yíng)得眾多客戶(hù)好評,因為專(zhuān)注,所以專(zhuān)業(yè)。寫(xiě)作老師大部分由全國211/958等高校的博士及碩士生設計,執筆,目前已為5000余位客戶(hù)解決了論文寫(xiě)作的難題。 秉承以用戶(hù)為中心,為用戶(hù)創(chuàng )造價(jià)值的理念,我站擁有無(wú)縫對接的售后服務(wù)體系,代做畢業(yè)設計完成后有專(zhuān)業(yè)的老師進(jìn)行一對一修改與完善,對有答辯需求的同學(xué)進(jìn)行一對一的輔導,為你順利畢業(yè)保駕護航
代做畢業(yè)設計
常見(jiàn)問(wèn)題

基于強化學(xué)習和計算機仿真的交通信號調度

添加時(shí)間:2021/11/17 來(lái)源:未知 作者:樂(lè )楓
在本文中,主要使用強化學(xué)習的方式來(lái)控制紅綠燈。首先,在理想場(chǎng)景中,通過(guò)SUMO 設置了兩種道路方式:一種是單個(gè)路口雙向四車(chē)道,一種是多個(gè)路口雙向四車(chē)道。
以下為本篇論文正文:

  摘 要

  交通問(wèn)題日益突出。在城市的交叉路口中,人們使用紅綠燈來(lái)控制車(chē)輛的通行,采用固定紅綠燈時(shí)間長(cháng)度的方式,在不同的車(chē)輛流量情況下,會(huì )造成車(chē)輛平均等待時(shí)間過(guò)長(cháng),導致車(chē)輛的擁堵,影響整體道路的交通情況。因此,如何選擇合理方式來(lái)控制紅綠燈,對于減少交叉路口的擁堵至關(guān)重要。

  在本文中,主要使用強化學(xué)習的方式來(lái)控制紅綠燈。首先,在理想場(chǎng)景中,通過(guò)SUMO 設置了兩種道路方式:一種是單個(gè)路口雙向四車(chē)道,一種是多個(gè)路口雙向四車(chē)道。

  配置兩種車(chē)輛流量方式:一種是車(chē)輛流量恒定的方式,另一種是隨著(zhù)時(shí)間變化而發(fā)生有規律變化的車(chē)輛流量的方式。此外,還添加真實(shí)場(chǎng)景的地圖與車(chē)輛流量。其次,在強化學(xué)習中,重新定義了狀態(tài)空間,動(dòng)作空間,獎勵函數,評價(jià)指標。狀態(tài)空間是關(guān)于車(chē)輛靜止與非靜止兩種狀態(tài)的排隊長(cháng)度所占道路比例的函數形式,動(dòng)作空間是人為劃分紅綠燈的四個(gè)相位,獎勵函數是關(guān)于車(chē)輛平均等待時(shí)間的函數形式。在單個(gè)路口中,評價(jià)指標是所有車(chē)道的車(chē)輛平均等待時(shí)間,在多個(gè)路口中,評價(jià)指標是所有路口的車(chē)輛平均等待時(shí)間。然后,設置五種場(chǎng)景,分別是單個(gè)路口的車(chē)輛流量恒定,單個(gè)路口的車(chē)輛流量變化,多個(gè)路口的車(chē)輛流量恒定,多個(gè)路口的車(chē)輛流量變化,真實(shí)場(chǎng)景的多路口。最后,選擇固定紅綠燈時(shí)間長(cháng)度,半固定紅綠燈時(shí)間長(cháng)度,Q-Learning 算法,策略梯度算法,A3C 算法五種方式進(jìn)行仿真模擬。實(shí)驗結果表明:A3C 算法的車(chē)輛平均等待時(shí)間均小于其他四種方式下的車(chē)輛平均等待時(shí)間。驗證 A3C 算法在不同的路口,不同的車(chē)輛流量情況下,減少車(chē)輛的平均等待時(shí)間,能夠緩解交通的擁堵,在交通信號燈調度中具有高效性與優(yōu)越性。

  關(guān)鍵詞:SUMO;強化學(xué)習;Q-Learning;策略梯度;A3C

  Abstract

  With the rapid development of the national economy, the scale of the city continues to expand, the number of population and vehicle flow continues to increase, and the traffic problem has become increasingly prominent. In urban intersections, people use traffic lights to control the traffic of vehicles, and adopt the way of fixed time length of traffic lights. Under different traffic flow conditions, the average waiting time of vehicles will be too long, which will lead to vehicle congestion and affect the overall road traffic situation. Therefore, how to choose a reasonable way to control the traffic lights is very important to reduce the congestion of intersections.

  In this thesis, we mainly use reinforcement learning to control traffic lights. Firstly, in the ideal scene, two road modes are set up through sumo: one is two-way four lanes at a single intersection, and the other is two-way four lanes at multiple intersections. Two vehicle flow modes are configured: one is the mode of constant vehicle flow, and the other is the mode of regular vehicle flow changing with time. In addition, the map of real scene and vehicle flow are added. Secondly, in reinforcement learning, state space, action space, reward function and evaluation index are redefined. The state space is a function of the proportion of the queue length of the stationary and non-stationary vehicles in the road, the action space is a function of the four phases of the traffic lights, and the reward function is a function of the average waiting time of the vehicles. In a single intersection, the evaluation index is the average waiting time of vehicles in all lanes. In multiple intersections, the evaluation index is the average waiting time of vehicles in all intersections. Then, five scenarios are set, namely, the vehicle flow at a single intersection is constant, the vehicle flow at a single intersection changes, the vehicle flow at multiple intersections is constant, the vehicle flow at multiple intersections changes, and the real scene of multiple intersections. Finally, we choose five ways to simulate: fixed traffic light time length, semi fixed traffic light time length, Q-learning algorithm, strategy gradient algorithm and A3C algorithm. The experimental results show that the average waiting time of A3C algorithm is less than that of the other four modes. It is verified that A3C algorithm can reduce the average waiting time of vehicles in different intersections and different vehicle flows, alleviate traffic congestion, and has high efficiency and superiority in traffic signal scheduling.

  Key Words:SUMO; Reinforcement Learning; Q-Learning; Policy Gradient; A3C

交通信號調度

  目 錄

  1 緒論

  1.1 研究背景與意義

  1.1.1 我國城市道路交通目前現狀

  伴隨著(zhù)中國經(jīng)濟的快速發(fā)展,許多城市的規模在不斷擴大,大量的人們涌進(jìn)城市,人們的物質(zhì)生活水平在不斷地提高。然而,在城市的快速發(fā)展的背后,也存在一系列的問(wèn)題,如空氣污染,道路擁堵等。在城市交通道路中,道路變得越來(lái)越擁擠,主要有如下的原因:

  (1) 城市道路規劃的限制,以前規劃城市道路的時(shí)候,主要考慮的是當下以及以后一段時(shí)間的交通狀況,比如在車(chē)輛相對繁忙路段設置四車(chē)道,車(chē)輛相對稀少路段設置兩車(chē)道,后來(lái)車(chē)輛數量的急劇增加,導致車(chē)道異常擁堵。城市地形的限制和居民建筑的限制,比如在城市的大山里開(kāi)鑿隧道,在河流上面架設橋梁,繞過(guò)大量居民居住區規劃道路,這些因素使城市的交通道路變得繁忙擁擠。

  (2) 車(chē)輛的數目和種類(lèi)的增加,以前只有一部分人擁有車(chē)輛。而現在隨著(zhù)人們對車(chē)輛的需求增加,越來(lái)越多的人們開(kāi)始購買(mǎi)車(chē)輛,使生活更加便利。大量的車(chē)輛行駛在城市道路上面,尤其是在上下班的高峰期,更是加劇了道路的擁擠。

  (3) 城市人口的快速增長(cháng),隨著(zhù)城鎮化的浪潮,許多世代居住在農村的人們開(kāi)始向城市遷移,大城市更是憑借自己的區位優(yōu)勢,醫療資源,地理優(yōu)勢等,變成人口百萬(wàn)級別,甚至千萬(wàn)級別的大都市。人們的大量出行勢必導致道路的擁擠。

  不過(guò),在解決城市道路交通擁擠的過(guò)程中,許多城市也提出不同的解決辦法。人們通過(guò)修建軌道交通,改變的人們的出行方式,提高人們的出行質(zhì)量,同時(shí)提出一系列的相關(guān)措施,車(chē)牌單雙號限行,減少在道路上行駛的車(chē)輛數目。此外還規定人們搖號獲取車(chē)牌,減少擁有車(chē)牌人數的數目。還嚴格設置在規定道路上允許某一類(lèi)車(chē)牌車(chē)輛行駛,從而在規定道路上減少車(chē)輛的擁堵,來(lái)緩解城市的道路擁堵情況。

  1.1.2 交通信號調度的意義

  城市管理者已經(jīng)采取了各種措施來(lái)緩解道路擁堵,取得了有效的成果。在城市交通道路中,造成擁堵的地方大多數位于道路的交叉口與轉彎處,車(chē)輛需要在道路交叉口暫時(shí)停下來(lái),等待紅綠燈的調度,這無(wú)疑增加了車(chē)輛通過(guò)這段道路的時(shí)間。如何縮短車(chē)輛通過(guò)道路的時(shí)間尤為重要,這將不僅會(huì )影響自己車(chē)輛通過(guò)時(shí)間,還會(huì )產(chǎn)生連鎖反應,還會(huì )影響其他附近車(chē)輛的等待時(shí)間。

  交通信號燈在城市交通道路中扮演著(zhù)一個(gè)指揮者的角色。在交錯復雜的城市道路中,車(chē)輛的行駛總是會(huì )受到其他車(chē)輛和道路的影響。每一輛車(chē)都希望自己能快速通過(guò)路口,但是往往容易堵在路口附近,進(jìn)退兩難。這時(shí)候交通信號燈能夠指揮車(chē)輛的行進(jìn),什么時(shí)候停下來(lái),什么時(shí)候快速通過(guò)。要是沒(méi)有交通信號燈,每一輛車(chē)都想著(zhù)快速通過(guò),來(lái)自四面八方的車(chē)輛匯聚在一起,道路會(huì )變得混亂起來(lái),甚至還會(huì )出現車(chē)輛碰撞,出現車(chē)禍的情況。交通信號調度的意義就在于:如何使車(chē)輛快速通過(guò)交叉路口,減少車(chē)輛的等待時(shí)間。同時(shí)合理規劃紅綠燈的時(shí)長(cháng),比如在車(chē)輛繁忙的車(chē)道上面設置相對長(cháng)的綠燈時(shí)長(cháng),在車(chē)輛稀少的車(chē)道上面設置相對短的綠燈時(shí)長(cháng)。

  1.2 國內外的研究現狀

  交通信號燈可以追溯于 19 世紀的第二次工業(yè)革命,為了解決在交叉路口常常會(huì )出現交通堵塞和交通事故的問(wèn)題,1868 年的英國著(zhù)名發(fā)明家奈特設計了一種只有紅綠兩種顏色的交通信號燈,有效引導馬車(chē)和行人通行。這使交通信號燈第一次在道路上大展拳腳,引導著(zhù)后來(lái)人對交通信號燈的研究[1].后來(lái),面對紅綠燈的交替運行,會(huì )遇到人或者車(chē)輛恰好走到一半的時(shí)候,交通信號燈發(fā)生改變,需要一定的緩沖時(shí)間,因此開(kāi)始出現紅綠黃的三色紅綠燈,這種交通信號燈逐漸出現在美國紐約,英國倫敦的街頭上,這種三色類(lèi)型的紅綠燈直到今天仍在使用。

  交通信號燈剛開(kāi)始出現時(shí)候,非常簡(jiǎn)單,十分簡(jiǎn)陋。隨著(zhù) 20 世紀初期的經(jīng)濟繁榮,汽車(chē)開(kāi)始行駛道路上,人們的出行需求進(jìn)一步增加,原來(lái)的信號交通等越發(fā)顯得愚笨。

  電力的出現和機械的發(fā)展更是推動(dòng)著(zhù)交通信號燈的發(fā)展,1926 年,工程師設計并制造了機械式交通信號機,它的動(dòng)力來(lái)源是電動(dòng)機的運轉,通過(guò)機械齒輪的精密旋轉來(lái)控制交通信號燈的三色時(shí)長(cháng)[2].

  后來(lái),計算機的出現更是為交通信號燈的高度智能化奠定了基礎。城市間的交通信號燈和道路并不是孤立的,而是一個(gè)有機結合的整體。一條道路的擁擠會(huì )導致相關(guān)道路的擁擠,一個(gè)交叉路口的交通信號燈也會(huì )影響其他的交叉路口。交通信號控制系統的出現更是為了解決城市的大規模交通調度的問(wèn)題。下面是幾個(gè)具有顯著(zhù)特性和代表性的交通信號控制系統:

  (1) TRANSYT (Traffic Network Tool)系統[3],是由英國羅伯遜先生于 1966 年提出的,它是一種定時(shí)式脫機操作交通信號控制系統,是由仿真模型和優(yōu)化部分組成的。首先根據日常生活經(jīng)驗進(jìn)行初始信號的配時(shí),將道路的各種交通流信息傳入到仿真模型中,通過(guò)輸出性能指標,道路網(wǎng)絡(luò )內的延誤及停車(chē)次數等來(lái)評估仿真模型的好壞。同時(shí)還需要一個(gè)優(yōu)化過(guò)程,將獲得的性能指標,傳入的優(yōu)化數據,通過(guò)爬山法產(chǎn)生新的信號配時(shí),讓仿真模型使用。這是一套完整的靜態(tài)系統,但是由于這是固定式的信號配時(shí)策略,交通信號燈在不同車(chē)流的情況下不能夠很好進(jìn)行調度,從而導致道路的擁擠[4]. (2) SCOOT(Split Cycle Offset Optimizing Technique)系統[5],是由英國運輸與道路研究所在 70 年代提出的,主要是關(guān)于調節綠信比[6],周期,利用相位差技術(shù)。綠信比是在一個(gè)周期內,綠燈時(shí)長(cháng)的比例,即允許車(chē)輛通行的時(shí)間占一個(gè)周期的比例。通過(guò)車(chē)輛檢測器獲得道路的車(chē)輛行駛狀況,利用交通模型和調節模型的參數來(lái)實(shí)現信號配時(shí)的策略。

  SCOOT 系統需要計數檢測器和占有率檢測器等一系列相關(guān)的檢測器,因此是一種能夠實(shí)時(shí)檢測的自適應控制系統。不過(guò),它高度依賴(lài)于數學(xué)模型的仿真,需要數學(xué)模型精確考慮到道路的各種狀況。而事實(shí)上,道路的情況復雜多變,會(huì )與數學(xué)模型的仿真存在一定范圍的誤差,存在相關(guān)的問(wèn)題。

  (3) SCATS(Sydney Coordinated Adaptive Traffic System)[7],是由澳大利亞新南威爾士州道路交通局(RTA)在 70 年代提出并成功應用到悉尼的道路上。不同于集中控制的SCOOT 系統,SCATS 是一種分層的實(shí)時(shí)交通信號燈系統[8].它的中央控制級是核心部分,只需要用一臺控制計算機就可以控制上百個(gè)路口。信號周期,綠信比也是 SCATS系統調節的目標,通過(guò)三級的層層控制來(lái)減少道路的擁堵情況。盡管 SCATS 系統有著(zhù)簡(jiǎn)單,方便,快捷,高效的特點(diǎn),但是沒(méi)有合適的交通模型和檢測器的過(guò)少,使得 SCATS系統信號燈調度的性能稍微偏差。到現在為止,SCATS 系統憑借自己的性?xún)r(jià)比在很多發(fā)達國家和發(fā)展中國家大受歡迎。

  硬件的設備提高與交通控制系統的完善,更是促進(jìn)交通信號燈越來(lái)越完善。國內外學(xué)者也將目光投入到如何使用各類(lèi)算法來(lái)調節交通信號燈,來(lái)適應越來(lái)越復雜的道路情況。從國外對交通信號燈的研究來(lái)看:Webster 和 Miller A. J 兩位學(xué)者通過(guò)對交通信號燈的研究,優(yōu)化了車(chē)輛的平均等待的時(shí)間,提出在固定周期內交通信號燈算法[9].

  Pappis C. P 和 Mamdam E. H 通過(guò)將模糊控制算法引入到交通信號燈調度中,取得了顯著(zhù)的成果[10].Chen X. F 等人將遺傳算法引入到交通信號燈的配時(shí)策略中,從而優(yōu)化車(chē)輛的平均等待時(shí)間[11].Abdulhai B 等人利用強化學(xué)習進(jìn)行交通信號燈的調度,強化學(xué)習在交通信號燈的舞臺上大展拳腳[12].Grandinetti P 等人通過(guò)構建網(wǎng)絡(luò )對多個(gè)道路進(jìn)行建立模型,仿真模擬[13].在國內,盡管對交通信號燈的開(kāi)始研究時(shí)間相對稍晚,但是對交通信號燈的研究也是如火如荼。沈國江將神經(jīng)網(wǎng)絡(luò )與模糊控制算法相結合,優(yōu)化目標平均車(chē)輛的耽誤時(shí)間,來(lái)對信號交通的綠信比等關(guān)鍵因素實(shí)行對應的策略[14].馮遠靜等人采用模擬退火算法與綠波協(xié)調控制相結合的方法,來(lái)針對交通信號燈的調度[15].閆東宇等人優(yōu)化交通信號燈的控制,使用攝像傳感技術(shù)獲取道路信息,然后加入模糊控制技術(shù),從而減少道路的交通擁堵[16].從這些國內外的研究中,交通信號燈調度算法都主要集中在模糊控制[17,18],神經(jīng)網(wǎng)絡(luò )[19,20],遺傳算法[21,22],強化學(xué)習[23,24]上面。

  1.3 研究思路

  交通信號調度是一個(gè)復雜的系統,在系統中,不同的道路上有不同的車(chē)輛流量,車(chē)輛流量受到各種因素的影響,如天氣,節日,車(chē)禍等。在考慮交通信號調度的問(wèn)題中,應該盡可能要與實(shí)際情況相符合,而不是完全設定為理想化的情況。后來(lái),我們采用SUMO 這種交通系統模擬仿真軟件。通過(guò)對相應的參數進(jìn)行調節,改變道路或者車(chē)輛流量的情況,去模擬仿真現實(shí)的道路場(chǎng)景與環(huán)境。

  我們選擇 SUMO 這種合適的工具,還需要考慮使用什么算法。在本文中,采用強化學(xué)習的方法進(jìn)行交通信號的調度,是因為強化學(xué)習的發(fā)展如火如荼,提出了各種各樣的方法,強化學(xué)習所需要的環(huán)境與智能體完美地對應著(zhù) SUMO 環(huán)境和紅綠燈。狀態(tài)空間,動(dòng)作空間,獎勵函數都可以有不同的定義。因此,在本文中,主基調是強化學(xué)習與計算機仿真的結合。在強化學(xué)習中,主要可以分為兩類(lèi),一類(lèi)是以值函數為代表的Q-Learning 算法,將 Q-Learning 算法與深度學(xué)習相結合的 DQN 算法;另一類(lèi)從策略出發(fā)的策略梯度算法,有基準的 Reinforce 算法。我們首先采取 Q-Learning 算法和策略梯度算法,參與到計算機的交通模擬仿真中,結果發(fā)現在 Q-Learning 算法中,交叉路口的狀態(tài)空間的維數多,建立相對應的 Q 表并且訓練 Q 表,將其收斂是一個(gè)復雜的問(wèn)題,難以做到。在策略梯度算法中,是一種一個(gè)回合才更新的算法,這就說(shuō)明訓練是一個(gè)收斂極慢的過(guò)程。將兩者結合起來(lái),就是 Actor-Critic 算法,建立兩個(gè)神經(jīng)網(wǎng)絡(luò ),進(jìn)行模型訓練,有效避免上述兩個(gè)問(wèn)題。后來(lái)又發(fā)展 A3C 算法,通過(guò)多線(xiàn)程異步的方式加快訓練速度和收斂速度。為此,我們計劃建立不同的道路場(chǎng)景的仿真模型,并將基于 A3C算法的交通燈調度策略與固定時(shí)長(cháng)交通燈、Q-Learning 算法以及策略梯度相比較,通過(guò)評價(jià)指標來(lái)說(shuō)明 A3C 算法能夠緩解交通的擁堵情況。

  1.4 本文章節

  安排本文一共劃分為 5 章,每一章的內容與結構如下:

  第 1 章是緒論,主要是關(guān)于交通信號燈調度主題的研究背景與意義,國內外的研究現狀和研究思路,從總體上展示本文的全貌。

  第 2 章是基礎知識簡(jiǎn)介,主要是關(guān)于強化學(xué)習,Q-Learning 算法,策略梯度算法,A3C 算法與神經(jīng)網(wǎng)絡(luò )的知識,是本文的理論基礎。

  第 3 章是 A3C 算法交通信號燈控制策略設計,主要是關(guān)于在 SUMO 軟件中,路網(wǎng)與車(chē)輛流量的設計,設置了五種不同的道路場(chǎng)景。與此同時(shí),把強化學(xué)習的重要因素與SUMO 軟件相結合,定義狀態(tài)空間,動(dòng)作空間,獎勵值等。

  第 4 章是實(shí)驗及實(shí)驗結果分析,主要是關(guān)于模型的介紹與定義評價(jià)指標。在五種不同的道路場(chǎng)景中,運用四種或者兩種信號交通燈的調度方式,得到車(chē)輛平均等待時(shí)間的相關(guān)數據,并將這些數據以折線(xiàn)圖,箱線(xiàn)圖,四分位數表的形式展示出來(lái)。

  第 5 章是結論與局限性,主要是關(guān)于對本文所作實(shí)驗得出完整的結論和對本文中的不足進(jìn)行探討。

  2 基礎知識簡(jiǎn)介

  2.1 強化學(xué)習基礎

  2.1.1 強化學(xué)習的介紹

  2.1.2 馬爾可夫決策過(guò)程

  2.2 Q-Learning 算法

  2.3 策略梯度算法

  2.4 強化學(xué)習的 AC 算法

  2.4.1 AC 算法的簡(jiǎn)單介紹

  2.4.2 A3C 算法的應用

  2.5 深度學(xué)習的簡(jiǎn)單介紹

  2.5.1 神經(jīng)網(wǎng)絡(luò )

  2.5.2 卷積層

  2.5.3 池化層

  2.5.3 全連接層

  3 A3C 算法信號交通燈控制策略設計

  3.1 A3C 算法的設計控制方案

  3.2 交通系統仿真軟件 SUMO

  3.3 道路設計與車(chē)輛設計

  3.3.1 道路設計

  3.3.1 車(chē)輛設計

  3.4 單個(gè)路口的車(chē)輛流量

  3.4.1 單個(gè)路口車(chē)輛流量恒定的展示

  3.4.2 單個(gè)路口車(chē)輛流量變化的展示

  3.5 多個(gè)路口的車(chē)輛流量

  3.5.1 多個(gè)路口車(chē)輛流量恒定的展示

  3.5.2 多個(gè)路口車(chē)輛流量變化的展示

  3.6 強化學(xué)習要素的定義

  3.6.1 強化學(xué)習的要素

  3.6.2 狀態(tài)空間的定義

  3.6.3 動(dòng)作空間的定義

  3.6.4 獎勵值的定義

  4 實(shí)驗及實(shí)驗結果分析

  4.1 模型訓練與評價(jià)指標

  4.2 單個(gè)路口的車(chē)輛流量恒定的實(shí)驗結果展示

  4.3 單個(gè)路口的車(chē)輛流量變化的實(shí)驗結果展示

  4.4 多個(gè)路口的車(chē)輛流量恒定的實(shí)驗結果展示

  4.5 多個(gè)路口的車(chē)輛流量變化的實(shí)驗結果展示

  4.6 真實(shí)場(chǎng)景交通信號燈調度的實(shí)驗結果展示

  5 結論與局限性

  5.1 研究結論及創(chuàng )新點(diǎn)

  5.1.1 研究結論

  在本文中,通過(guò) SUMO 建立道路場(chǎng)景和車(chē)輛流量形式,將強化學(xué)習引入到交通信號調度中,以 SUMO 為環(huán)境,包括道路,車(chē)輛等事物,建立以車(chē)輛信息相關(guān)的狀態(tài)空間。以紅綠燈為智能體,建立四個(gè)相位的動(dòng)作空間。將車(chē)輛的平均等待時(shí)間的函數形式作為獎勵函數。環(huán)境與智能體不斷地進(jìn)行交互,進(jìn)行模型的訓練與學(xué)習。

  我使用了五個(gè)道路場(chǎng)景,五種調度紅綠燈的方式。在單個(gè)路口的車(chē)輛流量恒定情況下,四種方式的車(chē)輛平均等待時(shí)間排列大小為:固定紅綠燈時(shí)間長(cháng)度 > 策略梯度算法 > Q-Learning 算法 > A3C 算法。由于 Q-Learning 算法的狀態(tài)空間過(guò)大和策略梯度算法的回合更新,導致這兩種算法很難有效地收斂,后續不再采用這兩種算法。A3C 算法的車(chē)輛平均等待時(shí)間約為固定紅綠燈時(shí)間長(cháng)度方式下的 33%.在單個(gè)路口的車(chē)輛流量變化情況下,A3C 算法的車(chē)輛平均等待時(shí)間約為半固定紅綠燈時(shí)間長(cháng)度方式下的 47%.在多個(gè)路口的車(chē)輛流量恒定情況下,評價(jià)指標是多個(gè)路口中車(chē)輛平均等待時(shí)間的平均值,A3C算法的車(chē)輛平均等待時(shí)間約為固定紅綠燈時(shí)間長(cháng)度方式下的 45%.在多個(gè)路口的車(chē)輛流量變化情況下,A3C 算法的車(chē)輛平均等待時(shí)間約為半固定紅綠燈時(shí)間長(cháng)度方式下的 47%.

  在真實(shí)場(chǎng)景的情況下,A3C 算法的車(chē)輛平均等待時(shí)間約為固定紅綠燈時(shí)間長(cháng)度方式下的38%.由此可以看出,A3C 算法在單個(gè)路口或者多個(gè)路口,車(chē)輛流量恒定或者變化,還是在真實(shí)場(chǎng)景中,車(chē)輛平均等待時(shí)間總是小于最優(yōu)固定紅綠燈時(shí)間長(cháng)度或者最優(yōu)半固定紅綠燈時(shí)間長(cháng)度的方式。A3C 算法的效率在單個(gè)路口場(chǎng)景高于多個(gè)路口場(chǎng)景,這是因為單個(gè)路口簡(jiǎn)單,沒(méi)有多個(gè)路口的復雜性與聯(lián)動(dòng)性,選擇最優(yōu)的紅綠燈時(shí)間更加容易,而且就是根據車(chē)輛流量在各個(gè)相位中的比例,小范圍進(jìn)行篩選。而多路口中,由于路口與路口之間相互影響,車(chē)輛流量在各個(gè)相位中的比例飄忽不定,A3C 算法并不能完全按照獎勵函數最大的方向進(jìn)行,因此 A3C 算法在單個(gè)路口中減少車(chē)輛平均等待時(shí)間尤為明顯。總的來(lái)說(shuō),A3C 算法大大減少車(chē)輛平均等待時(shí)間,減少道路的交通擁擠狀況。

  5.1.2 創(chuàng )新點(diǎn)

  本文中有以下幾個(gè)創(chuàng )新點(diǎn):

  (1) 將 SUMO 與強化學(xué)習相結合,通過(guò)仿真模擬的方式進(jìn)行交通信號的調度。在SUMO 中,更有可視化的界面去看待車(chē)輛的變化和紅綠燈相位的轉變。

  (2) 對于狀態(tài)空間,獎勵函數的選擇做了充分的考慮。在狀態(tài)空間中,根據不同狀態(tài)下的車(chē)輛對交通狀況的影響分配了不停的權重,影響越大,權重也越大。在獎勵函數中,充分考慮每一條進(jìn)入紅綠燈道路的信息,對不擁堵的車(chē)道較大的獎勵,對擁堵的車(chē)道較小的獎勵。

  (3) 在選擇強化學(xué)習的方法中,選擇相對簡(jiǎn)單的 Q-Learning 算法和策略梯度算法,并對它們進(jìn)行分析處理,層層遞進(jìn),選擇合適的 A3C 算法。通過(guò)將 A3C 算法與固定紅綠燈時(shí)間長(cháng)度,半固定紅綠燈時(shí)間長(cháng)度相比較,說(shuō)明 A3C 算法的效果顯著(zhù)。

  5.2 局限性

  在本文中,有以下幾個(gè)局限性:

  (1) 道路場(chǎng)景的局限性,多個(gè)路口是單個(gè)路口程正方形排列的,在實(shí)際生活中,多個(gè)路口是有各種各樣的類(lèi)型,如圓盤(pán)形的路口。道路場(chǎng)景還應該有行人,天橋等各種因素。

  (2) 車(chē)輛流量設置的局限性。車(chē)輛流量的變化主要是根據一天時(shí)間的變化而發(fā)生相應的變化,實(shí)際上。車(chē)輛流量的變化會(huì )受到多種因素的影響。車(chē)輛流量的變化時(shí)一種時(shí)斷時(shí)續的間歇性變化,而不是在本文中在某個(gè)時(shí)間段車(chē)輛流量恒定的情況。

  (3) 強化學(xué)習方法的局限性。在本文中,將深度學(xué)習作為建立神經(jīng)網(wǎng)絡(luò )的工具。我還應該多嘗試更多強化學(xué)習方法,尤其深度強化學(xué)習方面的算法,如 DDPG,DQN 等各種算法。

  參 考 文 獻

  [1] 石建軍,宋儷婧,于泉。現代交通控制相關(guān)技術(shù)的發(fā)展趨勢分析[J].公路交通科技。2006,(9):113-117.

  [2] 楊祖元。城市交通信號系統智能控制策略研究[D].重慶大學(xué),2008.

  [3] Chiou S W. An efficient algorithm for computing traffic equilibria using TRANSYTmode[J]. Applied Mathematical Modelling,2010,34(11):3390-3399.

  [4] 朱明浩。城市道路干線(xiàn)綠波協(xié)調控制研究及效果評價(jià)[D].北京工業(yè)大學(xué)城市交通學(xué)院,2016.

  [5] P.B.Hunt, D.I.Robertson, R.D.Bretherton and M.C.Royle. The SCOOT on-line trafficsignal optimisation technique[J]. Traffic Engineering&Control,1982, 23(4):5-12.

  [6] Hunter M P, Wu S K, Kim H K. A probe-vehicle-based evaluation of adaptive trafficsignal control[J]. IEEE Transactions on Intelligent Transportation Systems,2012,13(2):704-713.

  [7] J.Y.K.Luk. Two traffic-responsive area traffic control methods: SCAT and SCOOT[J].Traffic engineering&control,1984,25(1):14-22.

  [8] Makys M, Kozak S. Effective method for design of traffic lights control[J]. IFACProceedings Volumes,2011,44(1):14934-14939.

  [9] Miller A.J. Settings for fixed-cycle traffic signals[J]. Oper.Res.Quart.1963,14(4):373-386.

  [10] Pappis C.P, Mamdam E.H. A Fuzzy Logic Controller for a Traffic Junction[J]. IEEETransactions on Systems Man and Cygernetics.1977,1(10):707-717.

  [11] Chen X. F, Shi Z.K. Real-coded genetic algorithm for signal timings optimizationof a signal intersection[C]. Proceeding of first international conference onmachine learning and cybernetics, Beijing,2002:1245-1248.

  [12] Abdulhai B, Pringle R. Karakoulas G.J. Reinforcement learning for true adaptivetraffic signal control[J]. Journal of Transportation Engineering,2003;129(3):278-285.

  [13] Grandinetti P, Canudas-De-Wit C, Garin F. Distributed Optimal Traffic Lights Designfor Large-Scale Urban Networks[J]. IEEE Transactions on Control SystemsTechnology,2018,PP(99):1-14.

  [14] 沈國江。城市道路交通智能控制技術(shù)研究[D]:[博士學(xué)位論文].杭州:浙江大學(xué)信息科學(xué)與工程學(xué)院,2004.

  [15] 馮遠靜,單敏,樂(lè )浩成等。綠波協(xié)調控制的子區動(dòng)態(tài)劃分算法[J].控制理論與應用,2014,31(8):1034-1046.

  [16] 閆東宇,邢雙云,操峻巖,廉甘霖。交通信號燈優(yōu)化控制[J].科技與創(chuàng )新,2018(03):16-18.

  [17] 李士勇。模糊控制[M].哈爾濱工業(yè)大學(xué)出版社,2011.

  [18] 李曉娜。單交叉口自適應控制方法的研究[D].大連理工大學(xué),2006.

  [19] 沈國江。城市道路交通智能控制技術(shù)研究[D]:[博士學(xué)位論文].杭州:浙江大學(xué)信息科學(xué)與工程學(xué)院,2004.

  [20] 潘衛國,陳英昊,劉博等。基于 Faster-RCNN 的交通信號燈檢測與識別[J].傳感器與微系統,2019(9):147-149[21] Ceylan H, Bell M G H. Traffic signal timing optimization based on genetic algorithmapproach, including drivers' routing[J]. Transportation Research Part BMethodological,2004,38(4):329-342.

  [22] 陳小鋒,史忠科。基于遺傳算法的交通信號動(dòng)態(tài)優(yōu)化方法。系統仿真學(xué)報[J].2004,06:1155.

  [23] Balaji P G, German X, Srinivasan D. Urban traffic signal control using reinforcementlearning agents[J]. IET Intelligent Transport System,2010,4(3):1 77-188.

  [24] Ozan C., Baskan O., Haldenbilen S.&Ceylan H. A modified reinforcement learningalgorithm for solving coordinated signalized networks[J]. Transportation ResearchPart C: Emerging Technologies,2015,54:40-55.

  [25] 周志華。機器學(xué)習[M].北京:清華大學(xué)出版社,2016.

  [26] 李航。統計學(xué)習方法[M].北京:清華大學(xué)出版社,2012.

  [27] Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. IEEETransactions on Neural Networks,1998,9(5):1054-1054.

  [28] Watkins C J C H, Dayan P. Technical note: Q-Learning[J]. Machine Learning,1992,8(3-4):279-292.

  [29] Anderson C W. Q-learning with hidden-unit restarting[C]. Advances in NeuralInformation Processing Systems.1993:81-88[30] Puterman M L. Markov decision processes: discrete stochastic dynamicprogramming[M]. John Wiley&Sons,2014.

  [31] Williams R J. Simple statistical gradient-following algorithms for connectionistreinforcement learning[J]. Machinelearning,1992,8(3-4):229-256.

  [32] Chin Y K, Bolong N, Kiring A. Q-learning based traffic optimization in managementof signal timing plan[J]. International Journal of Simulation, Systems,Science&Technology,2011,12(3):29-35.

  [33] Liu Y, Chen W P. Intelligent Traffic Light Control Using Distributed Multi-agentQ Learning[J]. Nature,2017,550(7676):354-359.

  [34] Wang F Y. Agent-Based Control for Networked Traffic Management Systems[J]. IEEEIntelligent Systems,2005,20(5):92-96.

  [35] Li L, Wen D. Parallel Systems for Traffic Control: A Rethinking[J]. IEEETransactions on Intelligent Transportation Systems,2016,17(4):1179-1182.

  [36] Schulman J, Wolski F, Dhariwal P. Proximal Policy Optimization Algorithms[J].Machine Learning,2017.

  [37] Mnih V, Kavukcuoglu K, Silver D. Playing Atari with Deep Reinforcement Learning[J].Computer Science,2013.

  [38] Van Hasselt H, Guez A, Silver D. Deep Reinforcement Learning with DoubleQ-learning[J]. Computer Science,2015.

  [39] Richter S., Aberdeen D, Yu J. Natural actor-critic for road traffic optimization[C].Neural information processing systems.2007:1169-1176.

  [40] Mousavi S, Schukat M, Howley E. Traffic light control using deep policy-gradientand value-function-based reinforcement learning[J]. IET Intelligent TransportSystems,2017,11(7):417-423.

  [41] Mnih V, Badia A P, Mirza M. Asynchronous methods for deep reinforcementlearning[C]. International conference on machine learning.2016:1928-1937.

  [42] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deepconvolutional neural networks[C]. Advances in neural information processingsystems.2012:1097-1105.

  [43] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale imagerecognition[J]. arXiv preprint arXiv:1409.1556,2014.

  [44] Szegedy C, Vanhoucke V, Ioffe S. Rethinking the inception architecture for computervision[C]. Proceedings of the IEEE conference on computer vision and patternrecognition.2016:2818-2826.

  [45] Krajzewicz D, Erdmann J, Behrisch M. Recent development and applications ofSUMO-Simulation of Urban MObility[J]. International Journal on Advances in Systemsand Measurements,2012,5(3&4)。

  [46] 盧晨卿。基于協(xié)同優(yōu)化的智能交通配時(shí)系統的研究[D].[碩士論文].沈陽(yáng):沈陽(yáng)理工大學(xué),2018.

  [47] Kosonen I. Multi-agent fuzzy signal control based on real-time simulation[J].Transportation Research Part C: Emerging Technologies,2003,11(5):389-403.

  [48] Garcia-Nieto J, Alba E, Olivera A C. Swarm intelligence for traffic light scheduling:Application to real urban areas[J]. Engineering Applications of ArtificialIntelligence,2012,25(2):274-283.

  [49] GB/T 33171-2016.城市交通運行狀況評價(jià)規范[S].2016.10.13.

  [50] Abdulhai, Baher Pringle, Rob Karakoulas, Grigoris J. Reinforcement learning fortrue adaptive traffic signal control: Proceedings of the American Society of CivilEngineers[J]. Journal of Transportation Engineering,2003, Vol.129:278.

  [51] Lu S, Liu X, Dai S. Q-Learning for Adaptive Traffic Signal Control Based onDelay Minimization Strategy[C]. World Congress on Intelligent Control&Automation.IEEE,2008:687691

  致 謝

  光陰似箭,日月如梭,三年的研究生時(shí)光馬上就要過(guò)去。回想自己考研的時(shí)候,大連理工大學(xué)是自己心儀的學(xué)校,為了考上大工的研究生,抓緊時(shí)間奮力備戰,揮灑汗水,成功上岸。當踏入學(xué)校的大門(mén),自己已經(jīng)是這里的一份子,在這里將度過(guò)人生美好的三年學(xué)習生涯。在這研究生的三年時(shí)光中,夯實(shí)專(zhuān)業(yè)知識,提高學(xué)業(yè)技能,積極拓取,奮發(fā)向上,完成從本科生到研究生的轉變。值此之際,對于大連理工大學(xué),我的導師,我的同學(xué),我的親人,我深懷感激之情,正是因為你們,我的研究生生活才會(huì )變得如此美好。

  首先我要感謝大連理工大學(xué)和我的導師鄒廣宇老師,大連理工大學(xué)是是一個(gè)溫暖的大家庭,給我提供學(xué)習與成長(cháng)的環(huán)境。在學(xué)校的庇護下,我能夠安心地學(xué)習知識,提高自己的能力。我的導師鄒廣宇老師學(xué)識淵博,知識豐富,治學(xué)嚴謹,在做學(xué)問(wèn)方面,追求實(shí)事求是;在教導學(xué)生方面循循善誘。在我的學(xué)業(yè)上,鄒老師給予我充分的指導,從入學(xué)時(shí)的規劃,到論文的選題,最后到論文的定稿。鄒老師充分尊重我的個(gè)人興趣愛(ài)好和自己的發(fā)展方向,自己希望從事程序員方面的工作,鄒老師耐心地指導我 Java 基礎課程,數據結構,自己收獲頗豐。在跟隨鄒老師學(xué)習的三年中,我從初入門(mén)的小白,到現在的基本熟練掌握知識技能。在研究生的三年時(shí)光中,我心里飽含著(zhù)對大連理工大學(xué)的教誨和鄒老師的教導的感激之情。

  其次我要感謝基礎教學(xué)部的各位老師,在基礎教學(xué)部中,各位老師都給予我莫大的幫助。其中有教金融數學(xué)的于波老師,教應用回歸分析的劉鳳楠老師,教 R 語(yǔ)言與統計軟件的胡小草老師等。各位老師指導我的專(zhuān)業(yè)知識,指點(diǎn)迷津,給予我學(xué)業(yè)上的幫助。

  此外,還有基礎教學(xué)部的各位同學(xué),大家三年和諧相處,造了基礎教學(xué)部和諧有愛(ài)的學(xué)術(shù)氛圍和生活氛圍。已經(jīng)畢業(yè)的學(xué)長(cháng)與學(xué)姐給我選擇就業(yè)方向的建議,各位同學(xué)在我學(xué)業(yè)困惑時(shí),給我幫助。值此之際,祝愿所有的同學(xué)前途似錦,飛黃騰達。

  最后我要感謝我的親人。我父母從本科到研究生都默默支持我追求更高水平的學(xué)業(yè),他們?yōu)榱宋业某砷L(cháng)操勞著(zhù),始終是我堅實(shí)的后盾,是我心里溫馨的港灣。在研究生即將結束的時(shí)候,我已經(jīng)能夠獨立生活,為了自己的理想事業(yè)而奮斗,為了自己的家幸福生活而努力。

(如您需要查看本篇畢業(yè)設計全文,請您聯(lián)系客服索取)

相關(guān)內容
相關(guān)標簽:計算機畢業(yè)設計
好優(yōu)論文定制中心主要為您提供代做畢業(yè)設計及各專(zhuān)業(yè)畢業(yè)論文寫(xiě)作輔導服務(wù)。 網(wǎng)站地圖
所有論文、資料均源于網(wǎng)上的共享資源以及一些期刊雜志,所有論文僅免費供網(wǎng)友間相互學(xué)習交流之用,請特別注意勿做其他非法用途。
如有侵犯您的版權或其他有損您利益的行為,請聯(lián)系指出,論文定制中心會(huì )立即進(jìn)行改正或刪除有關(guān)內容!