彩票网-捕鱼_百家乐软件_全讯网1 (中国)·官方网站

學(xué)術(shù)預(yù)告 首頁  >  學(xué)術(shù)科研  >  學(xué)術(shù)預(yù)告  >  正文

學(xué)術(shù)報(bào)告-深度強(qiáng)化學(xué)習(xí)初探:從Q-Learning到DDPG
作者:     供圖:     供圖:     日期:2020-12-17     來源:    

講座主題:深度強(qiáng)化學(xué)習(xí)初探:從Q-Learning到DDPG

主講人: 劉磊

工作單位:河海大學(xué)

活動(dòng)時(shí)間:2020年12月19日 20:30--21:30

講座地點(diǎn):騰訊會(huì)議,會(huì)議ID:154 163 874

主辦單位:煙臺(tái)大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院

內(nèi)容摘要:

深度強(qiáng)化學(xué)習(xí)最近取得了很多進(jìn)展,并在機(jī)器學(xué)習(xí)領(lǐng)域得到了很多的關(guān)注。傳統(tǒng)的強(qiáng)化學(xué)習(xí)局限于動(dòng)作空間和樣本空間都很小,且一般是離散的情境下。然而比較復(fù)雜的、更加接近實(shí)際情況的任務(wù)則往往有著很大的狀態(tài)空間和連續(xù)的動(dòng)作空間。實(shí)現(xiàn)端到端的控制也是要求能處理高維的,如圖像、聲音等的數(shù)據(jù)輸入。2013和2015年DeepMind的DQN將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)成功結(jié)合的開端,它用一個(gè)深度網(wǎng)絡(luò)代表價(jià)值函數(shù),依據(jù)強(qiáng)化學(xué)習(xí)中的Q-Learning,為深度網(wǎng)絡(luò)提供目標(biāo)值,對(duì)網(wǎng)絡(luò)不斷更新直至收斂。但DQN可以應(yīng)對(duì)高維輸入,而對(duì)高維的動(dòng)作輸出則束手無策,隨后DeepMind提出的DDPG,則可以解決有著高維或者說連續(xù)動(dòng)作空間的情境。

主講人介紹:

劉磊,男,1983年06月,博士,副教授,博士生導(dǎo)師。主持國家自然科學(xué)基金面上項(xiàng)目一項(xiàng),國家博士后基金特別資助項(xiàng)目一項(xiàng)、國家博士后基金面上項(xiàng)目一項(xiàng)、江蘇省博士后資助計(jì)劃一項(xiàng);完成國家自然科學(xué)青年項(xiàng)目一項(xiàng)。入選2018年度江蘇省青藍(lán)工程優(yōu)秀青年骨干教師培養(yǎng)對(duì)象,2018年度河海大學(xué)首屆大禹學(xué)者人才計(jì)劃第三層次。以第一作者或通訊作者在《IEEE Transactions on Automatic Control》、《IEEE Transactions on Neural Networks and Learning Systems》、《IEEE Transactions on Systems, Man, and Cybernetics: Systems》、《Automatica》、《Science China Information Sciences》、《Systems & Control Letters》等SCI期刊上發(fā)表論文20篇。

太原百家乐招聘| 金三角娱乐城| 百家乐官网玩法皇冠现金网| 百家乐好的平台| 找真人百家乐的玩法技巧和规则| 百家乐是怎样算牌| 百家乐官网蓝盾假网| 百家乐波音平台有假吗| 百家乐平一直压庄| 真人百家乐官网软件博彩吧| 百家乐专用| A8百家乐官网娱乐平台| 蓝盾百家乐官网的玩法技巧和规则| 六合彩百家乐官网有什么平码| 百家乐庄的概率| 百家乐官网下载游戏| 鑫鑫百家乐官网的玩法技巧和规则| 网上赌百家乐可信吗| 新濠百家乐官网的玩法技巧和规则 | 日土县| 赌百家乐的玩法技巧和规则 | 百家乐五湖四海娱乐网| 广州百家乐官网赌场| 劳力士百家乐官网的玩法技巧和规则 | 百家乐官网的桌子| 百家乐任你博娱乐场| 百家乐官网玩法开户彩公司| 老虎机规律| 老钱庄百家乐官网的玩法技巧和规则 | 做生意 风水| 霸州市| 百家乐官网注册就送| 做生意看风水| 大发888客户端官方下载| 百家乐官网在线怎么玩| 亚洲百家乐的玩法技巧和规则| 真人百家乐官网开户须知| 百家乐官网7杀6| 平博娱乐| 永利高平台| 百家乐注册开户送彩金|