最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

股票量化軟件:神經(jīng)網(wǎng)絡(luò)變得輕松分布式 Q-學(xué)習(xí)中的分位數(shù)回歸

2023-08-02 17:47 作者:bili_58743380139  | 我要投稿

概述

在上一篇文章中,我們領(lǐng)略了分布式 Q-學(xué)習(xí),它允許學(xué)習(xí)預(yù)測獎勵的概率分布。 我們已學(xué)會了如何預(yù)測在特定數(shù)值范圍內(nèi)獲得預(yù)期獎勵的概率。 但是這種范圍的數(shù)量和獎勵值的分布是模型的超參數(shù)。 因此,需要有關(guān)獎勵值分布的專業(yè)知識才能選擇最優(yōu)參數(shù)。 赫茲量化還需要進(jìn)行某些測試來選擇最優(yōu)的超參數(shù)。

必須說,將整個可能數(shù)值范圍劃分為相等范圍的方式(赫茲量化之前曾研究過)也有其缺點(diǎn)。 赫茲量化鑒別一個神經(jīng)元來預(yù)測每個動作在每個單獨(dú)范圍內(nèi)獲得獎勵的概率。 然而,在實(shí)踐中,在大數(shù)據(jù)范圍內(nèi)所獲獎勵等于零的概率十分平常。 這意味著我們的資源利用率十分低效。 赫茲量化可以合并一些范圍來減少操作次數(shù)。 這樣能加快模型訓(xùn)練和執(zhí)行。 與此同時,在其它范圍內(nèi)獲得獎勵的概率也相當(dāng)高。 為了獲得更完整的全景圖,我們可將此范圍分解為更小的元件。 這將提高預(yù)測預(yù)期獎勵的準(zhǔn)確性。 不過,我們的方式不支持不同尺寸范圍的創(chuàng)建。 這些缺點(diǎn)可以運(yùn)用于 2017 年十月在文章“使用分位數(shù)回歸的分布強(qiáng)化學(xué)習(xí)”中提出的分位數(shù)回歸算法來解決。

1. 分位數(shù)回歸

分位數(shù)回歸針對解釋變量的分布與目標(biāo)變量的某些分位數(shù)之間的關(guān)系進(jìn)行建模。

在我們繼續(xù)研究分位數(shù)回歸在分布式?Q-學(xué)習(xí)中的使用之前,應(yīng)該提到的是,所提出的算法接近于來自另一側(cè)期望獎勵的概率分布評估。 以前,我們將可能的獎勵值范圍劃分為不同的區(qū)域。 在新算法中,我們將得到的獎勵集合劃分成幾個概率相等的分位數(shù)。 這樣做有什么益處?

我們?nèi)匀挥幸粋€分析分位數(shù)的超參數(shù)。 但與此同時,我們不限制可能的獎勵價值范圍。 取而代之,我們訓(xùn)練模型來預(yù)測分位數(shù)的中值。 由于我們用的是等概率分位數(shù),因此我們不會有零概率獎勵的分位數(shù)。 甚至,在稀疏獎勵值區(qū)域,我們將獲得更大的分位數(shù)。 在會有很多獎勵的所在,分位數(shù)將被分解成更小的部分。 因此,我們可以更全面地了解期望獎勵的概率分布。 甚而,這種方法能夠識別稀疏的非靜態(tài)區(qū)域和增加的獎勵值密度。 它們可能因環(huán)境狀態(tài)而異。

然而,它仍然是相同的 Q-學(xué)習(xí)。 該過程本身基于貝爾曼(Bellman)優(yōu)化方程。

不過,這次我們必須定義的不是一個值,而是整個分布。 但基本上,任務(wù)保持相同。 我們來仔細(xì)查看這個任務(wù)。

如上所述,我們將訓(xùn)練樣本的整個獎勵分布劃分為 N 個等概率分位數(shù)。 每個分位數(shù)的等級不可由給定概率的所分析隨機(jī)變量超過。 在此,等同得可能分位數(shù)是具有固定步長的分位數(shù),而它們的總集涵蓋了整個訓(xùn)練數(shù)據(jù)集。

在實(shí)踐中,當(dāng)我們有一個訓(xùn)練數(shù)據(jù)集時,從數(shù)據(jù)集中獲取其中一個元素的概率為 1。 不能有任何其它選項(xiàng),因?yàn)樗性囟紤?yīng)取自訓(xùn)練數(shù)據(jù)集。

將集合拆分為 N 個等概率分位數(shù),這意味著將整個訓(xùn)練數(shù)據(jù)集拆分為 N 個相等的部分。 它們中的每一個部分都包含相同數(shù)量的元素。 從其中一個子集中選擇元素的概率為 1/N。

單獨(dú)的分位數(shù)由 2 個參數(shù)表征:選擇元素的概率,及其元素值的上限。 分位數(shù)的另一個條件是它們隨概率的累積按升序排序。 這意味著每個后續(xù)分位數(shù)的值上限高于前一個分位數(shù)。 分位數(shù)的概率包括以前分位數(shù)的概率。 例如,對于某個分布,我們的分位數(shù)為 0.2,等級 15。 這意味著整個分布中 20% 的元素值不超過 15。 概率的步長和最大分位數(shù)值的等級可能不成比例,因?yàn)樗鼈內(nèi)Q于特定的分布。

我們正在研究的算法涉及將數(shù)據(jù)集拆分為具有固定概率步長的分位數(shù)。 我們將訓(xùn)練模型來預(yù)測分位數(shù)的中值,取代上限。

為了訓(xùn)練模型,我們需要目標(biāo)值。 擁有某個數(shù)據(jù)集的完整元素集,我們就可以很容易地找到平均值。

但我們在實(shí)踐中不會得到完整一套。 只有在執(zhí)行動作,并過渡到新狀態(tài)之后,我們才會從環(huán)境中獲得獎勵。 如您所見,使用新的模型訓(xùn)練算法不會影響與環(huán)境的交互。 在最初的?Q-學(xué)習(xí)中,我們訓(xùn)練模型來預(yù)測平均預(yù)期獎勵。 為了做到這一點(diǎn),我們通過迭代將模型的結(jié)果轉(zhuǎn)移到具有較小學(xué)習(xí)系數(shù)的目標(biāo)值。 如您所見,在學(xué)習(xí)過程中,我們的模型結(jié)果持續(xù)受到朝當(dāng)前目標(biāo)值的偏轉(zhuǎn)力的影響。 當(dāng)多向合力相互平衡的那一刻達(dá)到平均值(如圖所示)。

我們可以用類似的方式來解決新算法的問題。 但有一件事。 此算法允許您找到集合的平均值。 這就是 0.5 的分位數(shù)。 當(dāng)以最純粹的形式應(yīng)用它時,我們將在模型結(jié)果層的所有神經(jīng)元上得到相同的值。 它們都將同步工作,如同一個神經(jīng)元。 不過,我們需要獲得所分析分位數(shù)上值的真實(shí)分布。

查看分位數(shù)的性質(zhì)。 例如,考慮分位數(shù) 0.25,這是分析數(shù)據(jù)集的四分之一。 如果我們舍棄元素值之間的距離,那么對于分位數(shù)的每 1 個元素,總集合中應(yīng)該有 3 個元素不屬于這個分位數(shù)。 回到我們上面的例子,為了在 0.25 分位數(shù)點(diǎn)實(shí)現(xiàn)平衡,推動數(shù)值減小的力度必須是推動分位數(shù)的值增長力度的 3 倍。

因此,為了找到每個特定分位數(shù)的值,我們應(yīng)該在貝爾曼方程中引入一個校正因子。 該因子將取決于分位數(shù)等級和偏離方向。

其中 τ 是分位數(shù)的概率特征。

在學(xué)習(xí)過程中,我們以經(jīng)驗(yàn)再現(xiàn)和目標(biāo)網(wǎng)絡(luò)的形式來運(yùn)用經(jīng)典?Q-學(xué)習(xí)算法的所有啟發(fā)式方法。


股票量化軟件:神經(jīng)網(wǎng)絡(luò)變得輕松分布式 Q-學(xué)習(xí)中的分位數(shù)回歸的評論 (共 條)

分享到微博請遵守國家法律
滁州市| 江阴市| 维西| 方城县| 定远县| 怀柔区| 襄垣县| 乾安县| 依安县| 东光县| 西贡区| 双桥区| 化隆| 县级市| 和平县| 黄山市| 肃北| 苏州市| 彭州市| 华安县| 新和县| 荥阳市| 延庆县| 海安县| 商河县| 华池县| 浦东新区| 恩施市| 伊宁市| 武夷山市| 韩城市| 丽水市| 全州县| 平谷区| 旅游| 保靖县| 隆德县| 宁波市| 确山县| 旬邑县| 乌鲁木齐市|