高頻交易策略的思考(二)
文章主要探討高頻交易策略,重點(diǎn)研究累計(jì)成交量建模和價(jià)格沖擊。文章通過(guò)分析單筆成交、固定間隔的價(jià)格沖擊以及成交量對(duì)價(jià)格的影響,提出了一個(gè)初步的最優(yōu)掛單位置模型。此模型基于對(duì)成交量和價(jià)格沖擊的理解,試圖找到最優(yōu)的交易位置。對(duì)模型的假設(shè)進(jìn)行了深入討論,并通過(guò)比較實(shí)際與模型預(yù)測(cè)的期望收益,對(duì)最優(yōu)掛單位置進(jìn)行了初步評(píng)估。
累計(jì)成交量建模
上篇得出了單筆成交量大于某個(gè)值的概率表達(dá)式:

我們也關(guān)心一段時(shí)間的成交量的分布,直覺(jué)上它應(yīng)該和每筆成交量和訂單頻率有關(guān)。下面把數(shù)據(jù)按照固定的間隔處理。和上文一樣畫出它的分布。
把逐筆成交每間隔1s合并成交量,去掉沒(méi)發(fā)生交易的部分,還用上面的單筆成交的分布去擬合,可見(jiàn)結(jié)果比較好,把1s內(nèi)的成交都看成單筆,這個(gè)問(wèn)題變成了一個(gè)已經(jīng)解決的問(wèn)題。但當(dāng)周期拉大(相對(duì)于成交頻率),便發(fā)現(xiàn)誤差增大,而研究發(fā)現(xiàn)這個(gè)誤差正是有前面的帕累托分布修正項(xiàng)引起的。這說(shuō)明當(dāng)周期拉長(zhǎng),包含單個(gè)的成交越多,多個(gè)成交的合并越逼近帕累托分布,這種情形要去掉修正項(xiàng)。


現(xiàn)在對(duì)于不同的時(shí)間累計(jì)的成交量的分布總結(jié)一個(gè)通用的公式,用單筆成交的分布去擬合,而不用每次分開(kāi)統(tǒng)計(jì)。這里省去過(guò)程,直接給出公式:

其中avg_interval表示單筆成交的平均間隔,avg_interval_T表示需要估計(jì)的間隔的平均間隔,說(shuō)的有點(diǎn)繞。假如我們要估計(jì)1s的成交, 需要統(tǒng)計(jì)1s內(nèi)包含成交的事件平均間隔。如果訂單到達(dá)的概率符合泊松分布,這里應(yīng)該可以直接估計(jì)出來(lái),但實(shí)際偏差很大,這里先不闡釋。
注意這里的某間隔時(shí)間內(nèi)成交量大于特定值的概率和實(shí)際在深度中該位置的成交概率應(yīng)該差別較大,因?yàn)榈却臅r(shí)間越長(zhǎng),訂單簿變化的可能性越大,并且成交也導(dǎo)致了深度的變化,因此相同深度位置的成交概率隨著數(shù)據(jù)的更新是實(shí)時(shí)變化的。

單筆成交價(jià)格沖擊
成交數(shù)據(jù)是個(gè)寶,可供挖掘的數(shù)據(jù)還有不少。我們應(yīng)該非常關(guān)注訂單對(duì)價(jià)格造成的沖擊,這影響策略的掛單位置。同樣根據(jù)transact_time聚合數(shù)據(jù),計(jì)算最后一個(gè)價(jià)格和第一個(gè)價(jià)格的差,如果只有一個(gè)訂單,差價(jià)為0。奇怪的是還有少量的數(shù)據(jù)結(jié)果為負(fù)的,應(yīng)該是數(shù)據(jù)排列順序的問(wèn)題,這里就不深究了。
結(jié)果可見(jiàn)沒(méi)有造成沖擊的比例高達(dá)77%,1個(gè)tick的比例為16.5%,2個(gè)tick為3.7%,3個(gè)tick為1.2%,4個(gè)tick以上就小于1%了。這里基本符合指數(shù)函數(shù)的特點(diǎn),但擬合的并不精確。
統(tǒng)計(jì)了造成相應(yīng)差價(jià)的成交量,去掉沖擊太大的失真,基本符合線性關(guān)系,大約每1000的量造成1個(gè)tick的價(jià)格波動(dòng)。也可以理解為每個(gè)盤口附近價(jià)格的掛單量平均約為1000 。

固定間隔的價(jià)格沖擊
統(tǒng)計(jì)2s內(nèi)的價(jià)格沖擊,這里不同的是會(huì)有負(fù)值,當(dāng)然由于這里只統(tǒng)計(jì)了買單,對(duì)稱位置會(huì)大一個(gè)tick。繼續(xù)觀察成交量和沖擊的關(guān)系,只統(tǒng)計(jì)大于0的結(jié)果,結(jié)論和單個(gè)訂單的差不多,也是近似的線性關(guān)系,每個(gè)tick大約需要2000的量。


成交量的價(jià)格沖擊
前面求出了一個(gè)tick變化所需的成交量,但并不精確,因?yàn)槭墙⒃诩僭O(shè)沖擊已經(jīng)發(fā)生的情況下?,F(xiàn)在反過(guò)來(lái)在看看成交量帶來(lái)的價(jià)格沖擊。
這里數(shù)據(jù)按1s取樣,每100量為1個(gè)步長(zhǎng),統(tǒng)計(jì)了在這個(gè)數(shù)量范圍內(nèi),價(jià)格的變動(dòng)。得出了一些比較有價(jià)值的結(jié)論:
當(dāng)買單成交量低于500時(shí),期望的價(jià)格變化是下跌,這是符合預(yù)期的,畢竟同時(shí)也有賣單在影響價(jià)格。
在成交量較低時(shí),符合線性關(guān)系,即成交量越大,帶來(lái)的價(jià)格上漲越大。
買單成交量越大,價(jià)格變化幅度越大,這時(shí)往往代表著價(jià)格的突破,突破后價(jià)格可能回歸,再加上固定間隔的取樣,造成了數(shù)據(jù)的不穩(wěn)定。
應(yīng)該關(guān)注與散點(diǎn)圖的上沿部分,即成交量對(duì)應(yīng)價(jià)格上漲的部分。
僅對(duì)于這個(gè)交易對(duì),給出一個(gè)粗糙版的成交量帶來(lái)價(jià)格變化的關(guān)系:

其中,"C" 表示價(jià)格的變化,"Q" 代表買單成交量。


初步最優(yōu)掛單位置
有了對(duì)成交量的建模和成交量對(duì)應(yīng)價(jià)格沖擊的粗糙模型,似乎可以計(jì)算最優(yōu)的掛單位置了。不妨做一些假設(shè),先給出一個(gè)不負(fù)責(zé)任的最優(yōu)價(jià)格位置。
假設(shè)沖擊后價(jià)格回歸原始值(這個(gè)當(dāng)然不太可能,需要對(duì)沖擊后價(jià)格的變化進(jìn)行再分析)
假設(shè)這段時(shí)間成交量和訂單頻率的分布符合預(yù)設(shè)(這也是不準(zhǔn)確的,這里用一天的值進(jìn)行估計(jì),而交易有明顯的聚集現(xiàn)象)。
假設(shè)模擬時(shí)間內(nèi)只發(fā)生一個(gè)賣單,然后平倉(cāng)。
假設(shè)訂單成交后,有其他的買單繼續(xù)推高價(jià)格,特別是在量很低時(shí)明顯,這里忽略了這種效應(yīng),簡(jiǎn)單認(rèn)為還會(huì)回歸。
先寫出一個(gè)簡(jiǎn)單的期望收益,即1s內(nèi)累計(jì)買單大于Q的概率,乘以預(yù)期收益率(即沖擊的價(jià)格):

根據(jù)圖像,期望收益大約在2500左右最大, 約為平均成交量的2.5倍。就是說(shuō)賣單應(yīng)該掛在2500的位置上。需要再次強(qiáng)調(diào)的是,橫軸代表1s內(nèi)的交易量,不能簡(jiǎn)單等同與深度位置。并且這是目前還缺乏很重要深度數(shù)據(jù)的時(shí)候,只根據(jù)trades的推測(cè)。
總結(jié)
發(fā)現(xiàn)不同時(shí)間間隔成交量分布是一個(gè)關(guān)于單筆成交量分布的簡(jiǎn)單縮放。還根據(jù)價(jià)格沖擊和成交概率做了一個(gè)簡(jiǎn)單的期望收益模型,這個(gè)模型的結(jié)果符合我們的預(yù)期,如果賣單成交量小,預(yù)示著價(jià)格的下跌,需要一定的量才有利潤(rùn)空間,而交易量越大的概率越低,中間存在一個(gè)最優(yōu)的大小,也是策略尋找的掛單位置。當(dāng)然,這個(gè)模型還是太簡(jiǎn)單,下篇文章,我將繼續(xù)深入談?wù)劇?/p>
