摩根大通說(shuō)要解決人工智能在算法中，如何進(jìn)行電子交易等難題

時(shí)間：2020-06-12 09:12:01

關(guān)鍵字：人工智能摩根大通電子

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] J.P. Morgan（摩根大通）一直是銀行金融行業(yè)中積極應(yīng)用大數(shù)據(jù)和人工智能技術(shù)的典范和先行者。他們的 NeurIPS 2018 論文《數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)在電子交易中的特質(zhì)和難題（Idiosync

J.P. Morgan（摩根大通）一直是銀行金融行業(yè)中積極應(yīng)用大數(shù)據(jù)和人工智能技術(shù)的典范和先行者。他們的 NeurIPS 2018 論文《數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)在電子交易中的特質(zhì)和難題（Idiosyncrasies and challenges of data driven learning in electronic trading）》探討了算法交易中機(jī)器學(xué)習(xí)等技術(shù)的應(yīng)用情況，也分享了摩根大通的最新經(jīng)驗(yàn)。機(jī)器之心對(duì)該論文進(jìn)行了全文編譯，對(duì)該論文的介紹也可參閱機(jī)器之能的文章《如何在算法交易中使用 AI？摩根大通發(fā)布新版指南》。

1 引言

由養(yǎng)老基金和其它資產(chǎn)管理機(jī)構(gòu)持有的金融工具投資組合會(huì)經(jīng)歷周期性的再平衡，有時(shí)候這個(gè)過(guò)程會(huì)很劇烈。代理電子交易（agency electronic trading）是大銀行和專業(yè)經(jīng)紀(jì)公司等經(jīng)紀(jì)商所提供的一種服務(wù)，可幫助提升這些交易的效率。高效的投資組合轉(zhuǎn)換能幫助客戶節(jié)省很多東西，進(jìn)而又能助益這些投資組合的最終受益人——教師、醫(yī)生、消防員、政府公務(wù)員、工人、對(duì)沖基金運(yùn)營(yíng)人等。

資產(chǎn)交易的全球化、超快速信息技術(shù)的蓬勃以及快如閃電的通信技術(shù)已讓人類無(wú)力從事例行的低層決策過(guò)程。如今，股票和電子期貨合約的大多數(shù)微觀交易決策都是由算法制定的：它們定義在何處以什么價(jià)格交易多少數(shù)量。圖 1 給出了這種算法的一個(gè)示例。

根據(jù)自己的總體投資量和執(zhí)行目標(biāo)，客戶通常會(huì)向執(zhí)行經(jīng)紀(jì)商下達(dá)帶有特定限制條件和偏好的指令。舉幾個(gè)例子，客戶可能希望保證他們的投資組合轉(zhuǎn)換中的貨幣中立性，這樣賣出的數(shù)量就大致等于買入的數(shù)量?？蛻粢部赡鼙磉_(dá)他們的風(fēng)險(xiǎn)偏好并指示被執(zhí)行的證券籃子以一種受控的方式暴露給特定的企業(yè)、國(guó)家或行業(yè)。對(duì)于單個(gè)訂單執(zhí)行，客戶可能希望控制該訂單執(zhí)行影響市場(chǎng)價(jià)格的方式（控制市場(chǎng)影響），或控制訂單受市場(chǎng)波動(dòng)性的影響方式（控制風(fēng)險(xiǎn)），或指定一種緊急程度以在市場(chǎng)影響和風(fēng)險(xiǎn)之間取得最優(yōu)的平衡。

為了滿足這些多方面的且有時(shí)候互相沖突的目標(biāo)，電子交易算法會(huì)運(yùn)行在多種粒度層級(jí)上。市場(chǎng)分析和量化模型可以為每個(gè)層級(jí)的決策提供信息。傳統(tǒng)上，電子交易算法是科學(xué)的量化模型的一種混合體，能從量化角度表達(dá)世界的運(yùn)作方式以及規(guī)則和啟發(fā)性知識(shí)，這些來(lái)自于人類交易員和算法用戶的實(shí)際經(jīng)驗(yàn)、觀察和偏好。傳統(tǒng)交易算法以及伴隨它的模型通常會(huì)被封裝成數(shù)以萬(wàn)計(jì)行數(shù)的代碼，這些代碼是人工編寫的，難以維護(hù)和修改。為了應(yīng)對(duì)不同客戶的目標(biāo)以及金融市場(chǎng)的變化，人工編寫的算法往往會(huì)遭遇“特征蔓延（feature creep）”問(wèn)題，并最終會(huì)累積很多用于處理特殊情況的邏輯層、參數(shù)和修改調(diào)整。

金融服務(wù)業(yè)是一個(gè)受到嚴(yán)格監(jiān)管的行業(yè)。在某些地區(qū)，參與者會(huì)面臨非常特定的要求，比如 ESMA（歐洲證券和市場(chǎng)管理局，2014）有“最優(yōu)執(zhí)行（best execution）”的概念。在符合這些要求的同時(shí)實(shí)現(xiàn)算法交易的效率是很有難度的：不斷變化的市場(chǎng)條件和市場(chǎng)結(jié)構(gòu)、監(jiān)管限制以及客戶的多種目標(biāo)和偏好讓設(shè)計(jì)開(kāi)發(fā)電子交易算法的任務(wù)步履維艱。使用以數(shù)據(jù)為中心的方法、神經(jīng)處理和機(jī)器學(xué)習(xí)帶來(lái)了一個(gè)很有吸引力的機(jī)會(huì)，即有可能通過(guò)這些方法簡(jiǎn)化電子交易業(yè)務(wù)中應(yīng)用的開(kāi)發(fā)并提升其效率。

在這篇短論文中，我們?cè)噲D搭建學(xué)術(shù)界和金融業(yè)的已有方法之間的橋梁。我們給出了電子交易領(lǐng)域出現(xiàn)的實(shí)際難題和特質(zhì)，我們希望這能為學(xué)術(shù)研究者帶來(lái)一些靈感。

2 量化金融領(lǐng)域中三大類以數(shù)據(jù)為中心的應(yīng)用

在這一章節(jié)，我們首先會(huì)介紹 Peter Norvig 在 Norvig [2011] 中提出的論點(diǎn)并會(huì)做進(jìn)一步的延展。下面的三大類方法與該領(lǐng)域連續(xù)三代研究者浪潮緊密相關(guān)。

2.1 數(shù)據(jù)建模方法

這類方法的特點(diǎn)是相信自然（以及金融市場(chǎng)）可被描述成一個(gè)黑箱（black box），其中有實(shí)際生成觀察數(shù)據(jù)的相對(duì)簡(jiǎn)單的模型。量化金融的任務(wù)是為這個(gè)數(shù)據(jù)生成過(guò)程找到一種合理的函數(shù)近似，即一種量化模型，并從數(shù)據(jù)中提取出它的參數(shù)。然后，該模型的輸出會(huì)被送入量化決策過(guò)程。市場(chǎng)和市場(chǎng)參與者的行為的復(fù)雜性是數(shù)據(jù)建模方法所面臨的主要難題：簡(jiǎn)單模型不一定能得到環(huán)境的所有本質(zhì)屬性。可以認(rèn)為簡(jiǎn)單模型往往會(huì)讓人感到錯(cuò)誤的確定性，并由此容易造成慘重的損失。

2.2 機(jī)器學(xué)習(xí)方法

對(duì)于自然和金融市場(chǎng)是否簡(jiǎn)單的問(wèn)題，機(jī)器學(xué)習(xí)方法走向了一條不可知論的道路。我們確實(shí)有很好的理由認(rèn)為它們并不簡(jiǎn)單：從實(shí)踐中看，金融世界更像是達(dá)爾文式的，而非牛頓式的；也就是說(shuō)在不斷演進(jìn)，我們觀察到的包括電子市場(chǎng)中交易在內(nèi)的過(guò)程最好被描述為涌現(xiàn)出的行為，而不是生成數(shù)據(jù)的機(jī)器。機(jī)器學(xué)習(xí)方法會(huì)使用復(fù)雜且有時(shí)含混不清的函數(shù)來(lái)建模這些觀察。研究者并不會(huì)宣稱這些函數(shù)能揭示其基本過(guò)程的本質(zhì)。與在數(shù)據(jù)建模方法中類似，機(jī)器學(xué)習(xí)模型建立后，其輸出會(huì)被送入決策過(guò)程。復(fù)雜的模型也容易出現(xiàn)故障：模型故障的風(fēng)險(xiǎn)會(huì)隨模型復(fù)雜度的增長(zhǎng)而增大。

2.3 算法決策方法

我們?cè)谶@里關(guān)注的重點(diǎn)是決策，而不是建模。我們繞過(guò)學(xué)習(xí)“世界如何運(yùn)作”的階段，而是直接訓(xùn)練電子經(jīng)紀(jì)人/智能體（agent）來(lái)分辨好的決策和壞的決策。這種方法的難題是我們是否有能力理解和解釋算法經(jīng)紀(jì)人的決策、理解它的策略以及確保它能在所有（包括假設(shè)的）環(huán)境中都能有合理的行為。在算法決策方法中，智能體會(huì)學(xué)習(xí)到特定的動(dòng)作是差的，因?yàn)樗鼈儠?huì)導(dǎo)致出現(xiàn)負(fù)面結(jié)果（固有差錯(cuò)）。但我們?nèi)匀槐仨氉⑷胫岛鸵?guī)則以及約束，以讓智能體不會(huì)采取我們認(rèn)為禁止的行為（非法行為），畢竟智能體無(wú)法從其環(huán)境和歷史中學(xué)到這些。

在這篇論文中，我們將展示一種強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用中智能體的約束和獎(jiǎng)勵(lì)之間的相互作用。我們還將概述特定的難題以及我們使用計(jì)算資源解決它們的方法，還將介紹多個(gè)行業(yè)與學(xué)術(shù)界中其它團(tuán)隊(duì)取得的許多成果。

3 從低維到高維再回到低維

3.1 高層面決策

從非常高層面的角度看，很顯然每個(gè)訂單都有一個(gè)最優(yōu)的執(zhí)行速率或執(zhí)行時(shí)間表，也就是說(shuō)，訂單在市場(chǎng)中以怎樣的速度執(zhí)行或執(zhí)行的持續(xù)時(shí)間如何。

首先，幾乎任何規(guī)模的訂單都可以即時(shí)執(zhí)行——只要客戶不在意執(zhí)行成本并愿意付費(fèi)。在正常情況下，這種執(zhí)行方式無(wú)疑是不合理的、低效的而且有可能成本極其高昂。這樣的執(zhí)行有很高的可能性會(huì)影響市場(chǎng)價(jià)格。

另一方面，如果父訂單（parent order）通過(guò)其子訂單（child order）以無(wú)限慢的速度執(zhí)行，則其幾乎不會(huì)給市場(chǎng)帶來(lái)壓力。這樣的執(zhí)行也是不合理的，因?yàn)闆](méi)有任何客戶不在意不受干擾的市場(chǎng)價(jià)格與該訂單相悖的可能性（買單時(shí)上漲，賣單時(shí)下跌）。執(zhí)行時(shí)間越長(zhǎng)，市場(chǎng)價(jià)格違背客戶的最佳利益的可能性就會(huì)越高，也就是說(shuō)會(huì)有更高的風(fēng)險(xiǎn)。

通過(guò)簡(jiǎn)單考慮這兩種極端情況，很容易就能看出必然存在一個(gè)最優(yōu)的執(zhí)行速度或最優(yōu)的執(zhí)行時(shí)間安排。我們還能輕松看出客戶的偏好和容忍度也會(huì)帶來(lái)影響：有效速度是由客戶對(duì)市場(chǎng)價(jià)格的容忍度和對(duì)風(fēng)險(xiǎn)的偏好決定的。這種高層面決策案例的不確定性來(lái)自高層面的分析和量化模型。

這也表明了一個(gè)我們常常會(huì)在電子交易以及其它量化金融領(lǐng)域發(fā)現(xiàn)和重新發(fā)現(xiàn)的重要事實(shí)：沒(méi)有解決方案，只有權(quán)衡取舍。

3.2 低層面決策

一旦找到了大致的最優(yōu)速度或時(shí)間表，下一級(jí)的決策就是實(shí)現(xiàn)這個(gè)時(shí)間表。為了按照時(shí)間表行事，經(jīng)紀(jì)人通常會(huì)嘗試與市場(chǎng)的其它部分融合到一起：特立獨(dú)行對(duì)自己有害，因?yàn)檫@會(huì)揭示出該經(jīng)紀(jì)人的意圖。經(jīng)紀(jì)人會(huì)在規(guī)模和價(jià)格上模仿其他參與者的訂單來(lái)創(chuàng)建市場(chǎng)訂單。

正是在這里，我們發(fā)現(xiàn)了維度爆炸的問(wèn)題。

描述限價(jià)訂單簿（limit order book）的市場(chǎng)狀態(tài)是一種維度可變且維度很高的問(wèn)題。每個(gè)價(jià)格層級(jí)都有一些來(lái)自不同市場(chǎng)參與者的不同規(guī)模的訂單隊(duì)列。這些隊(duì)列可能任意長(zhǎng)，也可能為空。在任意特定時(shí)間，最重要的價(jià)格層級(jí)是對(duì)應(yīng)當(dāng)前主要買價(jià)和賣價(jià)的層級(jí)。但是，在更深的層級(jí)以及投機(jī)性的距離很遠(yuǎn)的層級(jí)也會(huì)存在顯著的訂單量。隨著交易發(fā)生以及訂單的接收和撤銷，訂單簿一直處于變化之中。觀察中的任何市場(chǎng)狀態(tài)都有可能演化成其它市場(chǎng)狀態(tài)，而這些市場(chǎng)狀態(tài)的數(shù)量近乎無(wú)限多。

在這樣的環(huán)境中，即使只考慮訂單時(shí)間、價(jià)格、規(guī)模和持續(xù)時(shí)間的最基本層級(jí)，可行決策集也會(huì)非常龐大和密集。經(jīng)紀(jì)人必須決定以怎樣的價(jià)格和數(shù)量下單，而且如有需要，還會(huì)以不同的價(jià)格下多個(gè)訂單或者在我們已有訂單的地方以不同價(jià)格增加額外下單。如果一個(gè)訂單的價(jià)格不是市場(chǎng)價(jià)格，那么該訂單會(huì)一直留在訂單簿中，直到市場(chǎng)價(jià)格觸及訂單價(jià)格（如果能觸及到的話）。其動(dòng)作空間必須是動(dòng)態(tài)且復(fù)雜的，因?yàn)闉榱烁纳苾r(jià)格，按深度下單是必需的；而且訂單會(huì)根據(jù)訂單簿中的價(jià)格-時(shí)間優(yōu)先級(jí)逐漸履行。根據(jù)可行的執(zhí)行時(shí)機(jī)，最終的情況可能很復(fù)雜——可能存在多個(gè)合適的交易時(shí)機(jī)和訂單類型。

一局國(guó)際象棋大約要下 40 步。一局圍棋大約是 200 步。如果一個(gè)中頻電子交易算法每秒鐘重新考慮一次其選擇，那么就相當(dāng)于每小時(shí) 3600 步。對(duì)于國(guó)際象棋或圍棋，每一步都是操控一個(gè)符合條件的棋子，并且要操作的也只有棋子。

對(duì)于電子交易，每個(gè)動(dòng)作都是操作子訂單的集合：它由具有不同特征（價(jià)格、規(guī)模、訂單類型等）的多個(gè)并發(fā)訂單構(gòu)成。比如，一個(gè)動(dòng)作可能會(huì)同時(shí)提交一個(gè)被動(dòng)買單和一個(gè)攻擊性買單。其中的被動(dòng)子訂單會(huì)以指定的價(jià)格留存在訂單簿中，由此能為其他市場(chǎng)參與者提供流動(dòng)性。提供流動(dòng)性可能最終會(huì)在交易發(fā)生時(shí)通過(guò)獲得價(jià)差（spread）來(lái)獲利：相對(duì)于在同一交易中獲取流動(dòng)性的參與者，能以更好的價(jià)格完成交易。而攻擊性子訂單可用于取得參與一次價(jià)格變動(dòng)的機(jī)會(huì)。兩者可構(gòu)成一個(gè)動(dòng)作。最終得到的動(dòng)作空間會(huì)非常大，而且會(huì)隨組合的特征數(shù)量而指數(shù)增長(zhǎng)。

我們還不完全清楚如何定義每個(gè)動(dòng)作的有效性。有人認(rèn)為，對(duì)于電子交易智能體，決策的有效性和最優(yōu)性可體現(xiàn)在檢測(cè)和把握機(jī)會(huì)（“好”交易）以及避開(kāi)陷阱（“壞”交易）上。這種細(xì)粒度的定義的問(wèn)題不僅在于很多機(jī)會(huì)的持續(xù)時(shí)間很短，而且可能都只存在微秒級(jí)的尺度上。更重要的是，事實(shí)上只有在交易執(zhí)行（或避開(kāi)）之后，我們才能確定該交易究竟是好是壞。

這樣的后果是局部最優(yōu)性不一定能轉(zhuǎn)化成全局最優(yōu)性：現(xiàn)在被認(rèn)為是糟糕的交易到那天結(jié)束時(shí)可能會(huì)被證明是一個(gè)出色的交易。在這種情況下，我們感興趣的既有探索和重新定義“什么是機(jī)會(huì)”，而且還有定義“如何采取行動(dòng)”。我們將電子交易的這一獨(dú)特方面稱為“非局部最優(yōu)性（non-local opTImality）”。

對(duì)于電子交易智能體而言，還有一個(gè)可能的目標(biāo)（但并不一定是特有的或最好的），即要能與市場(chǎng)的其他部分融合到一起。如果需要這一目標(biāo)，可以使用一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)相對(duì)于交易量加權(quán)的平均價(jià)格的最優(yōu)執(zhí)行價(jià)格。這一策略必須找到一個(gè)平衡，以兼顧交易過(guò)快和價(jià)格變動(dòng)造成的市場(chǎng)影響以及因交易過(guò)慢而遭受外部因素影響價(jià)格的市場(chǎng)風(fēng)險(xiǎn)。這一問(wèn)題的一大重要部分是以某種方式整合狀態(tài)信息和動(dòng)作空間，使之適用于擬合模型以及使用機(jī)器學(xué)習(xí)方法。這涉及到歸總市場(chǎng)狀態(tài)，其中可能包括巨大的可變且常變的維度和訂單狀態(tài)，而且父訂單和子訂單都會(huì)被納入模型輸入中。然后從可變數(shù)量的動(dòng)作中選出一個(gè)作為響應(yīng)。

3.3 之前的工作

這一領(lǐng)域之前的研究工作覆蓋了很廣的范圍，但基本上都針對(duì)的是這一問(wèn)題的單個(gè)方面。某些研究包括在小維度環(huán)境中為強(qiáng)化學(xué)習(xí)進(jìn)行預(yù)先設(shè)置，另一些則考慮以一種簡(jiǎn)明且固定維度的方式來(lái)表征數(shù)據(jù)。Akbarzadeh et al. [2018] 則研究了通過(guò)執(zhí)行在線學(xué)習(xí)來(lái)驅(qū)動(dòng)算法。但是，因?yàn)橹荒芟率袌?chǎng)訂單，其性能很受限。

Nevmyvaka et al. [2006] 定義了一整個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題，但受到了動(dòng)作空間的嚴(yán)格限制——只承認(rèn)單個(gè)訂單，新訂單會(huì)取消掉舊訂單。Zhang et al. [2018] 將限價(jià)訂單簿總結(jié)成了 40 維的向量，其中包含來(lái)自價(jià)差任一側(cè)的 10 個(gè)價(jià)格層級(jí)的價(jià)格和交易量信息。這些信息基于前一天的交易進(jìn)行了歸一化，并被用于預(yù)測(cè)市場(chǎng)波動(dòng)。Doering et al. [2017] 更進(jìn)一步，設(shè)計(jì)了 4 個(gè)包含訂單簿、交易、新訂單和訂單取消情況的矩陣，代價(jià)是維度增大了 4 倍且要使用非常稀疏的數(shù)據(jù)。

未來(lái)的研究方向主要面向基于強(qiáng)化學(xué)習(xí)方法的交易智能體的繼續(xù)研究和開(kāi)發(fā)。這方面的核心是有效的降維方法，以便整合盡可能多的有關(guān)當(dāng)前市場(chǎng)和已有訂單狀態(tài)的信息，這兩者都需要對(duì)高度可變的維度數(shù)據(jù)進(jìn)行固定維度的表征?，F(xiàn)有的方法是通過(guò)假設(shè)存在固定數(shù)量的特定價(jià)格的未完成子訂單來(lái)簡(jiǎn)化訂單管理流程；相比于人類交易員可采用的動(dòng)作，這類方法有太大的局限性。

3.4 簡(jiǎn)要描述我們的方法

我們現(xiàn)在正在運(yùn)行我們的基于強(qiáng)化學(xué)習(xí)的限價(jià)下單引擎。我們成功使用一個(gè)有限定的動(dòng)作空間訓(xùn)練了一個(gè)策略。為了解決前面描述的問(wèn)題，我們使用了利用領(lǐng)域知識(shí)的分層學(xué)習(xí)和多智能體訓(xùn)練。我們?cè)诙鄠€(gè)局部短期目標(biāo)上訓(xùn)練了局部策略（比如如何提交攻擊性訂單與如何提交被動(dòng)訂單），這些局部短期目標(biāo)在獎(jiǎng)勵(lì)、步驟和時(shí)間范圍特征上各有不同。然后我們將這些局部策略組合起來(lái)，然后更長(zhǎng)期的策略是學(xué)習(xí)如何組合這些局部策略。

我們還相信逆向強(qiáng)化學(xué)習(xí)很有發(fā)展?jié)摿Γ豪萌祟惡退惴ú呗栽诮鹑谑袌?chǎng)上的行為的大規(guī)模歷史來(lái)構(gòu)建局部獎(jiǎng)勵(lì)是一個(gè)很活躍的研究領(lǐng)域。

4 在開(kāi)發(fā)電子交易 AI 方面超越策略學(xué)習(xí)

4.1 策略學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)的核心目標(biāo)是最大化總和獎(jiǎng)勵(lì)，這類似于真實(shí)的商業(yè)目標(biāo)。根據(jù)該目標(biāo)優(yōu)化一個(gè)參數(shù)化動(dòng)作策略的策略學(xué)習(xí)算法一直都是強(qiáng)化學(xué)習(xí)研究領(lǐng)域內(nèi)一個(gè)研究焦點(diǎn)。近期已有一些研究將著名的策略學(xué)習(xí)算法用到了電子交易業(yè)務(wù)上 [Akbarzadeh et al., 2018] [Nevmyvaka et al., 2006]。我們將介紹除了策略學(xué)習(xí)算法的能力之外的強(qiáng)化學(xué)習(xí)的其它方面。

4.2 分層決策

AI 在電子交易中的真實(shí)應(yīng)用通常都有較長(zhǎng)的時(shí)間范圍?？蛻粲唵涡枰芏喾昼娚踔翈讉€(gè)小時(shí)（有時(shí)需要數(shù)天）才能成交，而智能體需要每幾秒一次甚至更快速地做出決策。這種時(shí)間范圍問(wèn)題極大地限制了智能體的采樣頻率，使其遠(yuǎn)低于完全整合所有可用的市場(chǎng)動(dòng)態(tài)信息所需的頻率。

此外，智能體做決策的時(shí)間并不均勻。它做決策不根據(jù)時(shí)間，而是響應(yīng)自己的動(dòng)作的影響以及環(huán)境的顯著變化。

因此，強(qiáng)化學(xué)習(xí)中的時(shí)間抽象就變成了應(yīng)對(duì)長(zhǎng)時(shí)間范圍和時(shí)間不均勻性的關(guān)鍵問(wèn)題。在這里將其比作是跳幀可能并不合適——即只每隔一些時(shí)間步驟做一次決策。Semi-MDP（sMDP/半馬爾可夫決策過(guò)程）一直以來(lái)都是用于發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)智能體的時(shí)間抽象行為的突出場(chǎng)景 Sutton et al., 1999]。但是，針對(duì)何時(shí)采取行動(dòng)以及做何種決定訓(xùn)練單個(gè)策略仍然具有很低的樣本效率。將 sMDP 與分層強(qiáng)化學(xué)習(xí)（HRL）結(jié)合到一起是一種可能的解決方案。在 HRL 方法中，決策模型由具有不同決策頻率（從元策略到原始策略）的策略層構(gòu)成。

我們的電子交易智能體構(gòu)建方案主要基于 Kulkarni 對(duì)基于規(guī)則的深度 HRL 的解釋 [Kulkarni et al., 2016]，因?yàn)槲覀兡軌蛑贫ǔ龊侠淼囊?guī)則來(lái)構(gòu)建基于領(lǐng)域經(jīng)驗(yàn)的元策略。我們也注意到了端到端（無(wú)規(guī)則）分層強(qiáng)化學(xué)習(xí)的進(jìn)展，其中元策略的時(shí)間抽象屬性源自原始策略的行為或目標(biāo)的聚類 [Bacon et al., 2017][Fox et al., 2017][Vezhnevets et al., 2017]。

但是，AI 智能體使用時(shí)間抽象的能力方面的核心問(wèn)題仍未得到解決：智能體在總體目標(biāo)的背景中對(duì)子目標(biāo)和內(nèi)在獎(jiǎng)勵(lì)的解釋、時(shí)間抽象在收斂時(shí)的崩潰、在需要重度探索的環(huán)境中的樣本效率和深度的層次結(jié)構(gòu)。

4.3 算法、監(jiān)管和計(jì)算難題

電子交易智能體運(yùn)行在復(fù)雜的、不斷演進(jìn)且快速變化的環(huán)境中。復(fù)雜度得到提升的智能體能得到更好的決策和效果，這是個(gè)加分項(xiàng)，但這也可能影響智能體的計(jì)算性能，并最終讓其無(wú)法實(shí)際部署。

另一個(gè)限制經(jīng)紀(jì)商電子交易智能體的復(fù)雜度的約束是對(duì)理解、預(yù)測(cè)和解釋其決策的需求——從最高層面的決策到最低層面的決策都需要。

某些地區(qū)要求交易算法的行為是可預(yù)測(cè)的、可控制的和可解釋的：這些智能體必須不能擾亂所謂的“有序的市場(chǎng)條件”，智能體的運(yùn)營(yíng)者必須要能解釋其智能體如何能為其客戶得到最佳的可能結(jié)果。

分層方法在這里很有幫助：人們觀察到智能體的決策可以被分成不同的組別，這些組別所需的采樣頻率和粒度都不相同。我們?cè)谇懊嬉呀?jīng)提到，分層式架構(gòu)和 HRL 讓我們有可能分隔智能體模塊之間的職責(zé)。我們?nèi)匀豢梢栽谒鼈兏髯灾惺褂蒙窠?jīng)處理和強(qiáng)化學(xué)習(xí)，同時(shí)我們也會(huì)有能力管理智能體的整體復(fù)雜度，我們也能更好地理解智能體的行為以及如此行為的原因。

5 分層強(qiáng)化學(xué)習(xí)方案

5.1 在需要重度模擬的學(xué)習(xí)任務(wù)上對(duì)元策略進(jìn)行基于搜索的優(yōu)化

訓(xùn)練強(qiáng)化學(xué)習(xí)智能體需要很多情節(jié)展開(kāi)，而由于智能體與其環(huán)境之間的反饋循環(huán)，其中每一段情節(jié)展開(kāi)都不能并行?；谔荻鹊闹悄荏w訓(xùn)練會(huì)遇到大量經(jīng)歷對(duì)（experience pairs）占滿內(nèi)存的情況，而這些經(jīng)歷對(duì)往往很冗余且充滿噪聲。除非學(xué)習(xí)算法有強(qiáng)大的離策略，否則優(yōu)良的行為會(huì)在訓(xùn)練過(guò)程中被遺忘，同時(shí)涉及到一個(gè)變動(dòng)目標(biāo)的梯度優(yōu)化又很難確保成功。因?yàn)檫@個(gè)原因，雖然近期在策略學(xué)習(xí)算法方面出現(xiàn)了一些進(jìn)展，但使用參數(shù)搜索算法實(shí)現(xiàn)無(wú)梯度優(yōu)化仍然是一個(gè)實(shí)用的選擇。

通過(guò)完全控制情節(jié)效用（episodic uTIlity），應(yīng)用超參數(shù)優(yōu)化技術(shù)來(lái)訓(xùn)練參數(shù)化的智能體，我們已經(jīng)贏得了顯著的時(shí)間效率 [Osborne et al., 2009][Bergstra et al., 2011]，這也提升了整體的執(zhí)行表現(xiàn)，同時(shí)無(wú)需應(yīng)對(duì)獎(jiǎng)勵(lì)的設(shè)計(jì)問(wèn)題。這里我們也強(qiáng)調(diào)一下參數(shù)搜索算法的學(xué)習(xí)效率。

計(jì)算的局限性限制了對(duì)全序列優(yōu)化方法的使用。我們緩解這一問(wèn)題的方法是探索在每次試驗(yàn)中使用具有更少采樣情節(jié)的確定性更低的優(yōu)化，但以并行的方式運(yùn)行它。無(wú)關(guān)路徑的早停是在兩者之間的很好妥協(xié)。但是，我們希望使用一種貝葉斯的早停方法繼續(xù)這方面的開(kāi)發(fā)。

5.2 用于低層面決策過(guò)程的可擴(kuò)展深度強(qiáng)化學(xué)習(xí)

前面我們提到了一些我們?cè)陂_(kāi)發(fā)電子交易智能體方面所面臨的難題：環(huán)境是部分可觀察的、細(xì)粒度的市場(chǎng)動(dòng)態(tài)、智能體的觀察及其整體業(yè)務(wù)目標(biāo)之間存在可能的時(shí)間范圍的不可通約性（incommensurability）、巨大的狀態(tài)空間、有延遲且可能錯(cuò)開(kāi)的獎(jiǎng)勵(lì)。

和每個(gè)市場(chǎng)參與者一樣，我們的智能體也會(huì)改變它們運(yùn)作其中的環(huán)境。我們?cè)谝粋€(gè)結(jié)構(gòu)化的模擬環(huán)境中訓(xùn)練了我們的智能體，該環(huán)境試圖重現(xiàn)真實(shí)市場(chǎng)的某些屬性，但目前還無(wú)法重現(xiàn)其所有屬性。尤其需要指出的是，我們想要構(gòu)建的是一個(gè)能夠模擬真實(shí)市場(chǎng)對(duì)智能體行為的響應(yīng)的環(huán)境。

初步證明，這需要一種支持可擴(kuò)展模擬和可擴(kuò)展強(qiáng)化學(xué)習(xí)算法的架構(gòu)。Gorila 架構(gòu) [Nair et al., 2015] 表明 DQN 算法 [Mnih et al., 2013] 可以大規(guī)模部署，實(shí)現(xiàn)更優(yōu)的結(jié)果。對(duì)于 A3C [Mnih et al., 2016]，IMPALA 算法 [Espeholt et al., 2018] 最近也取得了相似的成績(jī)。一般而言，人們有興趣研究其它強(qiáng)化學(xué)習(xí)算法方案能否以及如何得到擴(kuò)展以利用大規(guī)模集群計(jì)算，從而得到更好的執(zhí)行策略。對(duì)于想要利用可用的計(jì)算資源針對(duì)自己的用例使用特定算法的從業(yè)者而言，基于證據(jù)的引導(dǎo)會(huì)非常有用。

開(kāi)源強(qiáng)化學(xué)習(xí)框架的出現(xiàn)是一個(gè)激動(dòng)人心的進(jìn)展，其中包括 OpenAI baselines [Dhariwal et al., 2017]、ELF [TIan et al., 2017]、Horizon [Gauci et al., 2018]、dopamine [Bellemare et al., 2018]、 TRFL [Deepmind, 2018] 和 Ray RLlib [Moritz et al., 2017]。這些框架和工具讓更多人都能用上當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)算法。但是，前面提到的強(qiáng)化學(xué)習(xí)框架都還很早期，遠(yuǎn)不夠成熟，還沒(méi)有達(dá)到 Google TensorFlow、PyTorch 或 Caffe 等常用的深度學(xué)習(xí)庫(kù)那樣的“生產(chǎn)可用”的程度。如果圍繞強(qiáng)化學(xué)習(xí)框架有類似深度學(xué)習(xí)領(lǐng)域那樣的強(qiáng)大生態(tài)系統(tǒng)和社區(qū)，那將會(huì)極大地促進(jìn)強(qiáng)化學(xué)習(xí)方法的更廣泛應(yīng)用。

我們發(fā)現(xiàn) Ray RLlib 非常有用。這是基于分布式強(qiáng)化學(xué)習(xí)思想從頭構(gòu)建起來(lái)的。它基于一種堅(jiān)實(shí)的基礎(chǔ)設(shè)施，其利用了任務(wù)并行以及行為者（actor）模型 [Agha and Hewitt, 1987] 編程模式，這種編程范式已被證明在設(shè)計(jì)高效的大規(guī)模分布式計(jì)算系統(tǒng)方面非常成功 [Armstrong, 2010]。

強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)可能非常耗時(shí)，而且往往需要完成一系列子實(shí)驗(yàn)，有時(shí)候還會(huì)因錯(cuò)誤而中斷。Ray 的設(shè)計(jì) [Moritz et al., 2017] 還解決了容錯(cuò)問(wèn)題。一般來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)必需一些多功能和高效的工具來(lái)提升生產(chǎn)力，比如易用且低開(kāi)銷的監(jiān)控和分析強(qiáng)化學(xué)習(xí)訓(xùn)練的工具。

從計(jì)算性能的角度看，強(qiáng)化學(xué)習(xí)算法的另一大難題是基于可用的計(jì)算資源為任務(wù)選擇合適的實(shí)現(xiàn)方式，從而確保算法有最快的全局收斂速度。以最優(yōu)的方式利用多核 CPU、GPU 和 TPU 等資源是很困難的。Ray 通過(guò)其資源感知型調(diào)度器而部分地解決了這一問(wèn)題。它允許用戶以代碼注釋方式聲明資源需求，比如 CPU、GPU 或自定義資源的數(shù)量。這能在高層面上調(diào)整任務(wù)的計(jì)算性能，而無(wú)需用戶理解或干預(yù)任務(wù)調(diào)度。

6 經(jīng)典強(qiáng)化學(xué)習(xí)理論的不足和結(jié)果的不確定性

大多數(shù)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)應(yīng)用都假設(shè)智能體的獎(jiǎng)勵(lì)是確定性的。但與這個(gè)假設(shè)相反，在電子交易智能體的運(yùn)作環(huán)境中，結(jié)果通常具有內(nèi)在的不確定性。人們傾向于將這種不確定性聲明為“噪聲”，來(lái)自一個(gè)隱含的數(shù)據(jù)生成過(guò)程，這確實(shí)也是默認(rèn)的近似方法。在數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)方法和算法方法中，結(jié)果的不確定性不是“噪聲”，這就是它的工作方式。我們不能簡(jiǎn)單地就將市場(chǎng)的不確定性排除在外，因?yàn)樗兄匾挠猛尽?/p>

正如我們?cè)诒菊撐钠渌鹿?jié)談到的，電子交易的結(jié)果的值是多維度的，且這些維度往往是不可通約的。在監(jiān)管建議和限制以及客戶的指示面前，我們還需要一種穩(wěn)健的方法來(lái)整合軟性限制和禁止行為的層次結(jié)構(gòu)。

結(jié)果的固有不確定性和獎(jiǎng)勵(lì)的豐富多維度結(jié)構(gòu)給標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)理論帶來(lái)了挑戰(zhàn)；在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)理論中，智能體學(xué)習(xí)能得到平均更好的標(biāo)量值結(jié)果的動(dòng)作。在金融領(lǐng)域，我們也很重視總體結(jié)果，但我們還重視結(jié)果分布的細(xì)節(jié)。我們需要一種能將這兩者結(jié)合起來(lái)的方法。

已有研究者提出了一種對(duì)標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法的輕度擴(kuò)展：整合了用于評(píng)估多維度和不確定結(jié)果的價(jià)值的效用函數(shù)。和在投資組合構(gòu)建等其它金融應(yīng)用中一樣，智能體會(huì)在一種確定性等效的意義上學(xué)習(xí)優(yōu)良的動(dòng)作：不確定的結(jié)果和它們聚合的總體結(jié)果通過(guò)取結(jié)果的效用函數(shù)在它們的未來(lái)分布上的期望來(lái)進(jìn)行排序。

考慮一個(gè)例子：一個(gè)有限過(guò)程（為了讓我們忽略折扣因子）有一個(gè)標(biāo)量的不確定的獎(jiǎng)勵(lì)，而該過(guò)程的全局獎(jiǎng)勵(lì)是局部獎(jiǎng)勵(lì)的總和。這個(gè)案例反映了一種經(jīng)典的電子交易設(shè)置：為了在交易資產(chǎn)的每股基礎(chǔ)上得到最好的可能結(jié)果。獎(jiǎng)勵(lì)的整體總和仍然是不確定的。這種標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)公式的確定性等效（CE）的修正如下（參見(jiàn) Bühler et al. [2018] 和 Mihatsch and Neuneier [2002]）：

其中 U 和是效用函數(shù)及其倒數(shù)，E 表示期望，CE 表示確定性等效：是在狀態(tài) s_i 的策略 π 動(dòng)作，是其不確定的獎(jiǎng)勵(lì)。

相比于傳統(tǒng)的強(qiáng)化學(xué)習(xí)，效用函數(shù)和確定性等效的動(dòng)作排序的使用能帶來(lái)更加豐富的智能體結(jié)構(gòu)：在 CERL 中，智能體需要一種基于其風(fēng)險(xiǎn)偏好和限制（但很初級(jí)）的特性，還需要由其整體業(yè)務(wù)目標(biāo)確定的目標(biāo)。如果客戶反對(duì)風(fēng)險(xiǎn)，則一個(gè)動(dòng)作的增大的結(jié)果不確定性會(huì)降低其確定性等效的獎(jiǎng)勵(lì)。這帶來(lái)的結(jié)果是折扣因子 γ 的出現(xiàn)。經(jīng)典強(qiáng)化學(xué)習(xí)通常將其用作是無(wú)限或近乎無(wú)限過(guò)程的一個(gè)外部參數(shù)。在 CERL 中，它則是自然衍生出來(lái)的，是在我們展望未來(lái)時(shí)擴(kuò)大結(jié)果分布（等效于風(fēng)險(xiǎn)增大）所得到的結(jié)果。

7 總結(jié)

仍有很多問(wèn)題有待解決。我們希望它們能為難題的解決提供一些新角度：

是否存在一種用于考慮多維度獎(jiǎng)勵(lì)的嚴(yán)格方法？

如何將不確定持續(xù)時(shí)間的概念整合進(jìn) MDP 范式中？

如何解決結(jié)果/獎(jiǎng)勵(lì)不確定的問(wèn)題？

如何為在市場(chǎng)中運(yùn)作的智能體創(chuàng)建接近真實(shí)的訓(xùn)練環(huán)境？一種可能的解決方案是開(kāi)發(fā)全規(guī)模的人工環(huán)境，能夠根據(jù)多個(gè)異構(gòu)智能體的基于規(guī)則的行為，接近真實(shí)地將市場(chǎng)重現(xiàn)為涌現(xiàn)出的現(xiàn)象。模擬的多智能體市場(chǎng)既有實(shí)用價(jià)值，也有學(xué)術(shù)價(jià)值。

如何嚴(yán)格地將有沖突的/互補(bǔ)的局部和全局獎(jiǎng)勵(lì)結(jié)合到一起？

除了使用領(lǐng)域知識(shí)來(lái)分割不同時(shí)間尺度的過(guò)程和使用分層訓(xùn)練，是否有設(shè)計(jì)在多個(gè)時(shí)間尺度運(yùn)作的智能體的嚴(yán)格方法？

可擴(kuò)展性：在電子交易中，在相似但最終不同的環(huán)境中訓(xùn)練許多智能體在計(jì)算上似乎是高效的，而不是訓(xùn)練一個(gè)用于處理所有環(huán)境的智能體。是否有一種方法能讓智能體針對(duì)不同的環(huán)境進(jìn)行訓(xùn)練，以讓它們從彼此的技能中受益？除了測(cè)試它們的功能之外，是否有辦法知曉兩個(gè)訓(xùn)練后的智能體在本質(zhì)上是否相似？

不管是在經(jīng)典強(qiáng)化學(xué)習(xí)中，還是在 CERL 中，都沒(méi)有以貝爾曼方程為基礎(chǔ)，并且最終似乎僅適用于全局獎(jiǎng)勵(lì)是局部獎(jiǎng)勵(lì)的連續(xù)聚合的過(guò)程?？梢蚤_(kāi)發(fā)出一種整合了上述特征的更通用的序列決策方法嗎？

是否存在一種平衡的且系統(tǒng)性的方法，其一方面允許強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體解決越來(lái)越復(fù)雜的問(wèn)題，另一方面又仍能保持我們理解它們的行為以及解釋它們的動(dòng)作的能力？