论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/34045
“深度强化学习(DRL)在量化交易(Q - trading)中取得了不错的成绩,无需大量人类专家知识。然而,当前最先进的 DRL 模型在识别市场趋势方面仍存在不足,导致错过交易机会或在市场崩溃时遭受重大损失。为解决这一问题,本文提出了一种通用的逻辑引导深度强化学习框架Logic-Q。该框架采用程序合成草图范式,引入逻辑引导的模型设计,利用轻量级、即插即用的市场趋势感知程序草图来确定市场趋势,并事后调整 DRL 策略。对两个流行的量化交易任务的广泛评估表明,Logic-Q 能显著提高先前最先进的 DRL 交易策略的性能。”
01
—
背景
深度强化学习已经革新了许多量化交易任务,如股票交易、投资组合分配、订单执行等。与传统分析解决方案不同,DRL 策略无需大量人类专家知识设计,能够自动捕捉市场微观结构。然而,先前的研究表明,DRL 策略容易过拟合历史数据中的虚假噪声,导致在极端市场条件下测试性能不佳。虽然近年来有许多努力来实现更稳健和盈利的DRL策略,但即使是最先进的DRL策略也难以准确识别市场趋势,从而导致错过交易机会和在市场崩溃时出现大幅回撤。为了提高 DRL 交易策略的性能,一种自然的想法是嵌入人类专家关于市场分析的知识,因为市场的技术指标在指导交易决策方面是有效的。但人类专家关于市场趋势的知识是抽象的,难以量化,因为与市场指标相关的具体数值很难手动指定。
02
—
问题定义
当前最先进的 DRL 模型在量化交易中存在以下问题:
1. 难以准确识别市场趋势,导致错过交易机会或在市场崩溃时遭受重大损失。
2. 容易过拟合历史数据中的虚假噪声,在极端市场条件下测试性能不佳。
3. 人类专家关于市场趋势的知识抽象且难以量化,难以有效利用。
03
—
方法
3.1 整体框架
Logic-Q是一种通用的逻辑引导深度强化学习框架,采用程序合成草图范式。它首先使用市场趋势感知程序草图嵌入抽象的人类专家知识,该草图描述市场趋势,同时将数值细节作为占位符待优化。采用贝叶斯优化模型对程序草图进行参数化,参数化后的草图接收市场特征作为输入,通过程序解释器确定当前时间步的市场趋势,并返回条件调整参数。该参数用于相应地调整训练好的 DRL 策略。

3.2 市场趋势感知程序草图
设计理念:为了有效结合符号市场分析和DRL策略,采用程序合成草图范式,设计一个通用的程序草图来嵌入人类专家关于市场分析的知识。
具体结构:由多个条件语句组成,每个语句表示一种特定市场趋势的逻辑描述。描述了五种市场趋势:稳步下降、稳步上升、快速下降、快速上升和震荡。输入市场信息 I_{mar},包含三个市场指标:
波动率(vol_g(t)):衡量时间步t市场价格的波动程度,计算公式为

其中x_i是市场每日收盘价,bar{x}是时间窗口大小为G的平均市场价格。
下行风险(dr_g(t)):衡量整个交易期间负回报的方差,计算公式为

其中n是低于市场平均价格bar{x}的观察总数,x_t是相应的市场收盘价。
增长率(gr_g(t)):反映市场的上升趋势,计算公式为

其中X_t是时间步t的市场收盘价,X_{start}是时间段g内的起始市场价格。
输出:如果满足某个条件(即识别出特定的市场趋势tau),则执行相应的结果,返回调整参数phi_{tau}。
3.3 基于程序草图的策略调整
公式:

f_{phi_{tau}}是调整函数,pi_{theta}是训练好的DRL策略,pi是调整后的策略。

不同场景下的实现:单模型强化学习场景使用 Softmax 温度进行 logit 缩放,公式为
phi^{tau}作为Softmax温度,根据当前时间步的市场趋势动态调整动作概率分布。
集成强化学习场景:采用基于bagging的集成方法,对每个子策略的预测动作概率分布进行加权平均,公式为
phi_{tau}作为权重张量,结合预训练的子策略。
3.4 程序草图的优化方法
由于程序草图的符号性质,采用贝叶斯优化方法对其参数进行优化。优化目标是在少量验证数据上最大化目标函数J(phi),公式为

其中Theta_i*, phi_i*表示程序草图的最优参数,pi是权重冻结的训练好的 DRL 策略。对于订单执行任务,使用与DRL策略相同的优化目标(即预期累积折扣奖励);对于股票交易任务,在验证数据上优化夏普比率以实现风险调整后的性能。
04
—
实验
4.1 实验设置
4.1.1 订单执行任务
数据集:使用中国 A 股市场的历史交易数据,包括中证 800 成分股的分钟级日内价格-成交量市场数据。
对比方法:与两种传统金融模型方法(时间加权平均价格 TWAP、成交量加权平均价格 VWAP)和两种最先进的DRL订单执行方法(PPO、OPD)进行比较。
评估指标:价格优势(PA)、超额年化回报率(ARR)、盈亏比(GLR)、PA为正的比例(POS)。
4.1.2 股票交易任务
数据集:在美国股票市场、香港股票市场和加密货币市场进行实验,使用雅虎财经收集的日终交易数据集。选择道琼斯30成分股、恒生50指数成分股和十种高交易量加密货币作为交易股票池。
对比方法:与主流基于规则的策略、等权重买入持有(BAH)策略和最先进的 DRL 策略(DDPG、PPO、Sharpe - Ens、AlphaMix)进行比较。
评估指标:年化回报率(AR)、累积回报率(CR)、年化波动率(AV)、最大回撤(MD)、夏普比率(SR)。
4.2 实验结果
单模型RL改进:在订单执行任务中,Logic-Q显著提高了总回报,降低了最大回撤,同时将波动率控制在可接受范围内。通过消融实验,去除程序草图后(Logic-Q w/o sketch),模型性能显著下降,证明程序草图在嵌入市场趋势人类专业知识方面有效。此外,仅增加市场信息(OPD (Aug))并不能有效提升模型性能。动作分析表明,Logic-Q能比其他基线交易策略更好地捕捉交易机会。


集成RL改进:在股票交易任务中,与最先进的基线(Sharpe - Ens 和 AlphaMix)相比,Logic-Q 实现了更高的回报,同时降低了最大回撤,从而获得了最高的夏普比率。消融实验表明,去除程序草图后(Logic-Q w/o PS),模型性能显著下降。增加市场信息也不能有效改善模型性能。在市场崩溃时,Logic-Q 的回撤明显低于其他基线。
程序草图的可解释性:通过对2020年3月9日至23日市场崩溃案例的分析,优化后的程序草图能够及时预见市场下跌,其市场趋势识别与人类判断高度一致,使得 Logic-Q模型在市场崩溃时具有更低的最大回撤。

转载请注明来自海坡下载,本文标题:《草图模型优化(LogicQ 程序草图调优提升深度强化学习量化交易性能)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...