adminqwq管理员

文章48851
浏览1822827

搜索

« 2025年11月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

草图模型优化（LogicQ 程序草图调优提升深度强化学习量化交易性能）

adminqwq 2026-02-26 信息披露 3 次浏览 0个评论

论文链接：https://ojs.aaai.org/index.php/AAAI/article/view/34045

“深度强化学习（DRL）在量化交易（Q - trading）中取得了不错的成绩，无需大量人类专家知识。然而，当前最先进的 DRL 模型在识别市场趋势方面仍存在不足，导致错过交易机会或在市场崩溃时遭受重大损失。为解决这一问题，本文提出了一种通用的逻辑引导深度强化学习框架Logic-Q。该框架采用程序合成草图范式，引入逻辑引导的模型设计，利用轻量级、即插即用的市场趋势感知程序草图来确定市场趋势，并事后调整 DRL 策略。对两个流行的量化交易任务的广泛评估表明，Logic-Q 能显著提高先前最先进的 DRL 交易策略的性能。”

—

背景

深度强化学习已经革新了许多量化交易任务，如股票交易、投资组合分配、订单执行等。与传统分析解决方案不同，DRL 策略无需大量人类专家知识设计，能够自动捕捉市场微观结构。然而，先前的研究表明，DRL 策略容易过拟合历史数据中的虚假噪声，导致在极端市场条件下测试性能不佳。虽然近年来有许多努力来实现更稳健和盈利的DRL策略，但即使是最先进的DRL策略也难以准确识别市场趋势，从而导致错过交易机会和在市场崩溃时出现大幅回撤。为了提高 DRL 交易策略的性能，一种自然的想法是嵌入人类专家关于市场分析的知识，因为市场的技术指标在指导交易决策方面是有效的。但人类专家关于市场趋势的知识是抽象的，难以量化，因为与市场指标相关的具体数值很难手动指定。

—

问题定义

当前最先进的 DRL 模型在量化交易中存在以下问题：

1. 难以准确识别市场趋势，导致错过交易机会或在市场崩溃时遭受重大损失。

2. 容易过拟合历史数据中的虚假噪声，在极端市场条件下测试性能不佳。

3. 人类专家关于市场趋势的知识抽象且难以量化，难以有效利用。

—

方法

3.1 整体框架

Logic-Q是一种通用的逻辑引导深度强化学习框架，采用程序合成草图范式。它首先使用市场趋势感知程序草图嵌入抽象的人类专家知识，该草图描述市场趋势，同时将数值细节作为占位符待优化。采用贝叶斯优化模型对程序草图进行参数化，参数化后的草图接收市场特征作为输入，通过程序解释器确定当前时间步的市场趋势，并返回条件调整参数。该参数用于相应地调整训练好的 DRL 策略。

3.2 市场趋势感知程序草图

设计理念：为了有效结合符号市场分析和DRL策略，采用程序合成草图范式，设计一个通用的程序草图来嵌入人类专家关于市场分析的知识。

具体结构：由多个条件语句组成，每个语句表示一种特定市场趋势的逻辑描述。描述了五种市场趋势：稳步下降、稳步上升、快速下降、快速上升和震荡。输入市场信息 I_{mar}，包含三个市场指标：

波动率（vol_g(t)）：衡量时间步t市场价格的波动程度，计算公式为

其中x_i是市场每日收盘价，bar{x}是时间窗口大小为G的平均市场价格。

下行风险（dr_g(t)）：衡量整个交易期间负回报的方差，计算公式为

其中n是低于市场平均价格bar{x}的观察总数，x_t是相应的市场收盘价。

增长率（gr_g(t)）：反映市场的上升趋势，计算公式为

其中X_t是时间步t的市场收盘价，X_{start}是时间段g内的起始市场价格。

输出：如果满足某个条件（即识别出特定的市场趋势tau），则执行相应的结果，返回调整参数phi_{tau}。

3.3 基于程序草图的策略调整

公式：

f_{phi_{tau}}是调整函数，pi_{theta}是训练好的DRL策略，pi是调整后的策略。

不同场景下的实现：单模型强化学习场景使用 Softmax 温度进行 logit 缩放，公式为

phi^{tau}作为Softmax温度，根据当前时间步的市场趋势动态调整动作概率分布。

集成强化学习场景：采用基于bagging的集成方法，对每个子策略的预测动作概率分布进行加权平均，公式为

phi_{tau}作为权重张量，结合预训练的子策略。

3.4 程序草图的优化方法

由于程序草图的符号性质，采用贝叶斯优化方法对其参数进行优化。优化目标是在少量验证数据上最大化目标函数J(phi)，公式为

其中Theta_i*, phi_i*表示程序草图的最优参数，pi是权重冻结的训练好的 DRL 策略。对于订单执行任务，使用与DRL策略相同的优化目标（即预期累积折扣奖励）；对于股票交易任务，在验证数据上优化夏普比率以实现风险调整后的性能。

—

实验

4.1 实验设置

4.1.1 订单执行任务

数据集：使用中国 A 股市场的历史交易数据，包括中证 800 成分股的分钟级日内价格-成交量市场数据。

对比方法：与两种传统金融模型方法（时间加权平均价格 TWAP、成交量加权平均价格 VWAP）和两种最先进的DRL订单执行方法（PPO、OPD）进行比较。

评估指标：价格优势（PA）、超额年化回报率（ARR）、盈亏比（GLR）、PA为正的比例（POS）。

4.1.2 股票交易任务

数据集：在美国股票市场、香港股票市场和加密货币市场进行实验，使用雅虎财经收集的日终交易数据集。选择道琼斯30成分股、恒生50指数成分股和十种高交易量加密货币作为交易股票池。

对比方法：与主流基于规则的策略、等权重买入持有（BAH）策略和最先进的 DRL 策略（DDPG、PPO、Sharpe - Ens、AlphaMix）进行比较。

评估指标：年化回报率（AR）、累积回报率（CR）、年化波动率（AV）、最大回撤（MD）、夏普比率（SR）。

4.2 实验结果

单模型RL改进：在订单执行任务中，Logic-Q显著提高了总回报，降低了最大回撤，同时将波动率控制在可接受范围内。通过消融实验，去除程序草图后（Logic-Q w/o sketch），模型性能显著下降，证明程序草图在嵌入市场趋势人类专业知识方面有效。此外，仅增加市场信息（OPD (Aug)）并不能有效提升模型性能。动作分析表明，Logic-Q能比其他基线交易策略更好地捕捉交易机会。

集成RL改进：在股票交易任务中，与最先进的基线（Sharpe - Ens 和 AlphaMix）相比，Logic-Q 实现了更高的回报，同时降低了最大回撤，从而获得了最高的夏普比率。消融实验表明，去除程序草图后（Logic-Q w/o PS），模型性能显著下降。增加市场信息也不能有效改善模型性能。在市场崩溃时，Logic-Q 的回撤明显低于其他基线。