论文链接:https://arxiv.org/pdf/2507.17211v1
“ 稀疏投资组合优化是量化金融中的核心挑战,传统方法依赖历史收益统计和静态目标,难以适应动态市场环境。本文提出进化因子搜索(EFS)框架,通过大语言模型(LLMs)自动化生成和进化Alpha因子,将资产选择问题转化为LLM引导的top-m排序任务,并通过进化反馈循环迭代优化因子池。实验在5个Fama-French基准数据集和3个真实市场数据集(US50、HSI45、CSI300)上验证,EFS显著优于统计和优化基线,尤其在大资产池和波动条件下表现突出。消融实验验证了提示工程、因子多样性和LLM选择的重要性,表明语言引导进化是结构约束下投资组合优化的鲁棒可解释范式。”
01
—
背景
稀疏投资组合优化旨在从n个候选资产中选择最多m个构建组合,优化收益、风险等指标。由于组合选择的l_0范数约束和目标函数的非凸性,问题被证明为NP-hard,传统方法(贪心选择、凸松弛、混合整数规划等)存在两大局限:可解释性差:生成的投资建议难以被普通投资者理解;适应性弱:超参数敏感,跨市场表现不稳定。
近年因子驱动方法通过挖掘Alpha因子(映射资产历史特征到吸引力分数)提升可解释性,但传统因子挖掘依赖领域专家手动调优,且因子在稀疏场景(如选择前10资产)中存在稀疏衰减现象(性能骤降)。LLM在金融预测和多模态分析中展现潜力,但现有LLM因子挖掘方法多为静态单步过程,未解决稀疏投资组合的动态需求(如实施成本、风险控制)。因此,需更灵活、自适应的因子生成框架。
02
—
问题定义
传统稀疏投资组合优化方法在动态市场中适应性不足,现有LLM因子挖掘方法存在以下问题:
静态性:因子挖掘为单步过程,忽视市场动态(Alpha信号衰减);
稀疏性适配差:现有因子在稀疏资产选择(如top-10)中表现不佳(稀疏衰减);
缺乏端到端优化:因子需通过中间模型聚合,增加过拟合风险。
目标是构建动态、可解释、稀疏适配的投资组合优化框架,利用LLM的生成能力和进化机制,解决因子挖掘与稀疏约束的协同问题。
03
—
方法
EFS框架结合LLM的生成能力与进化计算,核心是动态因子池进化与稀疏资产排序,流程如下:
3.1. 问题形式化
稀疏投资组合优化问题定义为:

其中w为资产权重,||w||_0为非零权重数量(即选择的资产数),m为最大稀疏度。关键指标包括累计财富(CW)、夏普比率(SR)、最大回撤(MDD)。
3.2 Alpha因子与评估
Alpha因子f将资产历史特征矩阵X_i映射为吸引力分数f(X_i),结构可表示为操作树(叶节点为原始特征/常数,内部节点为操作符)。评估指标包括:
RankIC:因子得分与未来收益的斯皮尔曼秩相关系数;
RankICIR:RankIC的均值与标准差之比(衡量因子稳定性)。
3.3 LLM驱动的进化因子搜索
3.3.1 单阶段因子生成
LLM作为结构化生成器,基于历史因子性能和结构模板,通过提示(Prompt)生成可执行的评分函数(公式)。优势包括:
端到端生成:直接输出用于排序的评分函数,避免中间模型;
可控变异:通过提示指导因子的变异(调整参数/逻辑)和交叉(组合两个因子);
高可解释性:生成因子为可读公式,支持后验分析。
3.3.2 迭代进化与投资组合构建
框架包含两阶段:
阶段1:因子库预热
初始化种子因子(如均值收益、波动率等基础指标),通过历史回测收集性能统计(RankIC、CW),形成进化知识库。
阶段2:迭代进化循环
每搜索间隔(如每周)执行以下步骤:
因子评估与生成:基于近期表现(SR、RankIC)选择优质因子,生成提示(包含任务定义、因子性能、约束)调用LLM生成新候选因子;
库更新与剪枝:验证候选因子,保留高性能、多样化因子,淘汰低质因子;
投资组合构建:计算资产综合得分

选择top-m资产,采用等权或正分加权;
滚动回测与评估:计算每日收益,跟踪多基准性能。
3.4 关键创新点
进化反馈循环:LLM根据因子历史表现动态优化因子池,适应市场变化;
端到端评分函数:直接生成资产排序函数,避免中间模型过拟合;
稀疏适配:将稀疏优化转化为top-m排序任务,天然支持风险控制和可解释性。
04
—
实验
4.1 实验设置
4.1.1 数据集
学术基准:5个Fama-French数据集(FF25、FF32、FF49、FF100、FF100MEOP),基于月频收益;
真实市场:3个数据集(US50:2019-2024美国大盘股;HSI45:2022-2025港股科技股;CSI300:同期沪深300指数成分股),覆盖牛熊周期。
4.1.2 对比方法
非稀疏基线:等权(1/N)、最小条件风险价值(Min-CVaR)、最大夏普比率(Max-Sharpe);
稀疏基线:SSPO、XGBoost/LightGBM(LGBM)、mSSRM-PGA、ASMCVaR。
4.1.3 评估指标
累计财富(CW)、夏普比率(SR)、最大回撤(MDD)、RankIC、RankICIR。
4.2 主要结果
4.2.1 基准数据集表现
在FF系列数据集(m=10)中,EFS(基于GPT-4.1和DeepSeek)显著优于所有基线: FF100数据集:EFS-GPT的CW达1836.34,较次优基线ASMCVaR(491.12)提升274%;大资产池(如FF100)性能差距扩大,验证EFS的扩展性;增加稀疏度(m=15/20)时,结合得分加权策略(+Scores to Weights)进一步提升收益(如FF100中EFS-GPT的CW达2434.51)。

4.2.2 真实市场表现
US50(m=10):EFS-GPT的CW=22.905,较1/N基线(4.562)提升402%;HSI45(m=10):EFS-DeepSeek的SR=0.080,较ASMCVaR(0.052)提升53.8%;CSI300(m=10):EFS-GPT的CW=4.962,较LGBM(2.334)提升112.6%;波动环境中(如2022年熊市),EFS通过因子进化调整资产选择(如防御性股票),MDD控制优于基线。

4.2.3 消融实验
提示组成:移除性能反馈(w/o Performance)导致CW下降70%(US50从32.99→9.55),验证回测驱动反馈的关键作用;
初始因子:移除技术分析(TA)种子因子(w/o TA Factors)导致CW下降84%(US50从32.99→5.37),表明基础因子作为结构先验的重要性;

生成规模:生成5个候选因子(M=5)时CW最高但方差大,生成20个(M=20)时性能下降(SR从0.149→0.071),需平衡探索与精度。


4.2.4 因子进化分析
动态适配:因子得分在牛熊周期中显著变化(如熊市侧重防御因子,牛市侧重动量因子);
可解释性:LLM生成因子融合动量、波动率等逻辑(如动量-波动率复合因子识别低波动突破信号),符合投资直觉;
稀疏衰减缓解:EFS因子在top-10资产选择中RankIC稳定,传统因子(Alpha158/Alpha360)则显著下降。
转载请注明来自海坡下载,本文标题:《零范数优化(EFS基于大模型的因子搜索框架)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...