数学建模优化模型算法(RETuning 提升大模型的股票走势预测推理能力)

数学建模优化模型算法(RETuning 提升大模型的股票走势预测推理能力)

adminqwq 2026-02-06 社会资讯 10 次浏览 0个评论

论文链接:https://arxiv.org/pdf/2510.21604

代码链接:https://github.com/LinXueyuanStdio/RETuning

“大语言模型(LLMs)在数学和编码任务中展现了卓越的推理能力与推理时间扩展(Inference-Time Scaling)潜力,但其在金融任务(尤其是股票走势预测这一核心任务)中的应用仍未充分探索。本文聚焦三分类股票走势预测(上涨/持稳/下跌),通过分析现有推理响应发现:(1)LLMs易受上下文观点影响,倾向于跟随分析师意见而非构建独立分析逻辑;(2)LLMs常罗列多源信息但未有效权衡对抗证据,导致推理能力未充分利用。为此,提出反思性证据调优(RETuning)方法,作为强化学习前的冷启动机制,通过动态构建多源信息分析框架、组织并评分涨跌证据、反思推导预测,最大化模型与分析框架的对齐,减少上下文干扰。同时构建覆盖2024年5123只A股、长上下文(32K tokens)、20万+样本的大规模数据集Fin-2024,融合价格、新闻、分析师观点、量化报告、基本面数据、宏观指标及相似股票信息。实验表明,RETuning成功释放LLMs在金融领域的推理能力,强化学习阶段响应长度在课程设置下稳定增长,且推理时间扩展在6个月后或分布外股票上仍有效。”

01

背景

股票走势预测(SMP)是金融领域的核心任务,直接影响投资者利益并支撑算法交易、风险控制等应用。近年LLMs在代码生成、数学推理等领域展现强大能力,但其在金融任务中的潜力未被充分挖掘。传统金融预测面临两大挑战:(1)LLMs因训练数据偏向多头观点,存在强先验偏差,缺乏对抗观点;(2)LLMs缺乏构建独立推理框架、调和冲突信息及反思分析的能力,而这些是稳健金融决策的关键。现有金融数据集(如StockNet、CMIN)存在过时、信息单一等问题,无法满足LLMs多源信息整合需求。因此,需探索LLMs在金融预测中的推理能力释放与推理时扩展方法。

02

问题定义

LLMs在股票走势预测中存在以下核心问题:

1. 上下文观点依赖:LLMs的思维链(CoT)易被分析师观点主导,缺乏系统性独立分析逻辑。

2. 对抗证据忽视:LLMs常罗列多源信息但未有效权衡涨跌证据,而对抗证据对可靠预测至关重要。

3. 推理能力未充分利用:现有方法未引导LLMs构建分析框架并基于框架推理,导致预测性能受限。

03

方法

RETuning是两阶段框架,包括冷启动监督微调(SFT)和强化学习(GRPO),核心目标是引导LLMs构建独立分析框架并有效权衡证据。

RETuning: 提升大模型的股票走势预测推理能力

3.1 冷启动阶段:反思性证据调优(RETuning SFT)

将股票走势预测建模为生成式推理任务,引导LLMs完成以下步骤:

任务理解:明确预测目标(前一交易日收盘价与下一交易日开盘价的涨跌幅,±3%阈值分类)。

分析框架构建:动态构建包含基本面、新闻趋势、宏观信号等维度的分析框架,独立于分析师评论。

证据提取与评分:从多源信息中提取支持涨跌的证据,按10分制评分(如政策支持+9分、基本面亏损+7分)。

反思与调和:平均涨跌评分,通过假设检验、市场模拟等反思冲突证据,修正评分。

结构化输出:生成包含推理过程、证据评分(<score>[a,b]</score>)、涨跌幅(<pct_change>0.xxxx</pct_change>)及方向(<up/down/hold>)的结构化响应。

RETuning: 提升大模型的股票走势预测推理能力

SFT数据集通过半自动化流程构建:使用671B DeepSeek-R1模型对300个样本进行拒绝采样生成,经格式验证、预测一致性检查及人工筛选后,最终保留188个高质量冷启动样本,并融合10K通用推理数据(避免灾难性遗忘)。

3.2 强化学习阶段:规则化强化优化(GRPO)

通过奖励设计与课程学习进一步对齐模型行为:

奖励函数:综合格式分(确保结构化输出)、准确率分(预测方向正确性)、一致性分(涨跌幅与方向对齐),即

RETuning: 提升大模型的股票走势预测推理能力

(α, β, γ为超参数)。

课程学习:基于冷启动模型对样本的预测难度(错误次数)分类,仅保留中等难度样本训练,聚焦有意义信号。

推理时间扩展:采用温度0.6重复采样(n次),通过多数投票确定最终预测:

RETuning: 提升大模型的股票走势预测推理能力

04

实验

4.1 数据集

Fin-2024:覆盖2024年5123只A股,209,063样本,长上下文(32K tokens),融合新闻、基本面、分析师观点、量化报告、宏观指标、相似股票信息。训练集(1-11月),测试集(12月),长期评估集(2025年6月)。

BizFinBench:金融基准测试集,覆盖10项任务(异常事件归因、金融数值计算、金融命名实体识别等),评估模型跨任务泛化能力。

4.2 实验设置

基线模型:LLMFactor、Fino1、Fin-R1、StockNet及主流LLMs(DeepSeek、Qwen3、GPT-OSS)。

评估指标:F1分数(三分类平衡指标)、推理时间扩展效果(n=1,2,4,8,16,32)、分布外(OOD)泛化(OOD_Stock、OOD_Date、OOD_Stock&Date)。

4.3 实验结果

4.3.1 基础性能提升

RETuning显著优于基线:DeepSeek_R1_14B_SFT_GRPO在Fin-2024[December]上F1达0.4196(较基线提升20.75%),超越最佳公开模型(GPT-OSS-120B w/ CoT)22.15%。DeepSeek_R1_32B_SFT_GRPO F1达0.4071(较基线提升14.13%)。

RETuning: 提升大模型的股票走势预测推理能力

4.3.2 推理时扩展效果

冷启动模型(SFT)已具备预测能力,强化学习(GRPO)进一步优化单样本质量。推理时扩展(n=32)在Fin-2024[December]上,DeepSeek_R1_14B_SFT_GRPO F1从0.3475提升至0.4196;在Fin-2025[June](6个月后)仍保持有效,F1随n增加持续提升。

RETuning: 提升大模型的股票走势预测推理能力

4.3.3 分布外泛化

OOD_Stock(未见过的股票):32B_SFT_GRPO在n=32时F1达0.45,较14B模型优势扩大(0.07),显示参数规模对新股票泛化的重要性。OOD_Date(未见过的时间):性能最弱(F1峰值0.42),表明时间分布偏移(市场机制变化)更难通过扩展缓解。OOD_Stock&Date(双重偏移):32B_SFT_GRPO在n=32时F1达0.50,显示模型规模与扩展的协同效应。

RETuning: 提升大模型的股票走势预测推理能力

4.3.4 跨任务泛化

在BizFinBench上,RETuning显著提升多任务性能:14B模型平均得分从59.49(基线)提升至66.92(SFT+GRPO),32B模型从66.29提升至70.44。在金融数值计算(FNC)、金融工具使用(FTU)等任务中进入前三。

RETuning: 提升大模型的股票走势预测推理能力

4.3.5 消融实验

CoT提示:仅对大模型(如Qwen3-32B、GPT-OSS-120B)有效,RETuning的SFT+GRPO优于单纯CoT。

SFT阶段:GRPO直接应用效果差(14B_GRPO F1 0.3377 < 基线0.3475),SFT为GRPO提供关键初始化,SFT+GRPO显著提升(14B_SFT_GRPO F1 0.4196)。

转载请注明来自海坡下载,本文标题:《数学建模优化模型算法(RETuning 提升大模型的股票走势预测推理能力)》

每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,10人围观)参与讨论

还没有评论,来说两句吧...