adminqwq管理员

文章48851
浏览1822827

搜索

« 2025年11月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

数学建模优化模型算法（RETuning 提升大模型的股票走势预测推理能力）

adminqwq 2026-02-06 社会资讯 10 次浏览 0个评论

论文链接：https://arxiv.org/pdf/2510.21604

代码链接：https://github.com/LinXueyuanStdio/RETuning

“大语言模型（LLMs）在数学和编码任务中展现了卓越的推理能力与推理时间扩展（Inference-Time Scaling）潜力，但其在金融任务（尤其是股票走势预测这一核心任务）中的应用仍未充分探索。本文聚焦三分类股票走势预测（上涨/持稳/下跌），通过分析现有推理响应发现：（1）LLMs易受上下文观点影响，倾向于跟随分析师意见而非构建独立分析逻辑；（2）LLMs常罗列多源信息但未有效权衡对抗证据，导致推理能力未充分利用。为此，提出反思性证据调优（RETuning）方法，作为强化学习前的冷启动机制，通过动态构建多源信息分析框架、组织并评分涨跌证据、反思推导预测，最大化模型与分析框架的对齐，减少上下文干扰。同时构建覆盖2024年5123只A股、长上下文（32K tokens）、20万+样本的大规模数据集Fin-2024，融合价格、新闻、分析师观点、量化报告、基本面数据、宏观指标及相似股票信息。实验表明，RETuning成功释放LLMs在金融领域的推理能力，强化学习阶段响应长度在课程设置下稳定增长，且推理时间扩展在6个月后或分布外股票上仍有效。”

—

背景

股票走势预测（SMP）是金融领域的核心任务，直接影响投资者利益并支撑算法交易、风险控制等应用。近年LLMs在代码生成、数学推理等领域展现强大能力，但其在金融任务中的潜力未被充分挖掘。传统金融预测面临两大挑战：（1）LLMs因训练数据偏向多头观点，存在强先验偏差，缺乏对抗观点；（2）LLMs缺乏构建独立推理框架、调和冲突信息及反思分析的能力，而这些是稳健金融决策的关键。现有金融数据集（如StockNet、CMIN）存在过时、信息单一等问题，无法满足LLMs多源信息整合需求。因此，需探索LLMs在金融预测中的推理能力释放与推理时扩展方法。

—

问题定义

LLMs在股票走势预测中存在以下核心问题：

1. 上下文观点依赖：LLMs的思维链（CoT）易被分析师观点主导，缺乏系统性独立分析逻辑。

2. 对抗证据忽视：LLMs常罗列多源信息但未有效权衡涨跌证据，而对抗证据对可靠预测至关重要。

3. 推理能力未充分利用：现有方法未引导LLMs构建分析框架并基于框架推理，导致预测性能受限。

—

方法

RETuning是两阶段框架，包括冷启动监督微调（SFT）和强化学习（GRPO），核心目标是引导LLMs构建独立分析框架并有效权衡证据。

3.1 冷启动阶段：反思性证据调优（RETuning SFT）

将股票走势预测建模为生成式推理任务，引导LLMs完成以下步骤：

任务理解：明确预测目标（前一交易日收盘价与下一交易日开盘价的涨跌幅，±3%阈值分类）。

分析框架构建：动态构建包含基本面、新闻趋势、宏观信号等维度的分析框架，独立于分析师评论。

证据提取与评分：从多源信息中提取支持涨跌的证据，按10分制评分（如政策支持+9分、基本面亏损+7分）。

反思与调和：平均涨跌评分，通过假设检验、市场模拟等反思冲突证据，修正评分。

结构化输出：生成包含推理过程、证据评分（<score>[a,b]</score>）、涨跌幅（<pct_change>0.xxxx</pct_change>）及方向（<up/down/hold>）的结构化响应。

SFT数据集通过半自动化流程构建：使用671B DeepSeek-R1模型对300个样本进行拒绝采样生成，经格式验证、预测一致性检查及人工筛选后，最终保留188个高质量冷启动样本，并融合10K通用推理数据（避免灾难性遗忘）。

3.2 强化学习阶段：规则化强化优化（GRPO）

通过奖励设计与课程学习进一步对齐模型行为：

奖励函数：综合格式分（确保结构化输出）、准确率分（预测方向正确性）、一致性分（涨跌幅与方向对齐），即

（α, β, γ为超参数）。

课程学习：基于冷启动模型对样本的预测难度（错误次数）分类，仅保留中等难度样本训练，聚焦有意义信号。

推理时间扩展：采用温度0.6重复采样（n次），通过多数投票确定最终预测：

—

实验

4.1 数据集

Fin-2024：覆盖2024年5123只A股，209,063样本，长上下文（32K tokens），融合新闻、基本面、分析师观点、量化报告、宏观指标、相似股票信息。训练集（1-11月），测试集（12月），长期评估集（2025年6月）。

BizFinBench：金融基准测试集，覆盖10项任务（异常事件归因、金融数值计算、金融命名实体识别等），评估模型跨任务泛化能力。

4.2 实验设置

基线模型：LLMFactor、Fino1、Fin-R1、StockNet及主流LLMs（DeepSeek、Qwen3、GPT-OSS）。

评估指标：F1分数（三分类平衡指标）、推理时间扩展效果（n=1,2,4,8,16,32）、分布外（OOD）泛化（OOD_Stock、OOD_Date、OOD_Stock&Date）。

4.3 实验结果

4.3.1 基础性能提升

RETuning显著优于基线：DeepSeek_R1_14B_SFT_GRPO在Fin-2024[December]上F1达0.4196（较基线提升20.75%），超越最佳公开模型（GPT-OSS-120B w/ CoT）22.15%。DeepSeek_R1_32B_SFT_GRPO F1达0.4071（较基线提升14.13%）。

4.3.2 推理时扩展效果

冷启动模型（SFT）已具备预测能力，强化学习（GRPO）进一步优化单样本质量。推理时扩展（n=32）在Fin-2024[December]上，DeepSeek_R1_14B_SFT_GRPO F1从0.3475提升至0.4196；在Fin-2025[June]（6个月后）仍保持有效，F1随n增加持续提升。

4.3.3 分布外泛化

OOD_Stock（未见过的股票）：32B_SFT_GRPO在n=32时F1达0.45，较14B模型优势扩大（0.07），显示参数规模对新股票泛化的重要性。OOD_Date（未见过的时间）：性能最弱（F1峰值0.42），表明时间分布偏移（市场机制变化）更难通过扩展缓解。OOD_Stock&Date（双重偏移）：32B_SFT_GRPO在n=32时F1达0.50，显示模型规模与扩展的协同效应。