魅蓝2优化(Kimi K2 优化定性任务表现的具体做法)
Moonshot 团队围绕 “用强化学习(RL)提升定性能力” 核心目标,以 “不完美但系统的评分标准” 为核心,分三步实施训练,具体流程与细节如下:一、第一步:建立初始判断基准,赋予模型 “评估能力”要让 Kimi...
Moonshot 团队围绕 “用强化学习(RL)提升定性能力” 核心目标,以 “不完美但系统的评分标准” 为核心,分三步实施训练,具体流程与细节如下:一、第一步:建立初始判断基准,赋予模型 “评估能力”要让 Kimi...