Moonshot 团队围绕 “用强化学习(RL)提升定性能力” 核心目标,以 “不完美但系统的评分标准” 为核心,分三步实施训练,具体流程与细节如下:
要让 Kimi K2 通过 RL 优化定性表现,首先需让模型具备基础的 “好坏判断能力”,避免评估环节完全依赖人类(低效且不一致)。具体操作:
数据来源:整合 “开源偏好数据集” 与 “Moonshot 内部偏好数据集”,两类数据共同构成模型对 “优质定性输出” 的初始认知(例如 “写作中需紧扣用户需求”“对话需自然连贯” 等基础偏好)。作用:在模型微调阶段,用这些偏好数据初始化 Kimi K2 的 “评判思维”,使其能初步区分 “优质回应” 与 “劣质回应”,为后续自我评分打下基础。二、第二步:生成回应 + 双模型对比评分,锚定定性优化方向这一步是核心执行环节,通过 “模型生成内容→另一模型按标准评分” 的闭环,为 RL 训练提供明确的优化信号,具体分为 “生成回应” 和 “三类评分标准应用” 两部分:
1. 生成多样化回应用覆盖多场景的 “广泛提示词(Prompts)” 驱动 Kimi K2 生成大量回应,确保覆盖日常对话、创意写作、信息解答等典型定性任务场景,为后续评分提供足够多样的样本。
2. 双模型对比评分(关键环节)启动另一实例的 Kimi K2(作为 “评估者模型”),对前一步生成的 “回应对”(即针对同一提示词的两个不同回应)进行打分,打分严格依据三类预设评分标准,具体标准及评估维度如下:
评分标准类型
核心目标
具体评估规则
应用场景
核心评分标准(Core Rubric)
直接优化 “优质定性输出” 的核心能力
1. 清晰度与相关性:检查回应是否简洁、无冗余信息,是否完全匹配用户意图;优先认可短段落、紧凑列表等高效格式
2. 对话流畅度与参与度:评估回应是否推动对话自然流动(而非仅 “答问”),是否有连贯逻辑、相关见解,能否在必要时引导对话方向
3. 客观与扎实互动:判断回应语气是否客观,是否聚焦用户需求本质;禁止 “元评论”(如分析 “你的问题结构特殊”)和 “无根据奉承”(如 “你提的问题很有深度”)
所有定性任务,尤其是写作、对话类场景,直接决定回应的 “质量底线”
规范性评分标准(Prescriptive Rubric)
防御 “奖励黑客”,避免模型钻规则漏洞
1. 禁止初始赞美:回应开头绝对不能出现 “这是个好问题”“你的提问很精彩” 等奉承语句
2. 禁止明确自证:不能出现 “我这样回答是因为能满足你的需求”“我的回应优势在于逻辑清晰” 等解释 “自身优点” 的语句,仅需呈现内容本身
全场景通用,防止模型为 “刷分” 刻意添加无关内容(如开头赞美),偏离 “优质定性输出” 本质
人类标注评分标准
针对特殊场景补充细化评估
未公开具体规则,仅明确是 “人类标注员针对特定场景(如专业领域写作、情感对话)设计的补充标准”,用于覆盖机器评分可能遗漏的场景细节
专业领域、高情感需求等复杂定性场景,提升评分的场景适配性
三、第三步:持续迭代优化,强化模型定性能力评分环节产生的 “优劣对比数据” 并非一次性使用,而是用于 Kimi K2 的持续更新,形成 “训练 - 评分 - 优化” 的闭环:
模型更新:将第二步中 “评估者模型” 的评分结果(哪些回应更好、为何好)作为 RL 训练的 “奖励信号”,持续微调 Kimi K2 的输出逻辑,让模型逐渐向 “符合评分标准的优质定性输出” 靠拢。评估者能力升级:在模型优化的同时,“评估者模型” 也会同步学习 —— 通过 “可验证的定量训练数据”(如数学题正确答案、编码语法标准)提升判断的客观性,再将这种客观性迁移到定性评估中,让后续评分更精准、更抗干扰。通过以上三步,Moonshot 团队用 “不完美但明确的评分标准” 解决了定性任务 “难评估” 的核心痛点,既避免了依赖人类的低效,又减少了 “奖励黑客” 问题,最终让 Kimi K2 在写作等定性任务中保持竞争力。
原文:https://www.dbreunig.com/2025/07/31/how-kimi-rl-ed-qualitative-data-to-write-better.html
转载请注明来自海坡下载,本文标题:《魅蓝2优化(Kimi K2 优化定性任务表现的具体做法)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...