优化与强化

优化与强化（10步优化超越强化学习）

【导读】无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布，增强其对正确答案的置信度，...

阅读全文

adminqwq 77 次浏览 2025-10-27 信息披露