优化与强化
优化与强化(10步优化超越强化学习)

优化与强化(10步优化超越强化学习)

【导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(RL)。EM通过优化模型的预测分布,增强其对正确答案的置信度,...

  • 1
  • 共 1 页