优化偏差
优化偏差(这些大神在Meta的论文看一篇少一篇了)

优化偏差(这些大神在Meta的论文看一篇少一篇了)

离开Meta的大佬们,留下作品还在陆续发表,今天轮到田渊栋。这次他带领团队把目光投向了大模型强化学习训练中一个令人困惑的现象:为什么RL训练明明带来巨大性能提升,却只改变了极少数参数。...

  • 1
  • 共 1 页