请前往标签设置摘要
离开Meta的大佬们,留下作品还在陆续发表,今天轮到田渊栋。这次他带领团队把目光投向了大模型强化学习训练中一个令人困惑的现象:为什么RL训练明明带来巨大性能提升,却只改变了极少数参数。...