请前往标签设置摘要
机器之心报道编辑:Panda仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法?是的,你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。...