LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

本期内容是「全球大模型季报」的第四集，拾象科技 CEO 李广密和商业作者张小珺围绕 AGI 发展路径展开了猜想，self-play RL 是新的 scaling law。

这期讨论录制于 2 周前，随着昨天凌晨 OpenAI o1 模型的发布，我们的猜想得到验证，LLM 正式进入 self-play RL 范式时代。

OpenAI 不是唯一重视 RL 和 Self-Play 的公司，在 o1 之前，Anthropic Claude 3.5 Sonnet 就被视为一个标志性里程碑，Claude 3.5 Sonnet 代码能力显著提升的背后其实是 RL 在起作用；Google 也已经围绕 LLM 做 reward model 展开了多个项目的研究；前 OpenAI 的核心人物 Ilya 创立的新项目 SSI 也和 RL 相关。o1 的发布势必会加速新范式共识的形成，将 RL 从头部 AI Labs 的尝试向全行业扩散。

o1 只是 AGI 下半场的开始，接下来 Anthropic Claude 3.5 系列新模型的发布也同样值得期待，Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。

作为关注 AI 最前沿的团队，我们围绕 self-play RL 也已经发布了多篇研究。本次讨论是我们给行业关于 self-play RL 的一篇高质量科普。关于 RL 和合成数据会如何帮助模型升级？基于 LLM 的 RL 和 self play 和以前的 RL 有什么不同？模型的 Reasoning 能力提升后会带来什么新机会？等等关键问题都可以找到最全面的答案。

未经允许不得转载：北美都市脈搏 » LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

北美都市脈搏

LLM 新范式：OpenAI o1，self-play RL 和 AGI 下半场

热门推荐

北美都市脈搏

搜索

随机推荐

热门标签