Barret Zoph和John Schulman曾在OpenAI共同担任后训练联合负责人,从2022年9月开始合作,主要目标是开发一个对齐的聊天机器人,最初的团队被称为“RL”,只有少数几个人。 接着介绍了后训练(Post-Training)阶段是什么: 后训练阶段是模型开发的最后一步,目的是让 ...