每经AI快讯,据相关消息证实,腾讯在AI人才引入方面又添“猛将”,原新加坡Sea AI Lab高级研究科学家、清华大学计算机系2017级直博生庞天宇即将入职腾讯,加盟腾讯混元多模态部Exploration Center,负责强化学习前沿算法探索。庞天宇师从朱军教授,主要研究方向 ...
IT之家1 月 30 日消息,清华大学计算机系博士、前新加坡 Sea AI Lab 高级研究科学家庞天宇宣布将于 2 月 4 日加入腾讯,担任腾讯混元大模型团队首席研究科学家及多模态强化学习技术负责人。 公开资料显示,庞天宇于 1995 年出生,高一获保送清华大学资格,2017 ...
36氪获悉,据相关消息证实,原新加坡Sea AI Lab高级研究科学家、清华大学计算机系2017级直博生庞天宇即将入职腾讯,加盟腾讯混元多模态部Exploration Center,负责强化学习前沿算法探索。
在大规模语言模型(LLM)的训练过程中,强化学习(RL)已被证明能够在没有监督微调的情况下直接增强模型的推理能力。DeepSeek-R1-Zero 的提出,突破了传统的训练方式,通过引入 R1-Zero-like 训练范式,展示了强化学习在提升 LLM 推理能力中的巨大潜力。 然而 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果