English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
linkedin.com
GRPO Family: Group Relative Policy Optimization RL opt [TIC-GRPO, Scaf-GRPO, XRPO, GRPO-CARE, CPPO] | Byte Goose AI
Picture the scene: It’s early 2024. The world’s leading AI labs are pouring billions of dollars into massive compute clusters, all to make Large Language Models think just a little bit more like humans. They’re using PPO—Proximal Policy Optimization—an algorithm that’s powerful, yes, but it’s a memory hog. It needs a 'critic ...
已浏览 103 次
1 个月前
RL Prod Beats
1:31
JRedie - Slim Shady (Official Music Video )
YouTube
Jredie_
已浏览 2万 次
2 个月之前
3:00
[FREE] Juice WRLD Type Beat - "Please Stay" | Free Type Beat | Rap Trap Instrumental 2022
YouTube
Jammy Beatz
已浏览 5.2万 次
2022年10月18日
46:06
Bandi yo depatcha yon Elikoptè ak Bal, Video, Anpil Bandi tonbe, Dife nan Izinn Apaid, Bal Mibalè !
YouTube
RL Production
已浏览 6.3万 次
2 个月之前
热门视频
Particle Swarm Optimization (PSO) for Constrained Optimization Problems
learnwithpanda.com
2020年5月19日
40:01
[中配] 近端策略优化(PPO)- 如何训练大型语言模型 - Serrano.Academy
bilibili
外番の声
已浏览 171 次
1 个月前
7:12
Policy Optimization in Reinforcement Learning
YouTube
om
已浏览 3 次
2 个月之前
RL Prod Type Beat
2:41
nettspend + sinn6r type beat - "jesussaid"
YouTube
kenzee
已浏览 2306 次
3 个月之前
1:30
neiiburr + boofpaxkmooky + loudpakkdtae + dreiip type beat @booghead
YouTube
prod.booghead
已浏览 519 次
1 个月前
2:44
(free) nine vicious + apollored1 + 1300saint type beat "wants&needs"
YouTube
skiee!
已浏览 608 次
1 个月前
Particle Swarm Optimization (PSO) for Constrained Optimization Prob
…
2020年5月19日
learnwithpanda.com
40:01
[中配] 近端策略优化(PPO)- 如何训练大型语言模型 - Serrano.Academy
已浏览 171 次
1 个月前
bilibili
外番の声
7:12
Policy Optimization in Reinforcement Learning
已浏览 3 次
2 个月之前
YouTube
om
12:06
GRPO Family: Group Relative Policy Optimization RL opt [TIC-GRPO, S
…
已浏览 31 次
1 个月前
YouTube
AI Podcast Series. Byte Goose AI.
0:39
🔍 Understanding Proximal Policy Optimization (PPO) Advanced Rei
…
1 个月前
YouTube
Chain
1:46
PPO Algorithm in Gaming 🚀 Reinforcement Learning AI Plays
…
已浏览 51 次
1 个月前
YouTube
SystemDR - Scalable System Design
0:23
GRPO vs. PPO: Simplifying Operations and Hyperparameters
已浏览 152 次
1 个月前
YouTube
Latent Space Clips
1:55
How PPO Works in Game AI | Deep Reinforcement Learning Tutorial
已浏览 98 次
1 个月前
YouTube
SystemDR - Scalable System Design
Advanced Concepts in Large Language Models. RL / SFT / MHA
…
2 个月之前
linkedin.com
Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da
…
2020年9月21日
towardsdatascience.com
Proximal Policy Optimization Implementation: 8 Details for Cont
…
已浏览 1.2万 次
2021年11月22日
YouTube
Weights & Biases
Advanced Deep Reinforcement Learning Algorithms | PPO, TRPO
…
已浏览 295 次
10 个月之前
YouTube
Professor Rahul Jain
Exploring the PPOTrainer in the HuggingFace TRL Library
已浏览 3679 次
2023年7月22日
YouTube
The LLM Show
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列 #3
已浏览 11 次
4 个月之前
YouTube
Up-Fei
53:45
强化学习策略梯度之proximal policy optimization PPO理论与代码(上)
已浏览 1万 次
2022年3月26日
bilibili
Stevensong铁维
22:03
Proximal Policy Optimization (PPO) for LLMs Explained Intuitively
已浏览 22 次
9 个月之前
bilibili
哎吧星
19:50
深度强化学习之策略梯度方法与近似策略优化(PPO)
已浏览 5770 次
2018年10月2日
bilibili
爱可可-爱生活
25:52
近端策略优化(PPO)深入实践
已浏览 6677 次
2021年9月12日
bilibili
爱可可-爱生活
7:50
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms)
已浏览 267 次
3 个月之前
bilibili
小迪学AI
1:44:33
LLM Alignment|综述及RLHF、DPO、UNA的深入分析
已浏览 1726 次
2024年11月19日
bilibili
你到这干嘛来了
11:18
如何直观理解PPO算法?博士详解近端策略优化算法原理+公式推导+训练
…
已浏览 1.4万 次
2024年9月25日
bilibili
迪哥AI研习社
2:15:13
【Umar Jamil】 用数学推导和Pytorch代码解释RLHF 中英字幕
已浏览 45 次
2025年2月4日
bilibili
阳冰NaN
36:25
DPO算法详解 : Direct Preference Optimization 算法详解 (RLHF的替
…
已浏览 2641 次
2023年12月12日
bilibili
聚焦AIGC
41:34
DRL Lecture 2: Proximal Policy Optimization (PPO)
已浏览 76 次
2024年2月2日
bilibili
iJOYWIN
19:25
【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数
已浏览 9881 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
17:50
Proximal Policy Optimization Explained
已浏览 7.6万 次
2021年5月20日
YouTube
Edan Meyer
11:05
AI Learns to Park - Deep Reinforcement Learning
已浏览 309.9万 次
2019年8月23日
YouTube
Samuel Arzt
35:01
Let's Code Proximal Policy Optimization
已浏览 1.7万 次
2021年5月28日
YouTube
Edan Meyer
16:27
An introduction to Reinforcement Learning
已浏览 70.2万 次
2018年4月2日
YouTube
Arxiv Insights
观看更多视频
更多类似内容
反馈