求助强化学习求助

没弄过这个，请问大佬，想要用ppo算法，实现一个场景里有很多个小球运动，需要怎么做呢。现在的要求就是能动就行

设想的是，能输出一个地图，然后一直刷新agent的动作，可视化展示出来，但不会

不感兴趣

开通SVIP免广告

ppo只是强化学习在损失函数中使用kL散度以保持摡率分布的一致性，例如大模型强化学习，机器应答要趋同于人类反馈对齐一致，kL散度就要尽量小，就表现一致了。但你只要求动起来，那就不必管损失函数了，只管训练时要求动的那部分代码，你可以借鉴随便个强化学习书的代码，看解释就知道是哪行代码触发小球action了，就是a即发生动作那行，最多再看选择a那行。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

4回复贴，共1页

<<返回人工智能吧

分享到:

日	一	二	三	四	五	六