为什么说强化学习在近年不会被广泛应用_-攻城狮子
做过两年多RL,发过几篇顶会,以及有幸与国内top的游戏公司合作过,落地这块有一定的经验。
尝试用大白话说点本质问题。
不被广泛应用的原因是:
数据收集过程不可控
跟监督学习不一样,强化学习的数据来自agent跟环境的各种交互。对于数据平衡性问题,监督学习可以通过各种补数据加标签来达到数据平衡。但这件事情对强化学习确实非常难以解决的,因为数据收集是由policy来做的,无论是DQN的Q-network还是AC架构里的actor,它们在学习过程中,对于任务激励信号的理解的不完善的,很可能绝大部分时间都在收集一些无用且重复的数据。
举个例子,比如一个走迷宫任务,分为A、B两个房间,agent需要从A出发,到B中拿到钥匙。从A走出去大约需要100步,这意味着需要收集房间B里的state-transition信息,需要先解决怎么绕出A。而学习在B中拿到钥匙这个目标,需要收集大量的重复经验。这些重复经验的规模很可能远远大于房间B中学习拿到钥匙所收集的数据。虽然有prioritized replay buffer来解决训练优先级的问题,但实际上是把重复的经验数据都丢弃了。在实际应用中,面对一些稍微复杂点的任务还是需要收集一大堆重复且无用的数据。这也是DRL sample efficiency差的原因之一。
环境限制
DRL问题中,环境都是从初始状态开始,这限制了很多可能的优化方向。比如在状态空间中,可以针对比较“新”的状态重点关注,控制环境多到这个状态。但目前的任务,很多环境的state-transition function都是stochastic的,都是概率函数。即便记录下来之前的action序列,由于环境状态转移的不确定性,也很难到达类似的状态。更别提policy本身也是stochastic的,这种双重stochastic叠加,不可能针对“重点”状态进行优化。
同时这种限制也使得一些测试场景成为不可能。比如自动驾驶需要测试某个弯道,很难基于当前的policy在状态空间中达到类似的状态来重复测试policy在此状态下的鲁棒性。
玄之又玄,可解释性较差
本来Q-learning就是一个通过逐步学习来完善当前动作对未来收益影响作出估计的过程。加入DNN后,还涉及到了神经网络近似Q的训练。这就是“不靠谱”上又套了一层“不靠谱”。如何验证策略是正确的?如何验证Q function是最终收敛成为接近真实的估计?这些问题对于查表型的Q-learning来说,是可以解决的,无非就是工作量的问题。但对于大规模连续状态空间的DQN来说,基本上没法做。论证一个policy有效,也就是看看render以后的效果,看看reward曲线,看看tensorborad上的各个参数。连监督学习基本的正确率都没有。然后还要根据这些结果来调reward function,基本上都在避免回答why这个问题。
随机的探索
DRL的探索过程还是比较原始。现在大多数探索,epsilon-greedy,UCB都是从多臂老虎机来的,只针对固定state的action选择的探索。扩展到连续状态空间上,这种随机探索还是否有效,在实际落地过程中,还是要打个问号。因为也不能太随机了。大家都说PPO好,SAC强,探索过程也只不过是用了stochastic policy,做了个策略分布的熵的最大化。本质还是纯随机。虽然有些用好奇心做探索的工作,但也还是只把探索任务强加给了reward,指标不治本。
比如在自动驾驶任务中,学习车不上马路牙子这件事情。DRL的探索策略是,我开车的时候都正常开,突然有一刹那我想来点新鲜的,拐到马路牙子上探索一下上马路牙子是什么后果(reward -1000!)。然后它并没有学乖,通常要在类似位置上几千几万次马路牙子才能涨点记性,因为这个规模的数据才能回传给之前的状态转移,通过大规模训练影响决策。然而,因为探索概率还在,下次碰上随机时刻,又要上一下。这只是针对样式A的马路牙子,对于样式BCDEF,都要重复类似过程才能最终训出来一个看起来不错的司机。人类不一样,成年了(多年的智力开发),教练说别上马路牙子,基本上通过几次低速的左拐右拐就能完全胜任这个任务。DRL对于Q的估计过程过于粗暴,不会像人类那样总结出来“只要是马路牙子就不能上”这样形式化的概念,而是收集海量马路牙子的案例,来训练状态操作空间中对于类似的与之关联的操作的估计。
所以总结一下,当前DRL的实际科研的进步速度要远远慢于大众对于AI=DL+RL的期望。
能解决的问题:
- 固定场景:状态空间不大,整个trajectory不长
- 问题不复杂:没有太多层次化的任务目标,奖励好设计
- 试错成本低:咋作都没事
- 数据收集容易:百万千万级别的数据量,如果不能把数据收集做到小时级别,那整个任务的时间成本就不太能跟传统的监督相比
- 目标单纯:容易被reward function量化,比如各种super-human的游戏。对于一些复杂的目标,比如几大公司都在强调拟人化,目前没有靠谱的解决方案
领域来讲也就只有游戏了,而且是简单游戏,比如固定场景、小地图上的格斗,比如街霸、王者之类。要是大地图、开放世界的话,光捡个枪、开个宝箱就能探索到猴年马月了。
而且现在游戏的落地,也没想象中那么fancy,基本没有图像类输入,全是传感器类的内部数据,所以同类型任务的训练难度还没到Atari级别。比如敌方英雄冷却时间,人类是记住之后估算的,强化agent可以直接拿到实际值(这种非视觉的输入很欺负人,比如LOL的各种躲技能脚本)。其实有点类似作弊,很多行业内应用都是类似的trick搭起来的。(这里提一句,如果质疑其公平性,其实有些落地项目都不能严格说是super human的)而且训练代价超级高,特别是解决收集数据+探索,耗的CPU用量真的烧钱。最近这几年时间,DOTA2和星际基本上是游戏领域内到顶的落地了。
给大三大四研一的,想做强化的同学们一点信息:
强化学习岗位很少,因为落地难+烧钱,基本只有几个头部游戏公司会养一个规模不大的团队。
纯强化的技术栈不太好跳槽,除了游戏外,别的领域很难有应用。
20年huawei的强化夏令营,同时在线也有好几万人,想想这规模,未来几年这些研究生到job market会多卷。。。
建议是,做强化的尽量读博走研究道路,找工作要结合领域,比如游戏AI,多看点行为树之类的,这样找工作要容易一些。
有同学问推荐,我的建议是以推荐为主,RL为辅的姿态来看待这个事情。
评论区
Yuxi Li: 推荐等看一下这个博客:With reinforcement learning, Microsoft brings a new class of AI solutions to customers - The AI Blog机器人看一下这篇:Learning quadrupedal locomotion over challenging terrain https://robotics.sciencemag.org/content/5/47/eabc5986.full滴滴的一些工作 Ride-Hailing Order Dispatching at DiDi via Reinforcement Learning, https://pubsonline.informs.org/doi/abs/10.1287/inte.2020.1047?journalCode=inte 👍🏽57 💭N/A IP 🕐2021-03-09 23:03:33
冰散响: 说的很到位,确实是这样的。大部分DRL连面向dataset学习都做不到,都是在自定义环境里自己和自己比,玄之又玄 👍🏽43 💭N/A IP 🕐2021-03-09 20:36:01
xytsing: 强化学习就像散户炒股,不停交易,力图得到规律,但十个散户九个亏,强化学习成功率大抵如此[大笑] 👍🏽36 💭N/A IP 🕐2022-01-22 22:47:19
│ └── 四叶草: 股市变幻莫测,相同的输入,结果可能完全不同,怎么训练?根本就是无法训练。有什么算法能做统计找规律,找相似呢? 👍🏽2 💭N/A IP 🕐2023-12-07 21:55:44
│ └── lopper: 好了知道你入坑了[惊喜] 👍🏽0 💭N/A IP 🕐2025-01-17 14:09:29
蔚谷蔚谷: 说的太好了,让很多我这样满怀期待的人省去了看书的时间 👍🏽23 💭N/A IP 🕐2021-08-04 14:18:14
快乐小吉普: 应用领域太窄了,只能是在虚拟世界里,真实世界的采样效率从根本上阻绝了大规模训练、调参的可能性。 👍🏽19 💭N/A IP 🕐2021-03-10 22:56:22
RED BUFF志: offline RL加Imitation Learning可以解决文中的部分问题。 👍🏽17 💭N/A IP 🕐2021-04-05 21:27:56
佛系架构师东方锡: 简单讲就是现实环境都很复杂,随机策略实验成本太高,采集实验数据需要时间太久,模拟环境搭建技术难度比做算法更高,一般强化学习工程师根本不具备这个工程能力。例如用omniverse搭建模拟环境可不是一般算法工程师能玩的,如果能玩这个也不会整天水论文了。真正工程能力强,需要考核落地效果的算法工程师,一般都是在成熟算法基础上不断优化,一般不会去折腾强化学习这种不太靠谱的东西,除非遇到其他算法都搞不定场景了。目前强化学习生产上公认可用的场景和案例还是太少,都是一些玩简单小游戏,机械手完成简单任务之类的Demo工作,这些任务的特点是状态和策略空间比较简单,reward比较明确,现实中能满足这种条件的场景太少了 👍🏽9 💭N/A IP 🕐2022-05-31 15:42:33
│ └── 攻城狮子: 你跟他讲落地,他跟你扯研究。问他为啥没法大规模应用,他告诉你这个方向研究很深入很有搞头。搞工程的还是做做别的方向吧,这个实在是制约太多有劲没处使,最后搞些水paper和PR文章出来也没啥意思呀 👍🏽7 💭N/A IP 🕐2022-06-02 09:31:23
│ └── 灯下忆故人: 金融领域数据量大,在线环境成熟。强化学习会不会有些用 👍🏽0 💭N/A IP 🕐2025-03-24 07:35:10
ChenShawn: 首先感谢答主分享,个人感觉这里提的一些问题确实是rl的固有缺陷,但也不是说完全无法绕开,比如数据收集问题中举的案例其实和montezuma’s revenge比较相似,前有intrinsic reward后有go-explore一类rl+搜索的思路都能达到还不错的效果(当然需要的样本量还是不小),自动驾驶场景即使用到rl也是rl+planing,不可能真车上路用一个model-free的drl模型来跑环境问题我理解本质在于现实中不可能每个场景都会有理想的simulator,如果有理想simulator的话直接restore到任意想要的状态即可,模型训出来sim2real一条龙服务,然而比如推荐广告这类高度stochastic的场景就不可能有很好的sim 👍🏽9 💭N/A IP 🕐2021-03-09 23:15:57
│ └── 攻城狮子: 我还是觉得把探索加到reward里是一件不太让人舒服的事,理论上显得不是那么完美,探索这块还是需要很多研究。用model-free做无人车我只是打个比方,实际上我更看好model-based。无论是造sim,还是直接给agent赋予“想象力”,都是在建一个model,比如拐弯这件事情就可以用model来预测未来,预测结果具有更丰富的环境信息来对当前的决策作出解释,而不是告诉agent一个单纯的Q值来评价好坏。 👍🏽11 💭N/A IP 🕐2021-03-10 08:45:29
│ │ └── 宇宙第一饥渴: rl小白… 想问一下 为什么把探索加在reward里是一件不大好的事儿呢[思考] 👍🏽0 💭N/A IP 🕐2021-05-28 09:02:17
│ │ └── 攻城狮子: 探索项加在reward里,导致奖励在全局视角来看是不平稳的。我的理解是,这种做法在actor-critic架构里,是为了让actor优化policy去探索新的trace,随机虽然也能做到但不具备持续的方向性。好奇心发现新的trace,整个Q空间又要大变了,随着好奇心的减弱再次回归正常的估计。这种投入对于训练来说,是非常耗时耗力的。reward应该跟任务目标相关,探索的偏好最好跟它没有关系。所以这种摘桃子方案,不是长久之计 👍🏽6 💭N/A IP 🕐2021-05-28 09:41:05
│ └── 月光鸣下: intrinsic reward效果好像并没有太强,只是比普通强不少。go-explore通关了,不过那个方法对状态的离散化有点令人发指,感觉不是人干的事[捂脸](其实我是想吐槽通用性)。所以对于这种复杂任务强化基本还是作用有限,能完成的还是限定空间的靠谱一点。解空间可以不凸,状态空间一定要凸 👍🏽0 💭N/A IP 🕐2021-12-27 15:11:29
│ └── ChenShawn: 我后来实际做了一下发现这个方法会严重overfit最好的那一条路径,确实是离了Montezuma’s Revenge就不一定work(或者说很大概率不work)的一个方法 👍🏽0 💭N/A IP 🕐2021-12-27 15:31:41
三盏宿酒: 2025年,rl的时代来了[可怜] 👍🏽6 💭N/A IP 🕐2025-02-25 09:35:02
piko.cheng: 俺在读博,刚开始学,还不能理论说清rl目前有什么缺点,受教了受教了 👍🏽7 💭N/A IP 🕐2021-04-22 14:00:06
Windmill: 应用到推荐系统中呢?阿里好像已经在用了,还有多智能体方面,比如智能交通之类的,会不会也是落地的一个点。其实比较期待在机器人上的应用,不过现在看落地还差的远[飙泪笑] 👍🏽5 💭N/A IP 🕐2021-03-09 10:05:32
│ └── 攻城狮子: 推荐系统最大的问题是,环境是人。这个获取数据代价太大了,实在不行还得自己训个虚拟环境,或者全用off policy来做。目前除了学术界和youtube的两篇paper外,好像没有看到太广泛的应用。 👍🏽14 💭N/A IP 🕐2021-03-09 14:06:35
│ └── 攻城狮子: 智能交通行业太小,贡献不了多少利润吧。这几年貌似这方面的paper不少,但我理解也仅仅是偏incremental的小众工作 👍🏽3 💭N/A IP 🕐2021-03-09 14:08:16
│ └── 攻城狮子: 机器人。。。以目前RL所用的探索机制和庞大的数据需求量,物理世界没法用。感兴趣可以看看chelsea finn的那几篇work。可以搜搜andrew ng用IRL做的直升机,那是08年的work。如果RL搞机器人这么nb,这十几年干啥去[捂脸] 👍🏽6 💭N/A IP 🕐2021-03-09 14:12:11
│ │ └── 卫宫键: 现在基于RL搞robotics很多的。我在美东某高校实验室,我们整个组三个教授加几十个PhD都是做这方面的。其它大学CS方向下面的robotics组也大多会用到RL。至于“RL所用的探索机制和庞大的数据需求量”的问题,目前的解决方案是全部或者大部分training丢simulation,基本调教得差不多了再进“物理世界”。 👍🏽10 💭N/A IP 🕐2021-03-10 04:47:54
│ │ │ └── 吧唧吧唧: 现在的sim2real那效果security-sensitive的task真的敢用吗 这本身就是一个活跃的研究方向了 👍🏽2 💭N/A IP 🕐2021-03-11 21:31:46
│ │ │ └── 半个王子: Berkeley? 👍🏽0 💭N/A IP 🕐2022-07-21 20:30:21
│ │ └── 小波: 我觉得机器人rl主要问题还是得解决鲁棒性问题,吴恩达那个直升机在那个环境里面可能好使,但是换个地方,换个桨叶可能就摔了,不像pid那些传统方法,只要不是大的变化,大体都能work 👍🏽2 💭N/A IP 🕐2021-03-10 09:56:53
│ └── 小赖sqLai: 阿里内部做推荐的朋友说,其实压根没涨点,只不过为了配合公司pr,强行吹的。。 👍🏽17 💭N/A IP 🕐2021-03-10 16:14:39
│ │ └── Windmill: [飙泪笑]太狠了 👍🏽0 💭N/A IP 🕐2021-03-10 16:29:03
│ │ │ └── 打呼噜的喵: 扎心了老铁 👍🏽0 💭N/A IP 🕐2021-03-14 14:54:53
│ │ └── lion: 有木有掉点呀😁 👍🏽1 💭N/A IP 🕐2021-03-10 17:38:08
│ │ └── 知乎用户2XDR3o: 是啊,本来就没啥用,还专门出了本书做pr。。。这吹逼吹的 👍🏽0 💭N/A IP 🕐2021-03-17 18:46:52
│ │ └── 攻城狮子: 不造轮子不出书,拿什么做晋升答辩ppt[狗头] 👍🏽3 💭N/A IP 🕐2021-04-06 08:57:45
│ └── I knownothing: 故事讲的好罢了,我不相信阿里会用rl. 👍🏽1 💭N/A IP 🕐2022-05-11 08:40:36
喂你好哇: 我倒觉得 问题设计要简单 问题本身要足够复杂 才有使用RL的意义 否则直接人工设计几条简单的规则就可以了 👍🏽5 💭N/A IP 🕐2021-03-16 15:33:32
懂得所以慈悲: 然而Chat-gpt主要就是强化学习 👍🏽3 💭N/A IP 🕐2023-02-12 19:29:40
│ └── 寒蝉鸣泣: 人家也花了上亿请人标注数据啊 👍🏽5 💭N/A IP 🕐2023-03-20 10:47:49
│ └── Jensen: 强化个der 👍🏽3 💭N/A IP 🕐2023-12-25 13:49:02
动词大词动: 这不就全是机会么? 👍🏽4 💭N/A IP 🕐2021-03-10 08:17:25
│ └── 攻城狮子: 研究还是会持续热下去。但拿纯RL背景在互联网找工作,还是要三思 👍🏽12 💭N/A IP 🕐2021-03-10 08:46:32
│ └── 叫我童童童: 我就是纯RL背景的,机器人方向,去年秋招投递的机器人和自动驾驶岗位全扑街,最后签了一家游戏公司。[为难] 👍🏽7 💭N/A IP 🕐2021-03-10 09:44:52
│ │ └── 攻城狮子: 握爪,去年也找过工作,跟你体验一样[捂脸] 👍🏽0 💭N/A IP 🕐2021-03-10 10:12:43
│ │ └── 钟彧: 我秋招放弃了推荐去某公仔厂做游戏RL是不是扑街。。。。 👍🏽0 💭N/A IP 🕐2021-03-12 16:18:44
│ │ └── 攻城狮子: 蛮好的,鹅厂适合硕士。游戏落地场景还是不少的 👍🏽0 💭N/A IP 🕐2021-03-12 16:27:39
│ │ └── 知乎用户2XDR3o: 进坑容易出坑难[为难] 👍🏽0 💭N/A IP 🕐2021-03-17 18:52:00
│ │ └── 月亮岛: 请问是在深圳吗?北京有没有相关的岗呀[捂脸] 👍🏽0 💭N/A IP 🕐2021-04-12 00:13:28
│ │ │ └── 钟彧: 对的 是在深圳,北京相关好像较边缘 👍🏽0 💭N/A IP 🕐2021-04-13 10:43:34
│ │ │ └── 月亮岛: 好的,谢谢😊 👍🏽0 💭N/A IP 🕐2021-04-13 12:37:16
│ │ └── 知乎用户kATqWX: [握手][握手][握手] 放弃了ieg的推荐 去了teg的游戏ai 👍🏽0 💭N/A IP 🕐2021-04-21 03:18:41
│ │ └── 钟彧: 那你真的是非常热爱了诶 👍🏽0 💭N/A IP 🕐2021-04-21 10:58:05
│ └── 回瓜子: 哥德巴赫猜想也是机会 👍🏽14 💭N/A IP 🕐2021-03-12 08:36:51
deyi wang: 听君一席话,胜读十年书 👍🏽4 💭N/A IP 🕐2021-05-16 14:54:56
│ └── 小披风: 哈哈哈,其实你读两年硕士专心搞RL就能说出他这席话。当然我没有否认楼主的意思[大笑] 👍🏽1 💭N/A IP 🕐2022-09-21 09:33:01
自闭男孩爱学习: 2025年刷到这篇帖子,感慨万分了,坚持下来的人走到了头部 👍🏽4 💭N/A IP 🕐2025-02-12 10:01:34
程序员小张: 不太同意 我觉得目前rl最大的问题是sim2real,如果有了一个准确的环境 大规模并发ppo怎么也能训练出来 无非就是trick多少 👍🏽3 💭N/A IP 🕐2024-11-15 18:09:54
荔枝不剥皮: offline rl,关注下,虽然还是一个baby 👍🏽3 💭N/A IP 🕐2021-11-12 08:37:37
│ └── I knownothing: 动手做过试验就知道offline rl也十分不稳定 👍🏽4 💭N/A IP 🕐2022-05-11 08:38:15
咸蛋: 强化学习的核心问题是需要环境数据,如果希望网络可以用的到实际,那么虚拟环境也需要贴合实际,不然不可能让网络在真实世界中训练,试错成本太高。 👍🏽1 💭N/A IP 🕐2021-09-05 11:39:16
Rockey: q learning 是有数学推导的好吧,怎么就玄学了,唯一玄学的部分就是deep q learning神经网络的部分 👍🏽2 💭N/A IP 🕐2025-01-26 17:23:06
│ └── mtdickens: 是这样的。可以看看 Sergey Levine CS285 的 Q-Learning 那一讲的 learning theory 部分,用一种视角阐述了 tabular 和 non-tabular 的区别 👍🏽0 💭N/A IP 🕐2025-02-14 04:27:23
别过来离我远点: 如何让网络能认出来地铁跑酷,神庙逃亡,小黄人的操作逻辑是一样的呢,[思考] 👍🏽2 💭N/A IP 🕐2021-04-02 10:08:30
│ └── 闲蛋小超人: 逆强化学习 通过网络导出某个游戏的奖励函数 再迁移学习到另一个游戏 👍🏽0 💭N/A IP 🕐2025-02-28 15:55:09
一飞: 想问一下大神 rl做优化/运筹这个方向找工作可以吗 👍🏽2 💭N/A IP 🕐2021-03-20 12:58:09
│ └── 攻城狮子: 解约束优化问题,还是遗传算法、整数规划、模拟退火。很多时候没有环境+MDP,不要强行套RL。而且RL这个方向已经被大公司PR吹烂了,如果没有搜到比较多的新闻或者爆炸进展,说明这个方向还在探索初期。慎入,除非是想自己开创这个子领域 👍🏽9 💭N/A IP 🕐2021-03-20 21:59:55
│ └── 一飞: 感谢感谢 醍醐灌顶! 👍🏽0 💭N/A IP 🕐2021-03-20 22:56:06
Milo Sun: 这件事更加告诉我们神经网络很玄学,RL被拿去训练大模型了 👍🏽2 💭N/A IP 🕐2025-02-26 16:04:43
Marco: 强化学习有一类安全边界强化学习,就是解决不上马路牙子的问题的 👍🏽1 💭N/A IP 🕐2023-01-26 14:08:23
德胜: 看不懂,点个赞[发呆] 👍🏽1 💭N/A IP 🕐2021-03-10 19:18:30
CNheis2: “别的几乎都是用内存的值”,好像星际争霸ai是图像输入吧 👍🏽1 💭N/A IP 🕐2021-03-10 09:37:12
│ └── 攻城狮子: 星际的screen和minimap是经过处理的heatmap,跟人的屏幕输入很不一样吧。而且主要也是以它们所说的non-spatial feature为主,就是数值类数据。把这些全去了试试?直接给人类输入的屏幕试试?atari级别的都需要10M以上的frame,星际纯图像输入感觉是无底洞了。这些trick都是trade off,所以我说严格意义上,这类游戏的super human不好说是公平的。 👍🏽5 💭N/A IP 🕐2021-03-10 10:21:06
│ │ └── xia0ba0: 图像渲染时间很长,导致收集数据慢,很多任务变得都做不了了。 👍🏽1 💭N/A IP 🕐2021-03-11 13:29:44
│ │ └── liuruoze: 准确说来,screen也没输入[飙泪笑] 并没用到[捂脸] 👍🏽0 💭N/A IP 🕐2021-11-11 12:58:16
│ └── 你的唐长老: ,我觉得图像这种东西是存不到内存的,应该是在外存上虚拟出一块地方,存入张量,再调用GPU 👍🏽0 💭N/A IP 🕐2021-03-10 11:19:03
│ └── ChenShawn: AlphaStar是纯unit特征,如果想要训练一个能和人类打得有来有回的scii bot,目前纯image输入基本不可能做到 👍🏽2 💭N/A IP 🕐2021-03-10 12:49:05
SPiriT: 游戏里的落地机会主要看游戏公司有没有相关的需求,小尺寸下的谋略游戏(如狼人杀)是很好落地的,而且能做得很“好玩”。开放世界下探索,比如“捡枪”、“开宝箱”什么的,困难程度要看游戏的空间尺度,也不是非常困难。现在AI的微操可以很厉害,但是宏观谋略规划上还是差了些。 👍🏽0 💭N/A IP 🕐2021-03-10 15:47:20
你的唐长老: 还有一个东西很重要,就是对现实机理环境的计算机描绘还不完善。意思就是很难让智能体在一个可靠的,及其真实的环境中区训练。 👍🏽1 💭N/A IP 🕐2021-03-09 21:56:39
wlgqa: 游戏本身感觉就是一个很大的产业 👍🏽1 💭N/A IP 🕐2021-03-10 17:45:22
qwe: 跑一个2000+的数据集跑3天[大笑],效果还不行,能笑的都是神人好吧[大笑] 👍🏽0 💭N/A IP 🕐2025-04-05 22:03:43
封波: 不上马路牙子的问题不应该用RL去解决。 👍🏽0 💭N/A IP 🕐2023-02-01 07:58:04
│ └── BIYTC: 请问,应该怎么解决呢? 👍🏽1 💭N/A IP 🕐2023-02-28 08:33:17
seti: [大笑][大笑][大笑] 👍🏽0 💭N/A IP 🕐2025-05-01 06:02:42
icode: [发呆]现在大模型每个都需要用吧 👍🏽0 💭N/A IP 🕐2025-05-27 17:17:43
TianhaoHu: 2025年刷到,受到llm的影响,这届毕业生有rl背景的找工作非常的抢手 👍🏽0 💭N/A IP 🕐2025-03-04 16:21:51
weiyangjun: deepseek是强化学习吗 👍🏽0 💭N/A IP 🕐2025-02-09 21:37:27
向南的晨风: 广告出价都在用rl做啊 也算核心业务核心岗位 👍🏽0 💭N/A IP 🕐2024-12-11 06:51:40
│ └── dnClqW: 21年的回答[飙泪笑]倒不用苛责,只是技术前瞻性不足 👍🏽0 💭N/A IP 🕐2025-02-09 16:36:03
快乐牛仔: 24年刷到这个答案的感受是:博主说得没错,想要在RL领域杀出来很需要定力,如果不是读phd导向的同学感觉可以多看几个topic先评估一下自己的兴趣 👍🏽0 💭N/A IP 🕐2024-12-02 15:52:15
老猴: 说得太片面了,完全没有看到强化学习取得的巨大成就 👍🏽0 💭N/A IP 🕐2024-11-20 08:39:01
释墨: 想问一下要是做rogulike游戏的话,所谓的环境是找别人已经开源的环境吗还是要自己提取? 👍🏽0 💭N/A IP 🕐2024-09-09 13:02:02
雷达小白: drl加雷达呢 导师让做这个方向[捂脸] 👍🏽0 💭N/A IP 🕐2024-07-26 17:36:10
│ └── 神乐: 偶然点进来发现居然是关注了我的人…说说我个人感受吧。先抛结论,如果你们组没有这方面的经验累积,比如师兄师姐做过这方面或者类似方向的,果断放弃换个熟悉点的方向做,这坑只会越踩越深。我没有答主这样的水平,但是自己学了一两年这方面的东西大概能理解答主说的东西的含义。基本上你做这方面的东西也是会遇到同样问题的。首先一个就是采样的问题,强化学习是需要大量样本收集训练的,虽然我一点不懂雷达,但是我想也不是拿个雷达就让你在真实环境收集数据吧,这样采样采到猴年马月也没啥作用。如果说是有自己做的现成的simulator,sim是否能保证重现真实环境?或者只是大部分真实环境?这些都需要打一个问号,在sim里面训练出来的模型能否迁移到真实世界的关键点就在这。姑且就算搞定了上述问题,奖励函数的设计则会是你遇到的第二个大坑,原因之类的答主讲的则比较清楚了。反正总而言之要是没人带你做,老师也不是非常懂能给一些指导,能跑尽早跑。 👍🏽0 💭N/A IP 🕐2024-09-14 16:53:28
│ └── 雷达小白: 后面可能不做这个了 准备混个毕业 转码 这个方向写个毕业论文难度不大吧 👍🏽0 💭N/A IP 🕐2024-09-14 20:46:57
│ └── 雷达小白: 谢谢大佬回答很感谢 👍🏽0 💭N/A IP 🕐2024-09-14 20:47:28
adam: 最根本的原因就是gpu方面不达标。不能做出性能强大的gpu来供drl训练,所以只能停留在学术研究层面很难应用到实际,不过现在的水平确实远远达不到,至少近几十年是达不到的 👍🏽0 💭N/A IP 🕐2024-05-20 15:55:12
│ └── Zakari: 不是效率太低吗,比如dqn,要等环境反馈,gpu利用率低 👍🏽0 💭N/A IP 🕐2025-05-15 15:23:05
龙木: 答主,2023年尾巴了。你觉得用RL+大模型做开放世界游戏里的对话系统怎么样[doge] 👍🏽0 💭N/A IP 🕐2023-12-22 10:46:29
│ └── 攻城狮子: 感觉应该不用RL。用prompt+游戏内部的一些机制调用就行了,目前类似的游戏还没看到 👍🏽1 💭N/A IP 🕐2023-12-28 18:41:11
醉一心: 收获很大,个人感觉强化学习就业比较困难。一个普通的硕士,吃不了强化学习的这口饭[衰][衰][衰] 👍🏽0 💭N/A IP 🕐2023-09-07 16:04:49
沉睡啦: 两年前的回答,看的我字字诛心[可怜] 👍🏽0 💭N/A IP 🕐2023-07-12 17:50:39
gzroy: 请教一下,文章提到的上马路牙子的例子,不能通过设置模拟环境来大量模拟吗 👍🏽0 💭N/A IP 🕐2021-09-03 08:57:15
富光八百: 咋作都没事儿牛弼[赞同] 👍🏽0 💭N/A IP 🕐2021-03-10 13:30:52
starspring: 回来鞭尸, RL在LLM大放异彩 👍🏽4 💭N/A IP 🕐2025-02-18 18:56:40
AAAA: 请问您最后一句话说“以推荐为主”是打错字了么? 👍🏽0 💭N/A IP 🕐2021-06-21 17:18:52
│ └── 攻城狮子: 我的意思是多关注推荐本身。RL只是辅助手段 👍🏽2 💭N/A IP 🕐2021-06-21 19:10:14
│ └── 水dong方块: 推荐系统 👍🏽1 💭N/A IP 🕐2021-07-15 20:48:07
二十八岁的天空: 另外请教一下,您说到很多拿强化学习做量化的,用离线数据去做的话,没有状态转移。我不明白是为什么。 如果套用一个回测框架来进行训练的话,回测框架在T时刻给出市场的行情,经过特征计算后,送给强化学习框架给出动作。回测框架在T加一时刻给出做出这个动作的收益或者亏损,这个就是作为了一个reward,返回给强化学习框架。agent在后续阶段修正他自己的行为,我感觉没问题啊。 👍🏽0 💭N/A IP 🕐2021-04-21 23:14:32
│ └── 攻城狮子: 市场T时刻和T+1时刻的状态,不取决于你agent的动作。agent跟环境交互,但agent除了自身仓位之外改变不了这个环境的任何地方。建议先入门RL再说吧,知道MDP的一些基本概念的例子再来看这个问题。你洋洋洒洒一大堆,看得人一头雾水 👍🏽5 💭N/A IP 🕐2021-04-22 08:53:17
│ └── 攻城狮子: 你套任何一个RL算法很容易,但你很快就会发现这是个只会过拟合的涨跌预测而已,实盘上一测原形毕露。RL可不分测试集的哦,明目张胆的过拟合 👍🏽0 💭N/A IP 🕐2021-04-22 09:02:32
│ │ └── 二十八岁的天空: 不好意思,昨天使用的语音输入法,句子不太流畅。agent动作不影响市场环境,中小资金确实是这样的,另外不影响市场环境不代表不能在这个环境中训练agent吧。另外我猜测你应该是认为市场是随机涨跌的,所以你才会认为在非高频周期上没有模型能盈利。但明显不是,市场有其内在的状态转移概率,所以可以用rl在这个环境中训练agent 👍🏽0 💭N/A IP 🕐2021-04-22 14:04:20
│ │ └── 攻城狮子: RL的大前提是,agent跟环境的交互,agent的动作对环境都不产生影响,何必用RL来强行套呢。MDP里状态转移函数P(s’|s,a),注意这里头的a。如果状态转移跟a无关,那就不是个RL问题,压根就不用探索在当前状态下,各种动作产生的后果。RL的基础都变了啊。。劝你一句,先入门RL,看看理论,动动手,别强行套量化,明显用LSTM就能做的事情,非要套上RL。套上RL就高级了?可以PR吹牛了?过来人一句经验,听不听随你。 👍🏽0 💭N/A IP 🕐2021-04-22 14:22:40
│ │ └── 二十八岁的天空: 不是在公司做量化,只是个人做。你讲的有道理,我只是作为新人请教下 :你说 那就不是个RL问题,压根就不用探索在当前状态下,各种动作产生的后果。 举个很简单例子: t时刻市场是一种状态,假设我们知道t后的10根bar左右是上涨的。那么我在此刻做买入或卖出的动作,在未来就会是盈利或亏损的,这个盈利或亏损也就是我agent做出动作后得到的反馈。那么又为何说不用探索在某状态下不同动作产生的后果呢?在我看来,做这种探索是有意义的。在t时刻的状态,agent偶然做出了买入的动作,那么在其后获得盈利,agent得到了正向奖励。那么在下一次遇到这种状态时,agent就会有更大的概率选择还是买入。这就是agent学习到的经验: 即在该种状态下做买入动作,后续得到的折扣奖励和最大。 👍🏽0 💭N/A IP 🕐2021-04-22 14:46:12
│ │ └── 攻城狮子: 我说了,你的action可以对你本身的持仓和收益造成影响。但市场不会因为你的这个操作产生任何影响,local看你的状态是变了,全局来看压根就没状态转移。你看看多智能体方面的工作,不要想当然了。按这个路子走下去,只能是一个很强overfit,agent只会记住某个时间点买入收益最高,这和预测涨跌有什么区别?你跟市场有interaction么?游戏里,一个操作必然要么打个小怪要么地方掉血,棋盘落个字,整体局面就变了。你这agent就是加满仓加100倍杠杆,市场有影响么。之后的state trajectory有变化么?想想这个本质问题。 👍🏽0 💭N/A IP 🕐2021-04-22 15:54:05
│ │ └── 攻城狮子: 而且我预测一下你这个项目之后的走向,突然有一天你train出了一个巨牛逼的agent,回测年化收益200%。然后志得意满上了市场,被市场教育,从此心灰意冷不想碰这个玩意。我就是这么走过来的。。。这种项目不单单浪费时间,还很浪费钱。 👍🏽1 💭N/A IP 🕐2021-04-22 15:57:16
│ │ └── 二十八岁的天空: 谢谢你的指点 👍🏽0 💭N/A IP 🕐2021-04-24 23:07:31
│ │ └── 恐慌收割大师兄: 完全一致, 失败的滋味感同身受hhh, 不过也不至于被市场教育吧,最多就是不赚, 训练的agent想亏钱我理解是挺难的.那种明显的上涨趋势(ema日内多头排列), agent的买卖点把握的挺好的把 👍🏽0 💭N/A IP 🕐2021-07-15 18:17:27
│ │ └── 旭半仙: 你只是要求这样的话,使用简单的LSTM都比RL要好吧。[大笑] 👍🏽0 💭N/A IP 🕐2021-10-08 11:27:32
│ └── 澹海: 金融强化学习是可行的,但这个行业闭源,没有义务教别人。 👍🏽0 💭N/A IP 🕐2022-01-05 10:16:34
│ └── 澹海: 最近DeepMind和ucl联合开了相关课程,感兴趣可以去看下 👍🏽0 💭N/A IP 🕐2022-01-05 10:19:44
│ └── 与悄悄: 理论上可行,小资金用lstm,我不确定效果怎样,但估计不会很好,大资金用强化,不过大资金没地方训练啊,模拟环境也不能假设大家都用相同的模型和你对抗[捂脸] 👍🏽1 💭N/A IP 🕐2022-05-20 17:00:19
│ └── 玄不改非: 可以了解一下deep hedging,另外感觉量化的目的是赚钱,没必要局限于某个技术 👍🏽0 💭N/A IP 🕐2022-11-19 18:38:44
DOENER: 讲的挺好的,对于实际问题,还是倾向于model based的方法,而且model最好是grey box 👍🏽0 💭N/A IP 🕐2021-03-11 15:33:07
亮点: 受益匪浅[赞同] 👍🏽0 💭N/A IP 🕐2021-03-11 01:34:59
Inphyy: RL+控制应该是一个不错的尝试方向,环境固定,场景单一 👍🏽0 💭N/A IP 🕐2021-03-10 18:06:15
│ └── 伊卡洛斯: 好多比较经典的控制方法使用场景都很有限了[捂脸]rl可能更用不上 👍🏽3 💭N/A IP 🕐2021-03-12 03:46:34
阿文: 深度强化在围棋ai上的成就巨大,围棋ai的棋力远超人类了 👍🏽0 💭N/A IP 🕐2021-03-10 16:52:03
│ └── 攻城狮子: DRL攻克围棋,一是CNN特别适合棋盘输入,二是模型给定环境都不要随便做MCTS。相当于人类提前发明了一个特别适合RL解决的游戏,这明晃晃的钉子肯定是被第一个钉下去的 👍🏽7 💭N/A IP 🕐2021-09-26 17:24:26
│ └── 老猴: 说得这么轻松,你怎么没在deepmind前发明出来呢? 👍🏽0 💭N/A IP 🕐2024-11-20 08:38:05
liuruoze: 蛮好的,讲的很实在 👍🏽0 💭N/A IP 🕐2021-11-11 12:53:48
kgpp34: 我记得国外有个控制领域的大牛R.lewis做的是RL+控制,好像还可以 👍🏽0 💭N/A IP 🕐2021-03-10 10:26:17
│ └── vergilus: 只限于那些有点积累的实验室。后入坑的组几乎连汤都很难喝到。 👍🏽0 💭N/A IP 🕐2021-03-13 00:15:20
Tony: 那多智能体和博弈论这个方向呢 👍🏽0 💭N/A IP 🕐2021-03-10 10:22:21
│ └── 橘黄色的猫: 那就更坑了 👍🏽1 💭N/A IP 🕐2021-06-27 21:01:03
│ │ └── Leonardo888: 请问为什么坑呢?愿闻其详 👍🏽0 💭N/A IP 🕐2021-11-18 21:08:03
│ └── 旭半仙: 多智体加博弈,狗都不做。[捂脸] 👍🏽0 💭N/A IP 🕐2021-10-08 11:28:43
│ └── moonl: 能问一下为什么吗 👍🏽0 💭N/A IP 🕐2022-03-22 18:58:48
│ └── ddddddong: 你来说说理由啊 👍🏽0 💭N/A IP 🕐2023-03-16 10:58:40
papapi: 对着上面5个条件,trading matser with RL全都满足,我放心了 👍🏽0 💭N/A IP 🕐2021-03-10 08:13:09
│ └── 攻城狮子: 巧了,我正好做过几年量化,不得不给RL for 量化泼盆冷水了[捂脸]。。。量化的难题跟推荐类似,不同的是,推荐的环境是单个人,而量化的环境是整个市场,这种成千上万的散户没法model。agent跟环境交互,除非你是实盘操作(你敢拿真金白银去试错么),否则跟LSTM预测涨跌没任何区别,因为RL的大前提是,agent对环境要产生影响。而我看大多数量化,都是虚拟盘,或者拿离线数据做。这种连state transition都没有,理论上就不是个RL问题。 👍🏽12 💭N/A IP 🕐2021-03-10 08:59:16
│ └── DOENER: 怪不得我听到人用rl做一脸懵逼 👍🏽0 💭N/A IP 🕐2021-03-17 12:50:17
│ └── 二十八岁的天空: 正好我在用rl往量化的方向进行试验,我觉得交易这个场景是完美契合 drl的 。 对于你说的问题首先违法对成千上万的对手盘散户做model,其实并不需要对他们做model, 对于a证的来说能看到的是什么,就是行情图表。 那么对应的状态空间,需要用人对行情图表进行特征提炼,然后把这些特征作为状态空间给agebt的就可以了。不同的人有不同的提取特征的方式,所以这一块的自由度是非常大的。而强化学习又很敏感,所以不同的状态空间训练出来的机器人效果可能千差万别。 另外你说 rl在真实市场环境里去训练,成本非常大。但是在训练的时候,完全可以不在真实的环境中。拿5年甚至10年的历史行情,然后人为做出特征。再把这些数据局作为训练样本,统一提供给强化学习框架,用来训练模型。模型训练完成后,小资金实盘测验,然后再正常的进行交易。我感觉这个过程没有问题,而我目前正进行到特征设计的阶段。 👍🏽0 💭N/A IP 🕐2021-04-21 23:12:12
│ │ └── 攻城狮子: 我从14年做量化做到18年,你用的那些回测框架,一轮几分钟才给,我们当年做的系统可是毫秒级回测。可以明确告诉你市场只有很狭小的利润空间给量化的人做,基本上是拼延迟拼高频。不从这方向出发妄图找到模型,那是很不靠谱的。做量化的做了这些年,要真是牛逼的方向,现在市场早是程序博弈了,哪里还有投资者基金经理什么事。中美也不用搞金融战,all in 量化统一全球市场得了 👍🏽1 💭N/A IP 🕐2021-04-22 08:59:27
│ └── 佛系架构师东方锡: 量化这个领域 最多也就是机器学习用一下 深度学习都不work,大A股我觉得还是NLP分析舆情比较靠谱 👍🏽0 💭N/A IP 🕐2022-05-31 15:49:15
你的唐长老: 我感觉吧,智能体这个概念提出来本来就是超前的,科幻的。这就使得强化学习面临的问题相当复杂难拟合。会不会是因为我们在这个时代的眼界还是太窄,受限于很多东西,谁知道过几年强化学习又会发展成什么样。至于把强化学习应用到游戏AI,属实做的不咋地,但是你想想,现在的游戏你单拿一个出来,状态空间和决策空间都复杂的吓人,一个电竞选手训练十几年还经常失误,你让现在的人工智能做这玩意确实不现实。所以我一直坚信,正因为这块还没发展好,所以才有很大的坑去挖。算力,算法,都是制约强化学习发展的因素。 👍🏽0 💭N/A IP 🕐2021-03-09 21:49:13
│ └── 攻城狮子: DOTA2,LOL,王者荣耀这种游戏确实结果上看已经super human了。但细究其细节,还是显得不太公平,毕竟人是用视觉听觉来玩游戏的,而现在这些落地,除了atari是用图形,别的几乎全是用内存里的值,这种super-human是经不起质疑的,除非agent全跟人一样用视觉。目前DRL主要还是靠计算机的“快”,实在是无法贴上“聪明”的标签,这和那些自媒体写的报告会有出入。 👍🏽13 💭N/A IP 🕐2021-03-10 08:53:43
│ └── 淡蓝的火苗: 感觉就是开挂打游戏[飙泪笑] 👍🏽0 💭N/A IP 🕐2021-03-10 09:30:28
│ │ └── 攻城狮子: 如果说LOL的辅助躲技能脚本是挂,那这种直接拿数值的行为也算外挂范畴了。大多数训练出来的agent都拿了比人类玩家多得多、精确得多的数据,super human很正常啊。甚至雇个大团队写行为树也能达到类似的效果。所以如果有一天,人类玩家发现这些陪玩的agent都是挂,那不得气到跺脚[飙泪笑] 👍🏽0 💭N/A IP 🕐2021-03-10 10:25:06
│ └── 你的唐长老: 所以嘛,我说计算机对现实环境的机理描绘不够细致和真实这个点 ,一定是强化学习的瓶颈。[赞同] 👍🏽1 💭N/A IP 🕐2021-03-10 11:17:09
│ └── 知乎用户2XDR3o: 个人认为从应用角度看,输入图像真的没太大意义。。策略,行为更重要。只要ai表现地聪明,玩家看不出ai作弊其实就ok 👍🏽2 💭N/A IP 🕐2021-03-17 19:07:18
│ │ └── 攻城狮子: 举个例子吧,FPS的AI很容易锁头挂。人根据图像输入总是有天花板的 👍🏽1 💭N/A IP 🕐2021-03-17 19:40:47
│ │ └── Sirius: 用Yolo做的AI锁头挂已经出来了,我估计和用直接数值输入效果差不了多少[飙泪笑] 人类处理这种专精问题的能力还是会差计算机不少 👍🏽0 💭N/A IP 🕐2021-09-28 10:19:43
│ └── 知乎用户2XDR3o: 如果觉得ai反应快,加一些apm之类的限制就可以。 👍🏽0 💭N/A IP 🕐2021-03-17 19:08:44
│ └── SOTA: 图形还是读内存对于程序不过是图形的处理更需要资源,更慢一些。本质没什么区别。你就是再怎么用行为树写脚本,你也不可能打过职业选手(星际,dota)。 👍🏽0 💭N/A IP 🕐2021-03-17 19:19:27
DATA ME: 不是有UCB, 有epsilon-greedy吗? 👍🏽0 💭N/A IP 🕐2021-03-09 21:14:11
outsider: 请教前辈怎么看选择强化学习作为直博方向,在研究层面强化学习还会持续发展吗[爱] 👍🏽0 💭N/A IP 🕐2022-10-03 11:41:47
Change: 强化学习,导师说想让我落地作应用,我课题组还就我一个人搞,请问这是不是个大坑 在考虑要不要换方向去卷DL 👍🏽0 💭N/A IP 🕐2022-09-08 17:18:38
│ └── 攻城狮子: 一个人搞入门会有点难 👍🏽0 💭N/A IP 🕐2022-09-08 21:28:29
│ │ └── Change: 导师是图像方面的 你说这种情况下是换到图像,还是继续生啃 就是想混个毕业[思考] 👍🏽0 💭N/A IP 🕐2022-09-08 23:23:57
│ │ └── Black Mamba: 去图像吧,找工作的优势可比rl大多了 👍🏽0 💭N/A IP 🕐2024-03-02 16:48:01
│ └── Silence: 我也是要落地[捂脸] 还是负责很大的一块 压力很大 👍🏽0 💭N/A IP 🕐2022-11-08 16:42:33
│ └── 微小光: 现在怎么样了,兄弟[蹲] 👍🏽0 💭N/A IP 🕐2023-12-18 10:42:23
fox: 问下大大,强化学习在回合制游戏中能不能做平衡性数值策划?有没有相关论文? 👍🏽0 💭N/A IP 🕐2022-08-31 15:19:43
│ └── 攻城狮子: 游戏团队肯定会做,现在大都是self play,如果训练时间分配合理的情况下不收敛,那可以确认是不平衡了。不过这是agent视角(比如传感器数据vs视觉),人的视角不一样 👍🏽0 💭N/A IP 🕐2022-09-08 21:28:06
一个小小扣扣句号: 您好请问一下,强化学习是否是通过跑完所有的可能性,来获得在中间每一步来获得奖励的最大几率,然后建立数据库,当遇到相应的状态时,走几率最大的一步,是这样嘛?真心请教,最近毕设老师让用强化学习,所以想得到这个强化学习能运用的领域。 👍🏽0 💭N/A IP 🕐2022-04-06 16:58:08
│ └── 攻城狮子: value-based方法原理上是这样。你理解有偏差的地方,并不是跑完所有可能性,而是通过采样来统计,状态转移信息自动包含在是数据集里 👍🏽0 💭N/A IP 🕐2022-04-07 08:30:55
│ └── 一个小小扣扣句号: 谢谢[爱] 👍🏽0 💭N/A IP 🕐2022-04-07 12:38:41
│ └── ddddddong: 多智能体强化学习+博弈论作者怎么看这个方向 👍🏽1 💭N/A IP 🕐2023-03-16 11:01:38