必威体育Betway必威体育官网
当前位置:首页 > IT技术

强化学习调研

时间:2019-06-09 04:44:14来源:IT技术作者:seo实验室小编阅读:52次「手机版」
 

学习调研

from:https://www.zhihu.com/question/49230922

20160804   强化学习现状:

目前国内没有中文RL社区。RL脱胎于自动化控制,强调交换性。无论国内外,互联网企业更多的是投钱做推荐,NLP,图像识别,语言识别,如果不是Alpha-Go也不会有多少人关注RL。因为延迟反馈RL在问题的定义和分析上没有监督学习和非监督学习那么直观,特别是怎么定义reward function上面。RL特别强调agent行为对环境的作用,在互联网上面应用场景不多。

除了学术研究,在无人机,自动化控制,游戏行业少数RL有一定作用,大部分时候RL离我们还是有点远。这也就是为什么开源出来的RL lib都是大学维护的处于起步阶段,离Hadoop Spark,R,scikit-learn这样的工业级开源系统很远法的原因。

https://www.zhihu.com/question/20335959?sort=created

RL研究最早可以追溯到五六十年代,虽然那个时候还没有提出RL。八九十年代的时候比较热门,现在已经不是主要研究方向了。

https://www.zhihu.com/question/20335959?sort=created

RL其实是最接近自然界动物学习的本质的一种学习范式。RL在一些小问题上表现近乎完美。然而传统应用场景有限,规模大一点的问题就会出现维数爆炸,function appromination可以解决一定问题,然而复杂的学习问题存在大量的不确定性,模型调参犹如盲人摸象,国语tricky。深度学习的爆发给RL带来了新希望,大家都等着deepmind憋出一个大招。AI星际,AI德州扑克,AI参加标准化考试?

 有时候会觉得,生活就是一次漫长的强化学习过程,我们(agent)希望探索自己的极限不要满足于现状(exploration),又害怕失去方向找不到自己的目标(exploitation)。当你做对了一件事的时候,你会收到奖励(reward),也许你当下看不到结果,却可能成为影响你未来成功的关键(delayed reward)。做错了事,当然要受到惩罚(penalty or negative reward),这样你才会长教训,避免重蹈覆辙。然而总有一些人会漠视惩罚,这造成了他们为了成功不择手段(risk seeking)。也有一些人过于害怕失败,导致他们做事情总是很谨慎(risk averse)。我们在与社会(environment)接触的过程中,不断学习(TD Learning)。人的价值观在年轻的时候变化较大(value function or Q table),年纪越大越区域稳定(converge)。直到有一天你参透了人生,领悟了生命中的真谛(optimal policy)。然而人生不能重来(episode),我们只能通过教育来把我们一生中习得的经验传递下去(iteration)。

 也许有一天,意识的本质被人类研究透彻了,那么人工智能很快就会从真正意义上超过人类智能了,毕竟我们穷尽一生的迭代在agent眼里也不过几秒。

相关阅读

分享到:

栏目导航

推荐阅读

热门阅读