独家 | 强化学习中的策略网络vs数值网络(附链接)

简介:

在强化学习中,智能体(agent)在环境中进行一些随机的抉择,并从很多选择中选择最优的一个来达到目标,实现优于人类的水平。在强化学习中,策略网络和数值网络通常一起使用,比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。

因为他们在迭代过程中被计算了很多次,所以也被叫做策略迭代和数值迭代,。

接下来我们一起来理解这两个网络在机器学习中为什么如此重要,以及它们之间有什么区别。

什么是策略网络?

考虑这个世界上的任何游戏,玩家在游戏中的输入被认为是行为a,每个输入(行为)导致一个不同的输出,这些输出被认为是游戏的状态s。

从中我们可以得到一个不同状态-行动的配对的列表。

cd1a3e686d96cb7ae2c6fe57f583afa3e1ccb42a

代表哪个行动导致哪个状态。同样的,我们可以说S包括了所有的策略网络中的策略。

策略网络是,给定特定的输入,通过学习给出一个确定输出的网络。

eab3f7570c1df7ddc55d0dcd6ca05948a9d06f4b

图1 策略网络(动作1,状态1),(动作2,状态2)

比如,在游戏中输入a1导致状态s1(向上移动),输入a2会导致状态s2(向下移动)。

并且,有些行动能增加玩家的分数,产生奖赏r。

bc3e9943013ed3bad93b0487acf90a68c1785eac

图2 状态获得奖赏

来看一些强化学习中常用的符号:

53ce52dee42c8d7e07e137193ccbbfb57b3774b7

为什么我们使用贴现因子413f0fd168060fb147dc938a68caeddefec8a1eb

它是为了防止奖赏r达到无穷大的预防措施(通常小于1)。一个策略无穷大的奖励会忽略掉智能体采取不同行动的区别,导致失去在游戏中探索未知区域和行动的欲望。

但我们在下一次行动到达什么状态才能通往决赛呢?

43a7f5a183b3aea1a26676634bff6a557484ebc4

图3 如何决策下一个动作

什么是数值网络?

通过计算目前状态s的累积分数的期望,数值网络给游戏中的状态赋予一个数值/分数。每个状态都经历了整个数值网络。奖赏更多的状态显然在数值网络中的值更大。

记住奖赏是奖赏期望值,因为我们在从状态的集合中选择一个最优的那个。

2b305802a02f5d5c60123da23c167c5b07101a74

接下来,主要目标是最大化期望(马尔科夫决策过程)。达到好的状态的行动显然比其他行动获得更多奖赏。

因为任何游戏都是通过一系列行动来获胜。游戏中的最优化策略cb7d156cf685adfaf2c83f3a550deed41148d920由一系列的能够帮助在游戏中获胜的状态-行动对组成。

获得最多奖赏的状态-行动对是最优化的策略。

最优化的策略的等式通过最大化语句来写出:

57e234304a028d5d5688518c0dc1bbf28d67231b

因此,最优化的策略告诉我们采取哪个行动能够最大化累计折扣奖励。

通过策略网络学习到的最优化的政策知道当前状态下应该采取哪个行动来获得最大化的奖赏。

abc9097a95953e5cf6b2166bf9cc4de23c4e4dc4

如果你有任何疑问或者需求,在下面评论或者推特我。

鼓掌……分享它!在Medium上关注我来获得相似的有趣内容。

在推特上关注我来获得及时的提醒。


原文发布时间为:2018-11-26

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
4天前
|
机器学习/深度学习 人工智能 安全
云端防御战线:云计算环境中的网络安全策略
【4月更文挑战第22天】 在数字化时代,云计算已成为企业运营的关键基础设施。然而,随着其广泛应用,云服务也成为了网络攻击者的主要目标。本文深入探讨了云计算环境下的网络安全挑战,分析了云服务提供者和使用者面临的安全威胁,并提出了综合性的安全策略。这些策略不仅包括传统的加密和身份验证技术,还涉及更先进的入侵检测系统、行为分析和机器学习算法。文章旨在为读者提供一个关于如何在享受云计算带来的便利同时确保数据和操作安全的综合指南。
|
2天前
|
SQL 监控 安全
网络安全与信息安全:防御前线的关键技术与策略
【4月更文挑战第24天】在数字化时代,数据成为了新的货币,而网络安全则是保护这些宝贵资产不受威胁的保险箱。本文深入探讨了网络安全漏洞的本质、加密技术的进展以及提升个人和企业安全意识的重要性。通过分析当前网络环境中的安全挑战,我们提出了一系列创新的防御机制和实践方法,以期为读者提供一套全面的信息保护方案。
|
2天前
|
存储 SQL 安全
网络安全与信息安全:保护数据的关键策略
【4月更文挑战第24天】 在数字化时代,数据成为了新的货币。然而,随着网络攻击的日益猖獗,如何确保信息的安全和隐私成为了一个亟待解决的问题。本文将深入探讨网络安全漏洞的概念、加密技术的重要性以及提升安全意识的必要性,旨在为读者提供一套综合性的网络安全防护策略。通过对这些关键知识点的分享,我们希望能够增强个人和组织在面对网络威胁时的防御能力。
|
2天前
|
监控 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息保护策略
【4月更文挑战第24天】 随着企业数字化转型的加速,云计算作为提供灵活、可扩展资源的关键平台,其安全性已成为企业关注的焦点。然而,云服务的共享性和开放性给传统的网络安全防护带来了新的挑战。本文将探讨云计算环境中面临的安全威胁,并针对这些威胁提出相应的防护措施和最佳实践,以期为信息安全管理者提供参考和指导。
5 0
|
3天前
|
存储 监控 安全
云端防御战线:云计算环境下的网络安全策略与实践
【4月更文挑战第23天】在数字化转型的浪潮中,云计算已成为推动企业敏捷性、可扩展性和成本效率的关键因素。然而,随着数据和服务迁移至云端,传统的网络边界逐渐模糊,给网络安全带来了前所未有的挑战。本文探讨了在多租户云环境中维护信息安全的先进策略和技术,分析了云服务模型(IaaS, PaaS, SaaS)特有的安全风险,并提出了一系列针对性的安全措施和最佳实践。通过深入讨论身份与访问管理、数据加密、入侵检测系统以及合规性监控等关键技术,本文旨在为读者提供一套全面的云计算安全防护框架。
5 0
|
4天前
|
监控 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息保护策略
【4月更文挑战第22天】随着企业和个人用户对云服务的依赖日益加深,云计算环境的安全性成为信息技术领域关注的焦点。本文深入探讨了云计算平台面临的安全威胁、信息安全管理的挑战以及前沿防御技术。通过分析数据加密、身份验证、入侵检测等关键技术在云服务中的应用,提出了一个多层次、综合性的网络安全策略框架。此框架旨在为云服务提供商和使用者提供一套实用的安全保障措施,确保云资源的安全高效运营。
|
5天前
|
安全 物联网 网络安全
网络安全与信息安全:防御前线的关键技术与策略
【4月更文挑战第21天】在数字化时代,数据成为了新的货币,而网络安全则是保护这些资产不受威胁的盾牌。本文深入探讨了网络安全漏洞的本质、加密技术的进展以及提升个人和企业安全意识的方法。通过分析当前网络攻击的模式和动机,我们提出了一系列切实可行的防御措施,旨在帮助读者构建更加安全的网络环境。
|
6天前
|
存储 安全 网络安全
云端防御策略:融合云服务与网络安全的未来之路
【4月更文挑战第20天】 随着企业数字化转型的加速,云计算已成为支撑现代业务架构的关键。然而,伴随其发展的网络安全威胁也不断演变,对信息安全提出更高要求。本文将深入探讨在动态云环境中实现网络安全防护的策略和技术,包括最新的加密技术、身份验证机制以及入侵检测系统等。通过分析当前云服务中的安全挑战,并结合前沿的网络安全技术,旨在为读者提供一个关于如何在享受云计算便利的同时保障数据安全的全面视角。
|
6天前
|
存储 安全 网络安全
构筑安全之盾:云计算环境下的网络安全与信息保护策略
【4月更文挑战第19天】随着云计算技术的飞速发展,企业和个人越来越依赖于云服务来存储、处理和交换数据。然而,这种便利性背后隐藏着潜在的安全风险。本文深入探讨了在云计算背景下,如何通过综合性的安全措施和策略来强化网络安全防护,确保数据的完整性、可用性和机密性。我们将分析当前面临的主要安全挑战,并基于最新的技术进展提出相应的解决方案,以期达到有效防御外部威胁和内部漏洞的目的。
16 4
|
7天前
|
存储 安全 网络安全
构建坚固的防线:云计算环境下的网络安全策略
【4月更文挑战第19天】 随着企业纷纷迁移至云平台,云计算已成为现代信息技术架构的核心。然而,数据存储与处理的云端化也带来了前所未有的安全挑战。本文深入探讨了在复杂多变的云环境中,如何实施有效的网络安全措施,确保信息安全和业务连续性。通过分析云服务模型、网络威胁以及加密技术,提出了一系列切实可行的安全策略,旨在帮助组织构建一个既灵活又强大的防御体系。
16 1