在greedy策略当中的值越大

如题所述

在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越大,采用当前Q函数值最大的动作的概率越小。

贪心策略是一种每一步都采取当前状态下最优的选择(局部最优解),从而希望推导出全局最优解的一种策略。在我们之前文章里讲到的算法中,最小生成树算法Prim、Kruskal和最短路径算法Dijjstra都是采用的贪心策略。下面我们通过探讨一下几个问题来了解贪心策略。

一、最优装载问题

Q1:在北美洲东南部,有一片神秘的海域,是海盗最活跃的加勒比海。

1、有一天,海盗们截获了一艘装满各种各样古董的货船,每一件古董都价值连城,一旦打碎就失去了它的价值。

2、海盗船的载重量为W,每件古董的重量为Wi,海盗们该如何把尽可能多数量的古董装上海盗船?

3、比如W为30,wi分别为3、5、4、10、7、14、2、11。

二、分析

贪心策略:每次都选择重量最小的古董。

1,选择重量为2的古董,剩承重为28。

2,选择重量为3的古董,剩承重为25。

3,选择重量为4的古董,剩承重为21。

4,选择重量为5的古董,剩承重为16。

5,选择重量为7的古董,剩承重为9。当第5步时,载重船已经不足以在多装载一个古董了。最终总载数量为5。

温馨提示:答案为网友推荐,仅供参考