最前沿:百家争鸣的Meta Learning/Learning to learn

如题所述

Meta Learning,或称作学会学习,已成为人工智能理论研究的重要分支。从人工智能的发展趋势来看,呈现出一个从基础到应用的逐步深化过程:Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning。


这种发展路径完全依赖于当前人工智能的现状。在Machine Learning时代,对于复杂分类问题的处理效果不佳。深度学习的出现解决了单一映射问题,例如图像分类,但当输出对下一个输入有影响时,深度学习就力不从心。此时,增强学习(Reinforcement Learning)填补了这一空白。随后,深度增强学习(Deep Reinforcement Learning)的出现,使序列决策问题初步取得成效。然而,深度增强学习在处理大规模训练数据和精确奖励机制上存在局限性。对于现实世界中的问题,如机器人学习,这些问题无法解决。此时,快速学习的能力成为了关键,而人类能够快速学习的原因之一是具备学会学习的能力,能够利用过往知识和经验指导新任务的学习。因此,Meta Learning成为解决这一问题的关键所在。


同时,星际2游戏中的DeepMind使用现有深度增强学习算法的失效,揭示了当前深度增强学习在处理复杂动作空间问题上的局限性,尤其是需要策略和战术思考的问题。这一现象凸显了通用人工智能中的核心问题——如何使人工智能学会思考和推理。AlphaGo通过在棋盘特征输入到神经网络的过程中实现思考,但其动作空间相对有限,与星际2的复杂性相差甚远。人类在面对大量选择时依然能够高效解决问题,关键在于通过策略和战术降低选择范围。因此,Meta Learning,因其具备学会学习的能力,被看作是解决人工智能学会思考这一高难度问题的潜在方法之一。


经过上述分析,可以得出Meta Learning是实现通用人工智能的关键。


在本专栏的前两篇文章中,我们已经探讨了Meta Learning相关概念。从本篇开始,我们将直接使用Meta Learning这一名称,以更专业、更酷的形象展示这一领域。


以下是一些Meta Learning的前沿研究进展,展现出百家争鸣的阶段:


Meta Learning百花齐放的研究思路


Meta Learning的研究之所以呈现百家争鸣的局面,是因为每家的研究思路都各具特色,展现出多样化的尝试。


以下是收集到的部分Meta Learning相关论文:



    songrotek/Meta-Learning-Papers

接下来,我们将分门别类地分析这些研究,以简要的方式展示这些最前沿的研究进展。


基于记忆的方法

基本思路:通过在神经网络中添加记忆模块,利用过往经验来指导学习。


代表论文:[1] Santoro, Adam, et al. "Meta-learning with memory-augmented neural networks." In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.


论文示例网络结构展示了如何将上一次的标签作为输入,并添加外部记忆存储上一次的输入,从而在下一次输入时利用外部记忆进行预测。


基于预测梯度的方法

基本思路:预测梯度以提高学习速度,通过预测梯度指导神经网络的学习。


代表论文:[1] Andrychowicz, Marcin, et al. "Learning to learn by gradient descent by gradient descent." In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016.


论文提出训练一个通用神经网络来预测梯度,显著加快了优化过程。


利用Attention注意力机制的方法

基本思路:利用过往任务训练注意力机制,面对新任务时直接关注关键部分。


代表论文:[1] Vinyals, Oriol, et al. "Matching networks for one shot learning." In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.


论文构造了注意力机制,通过g和f函数计算注意力权重。


借鉴LSTM的方法

基本思路:LSTM内部更新类似于梯度下降,通过LSTM结构训练神经网络更新机制。


代表论文:[1] Ravi, Sachin, and Hugo Larochelle. "Optimization as a model for few-shot learning." In International Conference on Learning Representations (ICLR), 2017.


论文探讨了如何将LSTM的更新与梯度下降联系起来。


面向RL的Meta Learning方法

基本思路:将Meta Learning应用于增强学习,通过增加外部信息输入如奖励和先前动作,实现任务级别信息的学习。


代表论文:[1] Wang J X, et al. "Learning to reinforcement learn." arXiv preprint arXiv:1611.05763, 2016.


论文通过额外输入奖励和之前动作,强制神经网络学习任务级别信息。


训练通用基础模型的方法

基本思路:通过训练一个更好的基础模型,同时应用于监督学习和增强学习,实现更通用的学习能力。


代表论文:[1] Finn, Chelsea, et al. "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks." arXiv preprint arXiv:1703.03400, 2017.


论文提出同时启动多个任务,获取不同任务学习的合成梯度方向来更新基础模型。


利用WaveNet的方法

基本思路:利用WaveNet充分使用过往数据,实现Meta Learning。


代表论文:[1] Mishra N, et al. "Meta-Learning with Temporal Convolutions." arXiv preprint arXiv:1707.03141, 2017.


论文直接利用历史数据,效果显著。


预测损失的方法

基本思路:构造模型预测损失,以提高学习效率。


代表论文:[1] Flood Sung, et al. "Learning to Learn: Meta-Critic Networks for Sample Efficient Learning." arXiv preprint arXiv:1706.09529, 2017.


论文构建了Meta-Critic网络来预测Actor网络的损失,对于强化学习而言,损失即为Q值。


综上所述,Meta Learning领域百花齐放,展示了多样化的创新思路。然而,真正的杀手级算法尚未出现,期待这一领域未来的发展。同时,鼓励更多研究者参与到Meta Learning的研究中来,共同推动人工智能技术的进步。

温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜