Deep Learning Meta Learning Bayesian

Bayesian MAML

MAML 的贝叶斯解释

Renovamen
2020-09-04
2 min

为了引入不确定性和多找一个发论文的话题,MAML 还可以用贝叶斯视角来理解。

# MAML 回顾

之前的一篇文章中已经介绍了 MAML(Model-Agnostic Meta-Learning),一种 gradient-based 的 meta-learning 方法。其目标是学习出一组初始化参数 θ\theta,对于任意任务 Ti\mathcal{T}_i,这个初始化参数都能在一步或极少步梯度下降中就快速达到最优参数解 θi\theta_i^*

大致回顾一下它的算法流程,对于采样出的任务 Ti\mathcal{T}_i

  • inner loop(meta-learner):在 Ti\mathcal{T}_i 的 support set 上计算梯度并更新参数,得到更新后的参数 θi\theta_i'θi\theta_i' 只是一个临时参数,并不会作为最终的更新:

    θi=θαθLTi(fθ)\theta_i' = \theta - \alpha \nabla_\theta L_{\mathcal{T}_i}(f_\theta)

  • outer loop:用 θi\theta_i' 在 query set 上计算损失,然后θ\theta 求梯度,并在 θ\theta 上更新出最终的参数:

    θθβθTip(T)LTi(fθi)\theta \larr \theta - \beta \nabla_\theta \sum_{\mathcal{T}_i \thicksim p(\mathcal{T})} L_{\mathcal{T}_i}(f_{\theta_i'})

所以它的优化目标可以总结为:

θ=argminθTip(T)LTiquery(θαθLTisupport(fθ))\theta = \arg \min_\theta \sum_{\mathcal{T}_i \thicksim p(\mathcal{T})} L_{\mathcal{T}_i}^{\text{query}}(\theta - \alpha \nabla_\theta L_{\mathcal{T}_i}^{\text{support}}(f_\theta))

# 参考