ARD 与 Spike and Slab

ARD(automatic relevance determination)是 Bayesian 里面的一项技术,通常它为每个参数给定一个参数不同的 Gaussian 参数(主要是方差不同,均质一般设为 0),这些参数通过 type II MLE 进行求解(或者直接使用梯度类型的 optimizer,一般认为 CG 是不错的选择;或者使用 EM;似乎还有所谓 MacKay updates?)。在求解过程中,某些方差(或者 precision)会趋于 0(无穷大),这表示这个参数将会渐近于 0。

ARD 的应用包括

  • RVM(relevance vector machine),这可以看成是 kernelized GLIM 的 Bayesian 版本,通过 ARD 使得只有一部分结果对最终的 model 有贡献,从而获得了与 SVM 类似的稀疏性
    • 对 linear regression 来说,由于 model 和 prior 都是正态,此 training 得到 closed-form solution
    • 对 logistic regression 来说,在 marginalize 掉参数部分时积分并不好求,往往用 Laplace approximation 得到的 MAP 代入用点估计近似,最后可以获得类似的结果
  • 似乎还有用在 matrix factorization 等问题上的和证明与 L^1 regularizer 或者某些 prior 下 MAP 估计的关系(见此
  • 不知道这个策略与 Gaussian process 之间是否能有点 connection?

Spike and Slab 这个 prior 简而言之就是将一般的连续分布与一个 delta 分布混合起来,delta 分布一般加上先验的一个参数值(也可以通过 training 调整),这样在计算 MAP 估计的时候存在两种可能:后验是连续分布(如共轭先验导致的后验)或者是常数。

Spike and Slab 的应用包括

  • 最早似乎出现在 linear regression 做 feature selection,但是感觉这样一来仍然是个计算困难的问题
  • 前面通过 Spike and Slab 为 Poisson-Gamma model 更换先验可以帮助我们将某些情况的比例预测的更符合实际情况
  • 在 RBM 中使用 Spike and Slab 为隐层变量做成一个带选择的情形:或者取某个 Gaussian 或者取 0,这样对原先 Gaussian RBM(visible layer 为 Gaussian)的情形进行了一定的增强,更适合 model natural image。这方面的研究似乎没有跟上 Hinton 和 Bengio 最近的一些动向了 -,-b 这并不是当做 prior 来用

这 两个技术都可以看成是 Bayesian 产生 sparseness 的技术,也就是常说的 Sparse Bayesian Learning 所使用的技术。后面可以分别看看一些最新的成果,学习一些其他的用例,比较关心的是什么时候应该用 ARD 什么时候用 Spike and Slab 呢?

——————
And his concubine, whose name was Reumah, she bore also Tebah, and Gaham, and Thahash, and Maachah.

Advertisements
ARD 与 Spike and Slab

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s