重读 ESL(九)

无向图模型

无向图模型与 Bayesian belief network 有着不同的统计性质,比较重要的有其定义的等价表述,另外还有表示定理(Clifford-Hammersly 定理)告诉我们一般意义下的无向图模型对应的基本形式。ESL 在这方面介绍的不是特别详细。并且主要注重介绍连续变量下并且只有二阶关系的情况(因此是简化的模型,如 3-clique 分解成为三个 2-clique 的乘积其实是对模型的简化),这也称为 pairwise Markov graphs,比如 multivariate Gaussian 可以看成一个无向图模型,其变量间的相关性(二阶)就能刻画对应的条件独立性(对这种情况不相关等价于独立)。

比较重要的结论是通过协方差矩阵 \Sigma 的逆 \Theta 可以刻画这个 graph 的边是否存在(如果 \Theta 对应元素为 0,则对应的边不存在)。这样对于 MLE 估计来说,如果已知 graph structure,就会引入 \Theta 上的约束,这往往通过 Lagrange multipliers 来进行求解。求解过程最后仍然是规约到线性回归问题,但是带有线性约束。

如果 graph structure 本身也是未知的,一种可能的策略是在 negated log-likelihood 上加上 L^1 的 regularizer,利用 lasso 将非零的 \Theta 元素选择出来。这样我们就获得了需要的 graph structure。利用 LARS 这类方式可以获得整个 regularization path,这样我们就可以看到随 regularization coefficient 的变化导致图的边的增加过程。

对离散变量来说,经典的 undirected graphical model 就是 Boltzmann machine,这是一个 clique,其简化的版本有所谓的 restricted Boltzmann machine。Geoffrey Hinton 提出了所谓的 contrastive divergence 给出了一种训练 RBM 的方案。对于 BM 自己,一般策略有 simulated annealing,IPF(iterative proportional fitting),或者近似的策略如 mean field approximation 或者 Gibbs sampling。

这一章应该是非常理论化的,不过看完觉得写得比较概述,后面看一些相关 paper 可能比较有帮助。

高维问题

这部分讨论的是样本维数大于样本数这种情况下使用的一些策略。第一个策略就是使用 regularization 避免过多的 feature 参加了 fitting,如 regression 问题我们引入的 degree of freedom 就是一个很好的例子,控制模型的 degree of freedom 就能从某种程度避免以上问题。可以选择的 regularizer 一般是 L^2 或者 L^1,后者可以利用类似 LARS 的方法进行求解。

另一种策略是使用 supervised principal components,这实际上是直接用单 feature 对目标进行回归,只有作用足够明显的(系数绝对值足够大)feature 参加到最后的 principal components 里面。

另外一种从统计方法来说,选择 feature 是一个所谓 multiple testing 问题,使用的一个准则可以是 FWER(family-wise error rate),但是这并不容易操作,可以操作的有所谓 FDR(false discovery rate),这通常使用 Benjamini-Hochberg 过程(基于 p-value 的方法)来进行测试。

最后一种策略是比较有意思的,不过作者似乎都是为了求解 bioinformatics 问题设计的策略。这部分也相对比较偏 theory,同样需要看一些相关的 paper。

至此这本书基本重新读完,某些章节还是欠了不少债的。下面开始还债啦…

—————–
And Lot also, which went with Abram, had flocks, and herds, and tents.

Advertisements
重读 ESL(九)

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s