PGM 读书笔记节选(九)

这部分介绍 sampling 方法,书上也称为 particle-based method,这是因为每一个从分布中采集到的样本可以看成是一个 particle(instantiation of r.v.),而我们的 inference 借助了 particles。

比较简单的问题就是 forward sampling,比如一个 BN,如果我们希望得到联合分布下的样本,我们可以按照分解关系依照 topological order 进行采样,确定了先验后,后面的 r.v.s 就可以使用 CPD 进行采样了。这时的问题是对于某个事件 \Pr (y) 我们如何进行估计?其实很简单,我们在采样获得的 x_i 中看看哪些包含这个 y 的赋值,进行计数,其占整个样本的比例我们记为 \hat{\Pr}_{\mathcal{D}}(y),Hoeffding bound 揭示了这个估计的准确程度(大数定律):

\Pr( \hat{\Pr}_{\mathcal{D}}(y) \not\in [\Pr(y) - \varepsilon, \Pr(y) + \varepsilon]) \leq 2e^{-2N\epsilon^2}

利 用这个 bound 我们可以推算出来给定 \delta 与精度 \varepsilon,如果希望以 1-\delta 概率以上不等式满足需要多少样本。这是一个绝对误差,对于相对误差来说一般使用 Chernoff bound

\Pr( \hat{\Pr}_{\mathcal{D}}(y) \not\in \Pr(y)[1 - \varepsilon, 1 + \varepsilon]) \leq 2e^{-2N\Pr(y)\epsilon^2/3}

对条件概率来说这个问题一般是用 rejection sampling 的策略,比如我们需要计算 \Pr(x \mid e),抽取 particles 之后我们可以仅仅使用满足 e 的样本,然后仍然使用前面的策略,这时有效的样本仅仅占 \Pr(e)

rejection 导致样本的利用率降低,为此一个常用的策略是 importance sampling。一种错误的做法是我们在 foward sampling 产生样本碰到 evidence r.v.s 后直接取我们观测的值,但这并没有考虑到其父节点产生它自己的概率,为此我们必须为每个样本进行适当的调整(加权),使得不大可能产生的样本对应权值会相 对较低,我们可以在产生过程中碰到 evidence 时修改权值 w,它初始为 1,没碰到一个 evidence 就在上面乘以对应的 CPD。如此一来我们产生的样本都与 evidence compatible,但多余了一个权值,我们在计算条件概率时把原先的计数相除换成权值和相除即可。这个技术可以看成通过 likelihood 进行 weighting,因此称为 likelihood weighting。而对应的 particle 由于关联了一个 weight,也称为 weighted particle。但是这种方法为什么给出的渐进结果收敛到真实值呢?我们可以用 importance sampling 来搞定。

importance sampling 是借助另外一个分布 Q(x) 来求一个采样困难的分布 P(x) 的 inference 的手法,我们的目标是获得

\displaystyle \int f(x) P(x) \, \mathrm{d} x \approx \frac{1}{N}\sum_{i = 1}^N f(x_i)

我们这里近似的时候 x_i 是来自 P 的 i.i.d. r.v.s,importance sampling 使用 x_i \sim Q,且每个样本伴随有一个 weight,w_i = P(x_i) / Q(x_i),最后的估计是

\displaystyle \int f(x) P(x) \, \mathrm{d} x \approx \frac{1}{N}\sum_{i = 1}^N w_if(x_i)

很容易证明这个 unnormalized importance sampling 获得的是无偏估计。如果我们对 P 并不了解,而仅仅能计算出来 \tilde{P},这时我们就需要使用 normalized importance sampling,

\displaystyle \int f(x) P(x) \, \mathrm{d} x \approx \frac{1}{\sum_{i = 1}^N w_i}\sum_{i = 1}^N w_if(x_i)

这个估计不是无偏的,且很难计算其方差。那么为了说明 likelihood weighting 的确能得到我们需要的效果,我们可以提供对应的 importance sampling 下的对应辅助分布。为此我们引入所谓 mutilated network,这是将原先的 BN 进行某种程度的修正,去掉给定 r.v.s. 中父节点的边,将给定的 r.v.s. 的 prior 设置为 deterministic 类型(反应其给定的值),这样在这个新的 BN 上我们的分布作为 P,而原函数作为辅助函数,使用 importance sampling,此时我们需要说明这个 BN 对应的是我们需要的采样分布(比较显然,因为给定的都是先验),而此时如果从原分布里面采样与给定值不相符就会得到一个 0 weight。

事实上 importance sampling 也能处理没有 condition/observation 的情况,这时我们的 P 可以选择 query r.v.s 上的 \delta 函数的乘积。这样我们就可以利用 importance sampling 上面获得的 bound 来分析这些 sampling 的收敛情况了。对条件分布,我们可以转换成为前面两种 case,分别 unnormalized 采样,然后做比(这也称为 ratio likelihood weighting);或者使用 normalized 采样,这样相比时也能约掉(称为 normalized likelihood weighting)。这里仅仅谈到了 forward sampling,importance sampling 还包括 backward sampling(有 evidence 的时候 sample reason?)

一类很重要的算法称为 MCMC(Markov Chain Monte Carlo),其中一个典型的代表就是 Gibbs sampling,这是我们已知所有条件分布时,从条件分布获得样本来 simulate 联合分布下样本的算法。这个方法是计算有效的,这是因为我们根据这个算法发现条件概率其实仅仅于与该变量相关的 factor 有关系,并且无所谓是 normalized 还是 unnormalized factor。

这种方法归到 Monte chain(离散状态离散时间 Markov 过程),描述这个过程需要 transition matrix、prior。如果某个分布 \pi 满足 \pi(x) = \sum_{y} \pi(y) \tau (y, x),则称为 transition probability 为 \tau 的 Markov chain 的 stationary/invariant distribution。比较重要的一些性质包括周期性(periodic),可约性(reducible,存在多个 stationary distribution,对应 transition matrix 是 reducible),ergodic(一个状态称为 ergodic 当且仅当其是非周期的,重现概率大于零,对不可约 Markov 过程如果所有状态为 ergodic 则称其为 ergodic)。在这里我们将 ergodicity 定义为 regularity,一个 Markov chain 称为 regular 当且仅当存在 k,对任意 x, x',从 x 通过 k 步迁移到 x' 的概率大于零。可以证明 regular Markov chain 存在唯一的 stationary distribution。

以上是对于单变量的 Markov chain,对于 PGM 而言,我们可以是一个很复杂的 transition,也可以将这个 transition 定义在单个变量上,这样每个 transition 就可以认为是一个 kernel,且某些情况我们观测到的 transition 是随机选择某个 kernel 之后得到的结果,这样我们就可以换一个角度来理解 Gibbs sampling 的过程,其每步随机变量的 transition 是依赖于其他的变量而不是当前的取值。同时 Gibbs sampling 的思想可以用在 block 上,即我们不是一个变量一个变量的做 transition。

除了 Gibbs sampling 以外,我们还有一类更广义的构造需要的分布是某个 Markov chain 的 stationary distribution 的算法。它基于所谓的 reversible Markov Chain 的概念,即如果一个 Markov chain 存在唯一一个分布 \pi,使得 \pi(x) \tau(x, x') = \pi(x') = \tau(x', x),任意两个状态互相转移的概率相等,这个称为可逆 Markov 过程,这个方程称为 detailed balance。事实上一个 regular Markov chain 如果是 reversible 的,满足 detailed balance 方程的分布就是 stationary distribution。所谓的 Metropolis-Hastings 算法需要一个 proposal distribution 作为 transition probability,为了使得获得的 transition 以 \pi 作为 stationary distribution,我们只需要让它满足 detailed balance 方程,这使得我们需要用某种方式修正这个 proposal distribution,这个 idea 源自 rejection sampling,即我们接受 transition 当且仅当额外的 [0, 1] 上均匀分布随机变量小于 \mathcal{A}(x, x') = \min\{ 1, \frac{\pi(x') T(x', x)}{\pi(x) T(x, x')}\},这也称为 accepting probability,这样一来我们真实的转移概率就变成了 T(x, x')\mathcal{A}(x, x'),容易证明 \pi 满足该 Markov chain detailed balance 方程,因为成为了 stationary distribution。

对于 PGM 来说,如果希望获得联合分布的样本,使用 MH 算法的一种思路是为每个随机变量给出一个 proposal distribution,此时定义的 accepting probability 中 P(x_i', x_{-i}) / P(x_, x_{-i}) 具有和 Gibbs sampling 类似的优点,非常容易计算。事实上,Gibbs sampling 只是选择了某个特殊的 proposal distribution(也很明显正好是条件分布,这样能跟前面一部分约掉),使得 accepting probability 为 1。

那么使用 Markov chain 获得我们需要的稳态分布的样本如何与我们的 inference 问题发生关系呢?前面的方法都是 i.i.d. 样本,所以我们可以有一些界帮助我们 justify 算法的合理性,这里样本明明不独立,那会有什么样的性质呢?首先,为了使用来自 stationary distribution 的样本,我们必须等待 Markov chain 进入“足够好”的阶段,为此我们定义了所谓 \varepsilon-mixing time,也就是分布与稳态分布的 KL divergence 小于 \varepsilon 的最小时间。可惜对 PGM 来说并不存在一些有意义的 mixing time 的 bound 分析。关于使用稳态分布样本进行估计,我们有如下渐进收敛结果,即通过 MC 样本获得的估计会收敛到以真实期望 \mathbb{E}_P (f) 为均值的正态分布,其方差比较复杂,但是是有限的。为了减少估计的方差,如何选择合适的 transition 是非常重要的,一般的原则是让状态能够较快/大的变化。实际应用中比较好的策略是通过几个并行的 MC,等待 burn-in 之后,通过几个结果上的比较可以获得收敛性上的判断。

一类减少 MC 方法方差的手法称为 Rao-Blackwellization,其核心思想就是能通过闭式解搞定的就闭式解,迫不得已才用 MC,这反应在 particle-based 的方案中就是所谓的 collapsed particles(采样后只有一部分随机用来通过样本进行估计,另一部分通过闭式解搞定),这种情况下我们把 x = (x_p, x_d),前部分是通过 particle 这类做法求,而后面是有 \Pr(x_d \mid x_p) 的闭式表达,这样计算 \mathbb{E} f 时我们可以用

\displaystyle\mathbb{E} f = \sum_{x_p} \Pr(x_p) \sum_{x_d} f(x) \Pr(x_d \mid x_p)

首先产生联合分布样本,而仅仅用 x_p 部分,每一个样本对应的 \sum_{x_d} f(x) \Pr(x_d\mid x_p^{(i)}) 由于可以获得闭式解,我们就可以不使用对应 x_d 部分的值,而是给出解析解。这种方法很容易应用到 importance sampling、MCMC 里面去,这会大大减少估计的方差。

对于某些情况,分布集中在少数几个 x 取值上,直接使用 sampling 的方案会非常慢,这时使用所谓的 deterministic search method 会更好,此时直接将高概率出现的取值拿出来,然后用他们的加权和即可(会不会一致的偏小/大?)。

——————-
And to Sarah he said, Behold, I have given your brother a thousand pieces of silver: behold, he is to you a covering of the eyes, to all that are with you, and with all other: thus she was reproved.

Advertisements
PGM 读书笔记节选(九)

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s