MLAPP 读书笔记(二)

这里主要 cover 原书的前 4 章,最最基本的概念什么的。

Introduction

什么是 machine learning,又见 big data,稍微提了一下 long tail 问题。进而介绍 ML 的分类,很可惜本书照例不提 reinforcement learning 的一些细节,这倒是让我觉得后面应该找本 reinforcement learning 的书入个门什么的。监督学习里面稍微提了一下 multi-label 问题,解释了一下 MAP 估计(本书最常用的 inference),比较好奇的是 Google 的 SmartASS。后面是 regression,比较好奇的是某些书上倾向于称求解 Pr(y \mid x) 为 regression,而且这个似乎更说的通,比如按照这个书上的说法分类器 logistic regression 似乎是做分类的,但是名字里面可是有 regression 的,非常容易让人混淆。非监督学习里面给了 density estimation、clustering、latent factor、graph structure learning、matrix completion 和 frequent itemset detection 这个几个例子。

基本概念觉得讲少了,兴许有的概念我更倾向放在这个部分来说?curse of dimensionality,必讲科目,而例子又是 kNN;overfitting、model selection,稍微提了一下几个 error,ESL 这块都讲 bias variance tradeoff 了,看来果然讲的比较浅,提了一下 cross validation。no free lunch theorem,讲的真的太少了。

Probability

作者估计还是 Bayesian(但是又是比较懒的 Bayesian :-))。这部分开始提了一些 frequestist 和 Bayesian 观点上的区别,感觉不是那么深入,后面接着是离散随机变量相关的概念,PMF、概率的一些基本运算、Bayesian rule、independence 和 conditional independence,中间给了个 generative classifier 的例子,但是感觉这样定义 generative model 有点点不大准确,anyway 个人还是比较喜欢自己的那个理解。连续分布讲了点 PDF 之后不知道为啥就开始讲 quantiles、mean、variance 了。后面两个重要的例子:

  • binomial 和 Bernolli 分布,对应的有 multinomial 和 multinoulli 分布(后者这个名字难道是生造的,没听说过 =.=)
  • Poisson 分布,计数常用
  • Gaussian 和 student-t(两特例 Cauchy distribution 和 Lorentz distribution)
  • Laplace 分布
  • Gamma 分布、Beta 分布

感觉这部分只讲分布而没有具体的性质分析,也没有结合一些例子,有点太单薄了。之后联合分布,协方差、相关系数,多元 Gaussian、student-t、Dirichlet distribution。分析了一些随机变量变换后的性质,比如线性变换后期望、方差的变化。

中心极限定理,最直接的应用就是 Monte Carlo 方法;信息论里面介绍了点熵和 KL divergence。比较重要的就是 information inequality 了。然后 mutual information 是不可少的,对应相关系数这里讨论下连续随机变量的 maximal information coefficient,似乎是个有意思的概念。

Generative models for Discrete Data

这部分比较有意思的无非是 beta-binomial 和 Dirichlet-multinomial 模型,结合了一个文本分类的例子。其他有意思的结论有

  • MAP 估计随样本数增多会收敛到 MLE,这个可以将 log-likelihood 变形一下:\prod_{i = 1}^N \Pr(x_i \mid \theta) \Pr (\theta) \Rightarrow \frac{1}{N}\sum_{i = 1}^N\log \Pr (x_i \mid \theta) + \frac{1}{N}\log \Pr (\theta) ,后一项与 N 无关当 N\to \infty 时就会收敛到 0;
  • Bayesian model 很多时候做 online update 和 batch update 完全一样,某些时候后验需要近似的时候也可能证明类似的结果,为了在 online 情况下避免样本太大后方差的收缩,需要加上一定的遗忘因子
  • 对 Beta-binomial 分布来说,后验均值是先验均值与 MLE 的凸组合,比例正好是样本数和 effective 样本数的比例
  • Beta-binomial 的多维扩展就是 Dirichlet-multinomial
  • 计算 log of sum of exp 的技巧是先把 exp 部分最大的抽出来,这部分跟 log 作用结果可以很容易计算,剩下的再去 exp 计算可以避免直接 exp 挂掉
  • 文本分类里面虽然 multinomial 比较常见但是可能並不太 work,解释了一下 burstiness(单词或者不出现,出现的话可能连续多次),后面介绍了一下一个修正后的 model,就是把 multinomial 乘上 Dirichlet 之后积掉参数得到的 urn model

Gaussian models

Gaussian 模型 MLE 和最大熵性质之后跟 ESL 类似有 discriminant analysis,generative model 和对应的 discriminative model,其他有意思的还有:

  • LDA、QDA 之类的肯定会讲一些常见的 regularization 策略,如对角扰动(对应 Bayesian 版本的解释),限制协方差矩阵为对角阵等
  • 为了讲多元 Gaussian 的一些性质,便于介绍更多的 model 讲了很重要的 Schur complement 和 Sherman-Morrison-Woodbury formula 和 matrix determinant lemma,这在后面的计算中经常用到,有空自己推推吧
  • 介绍了一点 LDS 的基本东西,比如 Gaussian 的线性变换还是 Gaussian,类似 GP 的东西也讲了一点
  • Wishart 分布和逆 Wishart 分布,这部分应该是为多元 Gaussian 的共轭先验准备的,通过这部分就可以解释前面的 regularization 了,这部分也最好自己推导一下
  • Gaussian 到 t 分布的部分也很重要,对应的 t-test、Baysian t-test 也是新的东西

这两章还是很数学的,花时间推导是很重要的部分,blog 上就不赘述了。

——————
Whereas thou hast searched all my stuff, what hast thou found of all thy household stuff? set it here before my brethren and thy brethren, that they may judge betwixt us both.

Advertisements
MLAPP 读书笔记(二)

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s