推荐系统(三)

这里主要讨论 content-based RS 以及 conversational RS。

基于内容的推荐从某个角度上来看更接近于“vertical search”,为什么这么说呢?搜索,特别是今天 free text search 大行其道,很基本的一个任务就是获得“与 query 相关的文档”,而基于内容的推荐其实就是“和某个文档相似的文档”或者“和某个用户相似的文档”。很自然我们就存在下面几个问题:

  • content analyser,对内容进行抽取获得结构化的表示(如抽取 unigram、phrase 或者 entity)
  • profile learner,对结构化的数据(甚至某些 feedback 数据)进行学习,对用户进行表示
  • filtering component,这其实是对数据进行 retrieval 的过程

比较典型的做法有:

  • content 使用 word 对应权重使用 tf-idf,profile 就使用用户浏览过网页的 word,filtering 可以简单使用 IR 的策略(VSM 模型),建倒排索引
  • content 使用 bag of words,并使用一个 topic model 获得 latent semantic space 的表示,profile 使用浏览过内容的表示的加权和,filtering 可以使用类似 WAND 的 retrieval 策略;

对于这个解决方案,常使用 like/dislike,rating 或者 text comments(sentiments analysis)进行分析。从某个角度来说 sentiments 与 contents 分析是两个相对正交的领域,如果我们推荐的 item 本身的 description 较少,我们往往会在系统里面加入 crawler 从外界爬取相关的信息作为补充,常见的信息来源之一就是用户的 review,那么很重要的一步就是将 sentiments 较强的词汇从 topic 中去掉,这可以从 topic model 本身下手。另外一种是将 ontology 引入 topic model。

VSM 中比较常见的 feedback 模型就是 Rocchio’s algorithm。除了以上 VSM 策略将用户的 profile 和 content 统一到同一空间的做法以外,我们还可以使用分类器对用户的 feedback 进行 online learning(如果有长时间的积累,可以只做 offline 的 model),这也就是说比如选择用户阅读过的 item 作为正例,随机选择一些展示过但没看过的作为负例,这样可以训练一个比如 naive Bayesian classifier 作为 ranker。

这个解决方案的优点比较明确:user independence(不利用用户群体的信息,这是针对 collaborative filtering 这类做法而言),transparency(即 relevence 导致的 recommendation,用户比较容易理解),new item 能很容易的加入系统(只要有 content 本身就能做);但是缺点也很明显,limited content analysis(内容描述涵盖的东西如果比较局限,这类方法不会获得很好的效果,某些时候需要 domain knowledge),over specialization(相关并不见的是好的推荐,而且 content 相似会导致整个 feedback 机制也比较贫乏),对新用户支持较难(没有历史数据因此 profile 可信度不高)。

这个领域里面一些新的想法大约有:使用 UGC 帮助我们更好的了解用户的兴趣,如 delicious 里面的 tag,另外就是如何将 serendipity 引入,很多现在的算法仅仅是将过于相似的 item 抛弃掉。

当然基于内容的推荐还有一种策略是“conversation”:通过与用户的交流获得更加明确的偏好,往往这种 RS 需要:

  • dialogue manager 决定如何与用户交流;
  • speech generator/recognizer 作为 user interface,文本在这种条件下可能比较困难(也不是完全不可以,比如聊天机器人)

很多时候这种 conversational system 很依赖于 domain knowledge,因为很多 query 都是对前面的 fine tune(增加某些 constraints 等),那么 dialogue manager 就可以将 frequent constraints 加入到今后的默认搜索条件里面(如果 retrieve 出来的结果太多)。这还停留在比较表层的 personalization 上,也算是为 content-based RS 提供额外的一种思路吧。

——————-
As for me, behold, my covenant is with you, and you shall be a father of many nations.

Advertisements
推荐系统(三)

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s