一个简单的项目

目标

熟练各个工具,了解一些基本概念在实际问题中的应用,搜集一些实时的数据,方便自己浏览某些网页。

architecture

architecture

资源

主要有下面几个东西:

  • 爬虫 scrapy (文档)前面有一个例子,非常好用的小玩意,支持 server 和 pipeline 处理;
  • scrapy 的输出使用 mongodb 进行存储(一个对应 pipeline 的实现见这里,其实估计自己写也没什么工作量),这里用 mongodb 纯粹为了赶时髦
  • django 也有 mongodb 的 middleware,因此我们可以很容易将这部分内容抽取出来,经过 personalized 的 ranker 进行排序后送给前端,看到的是一个 summary page。

大概先写成这样,后面慢慢增加一些新的 module。

——————
And the angel of the LORD said to her, Return to your mistress, and submit yourself under her hands.

Advertisements
一个简单的项目

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s