猜想:从Feed抓取到Feed推送

来源:百度文库 编辑:神马文学网 时间:2024/06/03 16:13:31
猜想:从Feed抓取到Feed推送

Rss Feed被blog拯救以后似乎一路走来还不错,很多人非常看好Feed的前途,我在之前的My Yahoo和Google Reader是最有帝王相的两款阅读器产品一文中也阐述了对Feed前途的期待。另外也有Feedsky等一批Feed增值服务商在致力于Feed前途的的研究。但总觉得Feed的抓取机制已经限制了Feed的发展前途。

Feed如果成为信息传送的一种新机制,必须要突破blog延伸到其他领域。其实美国一些网友很早就已经研究如何用Feed取代Email。这种研究和探索对Feed前途非常重要,但是目前的Feed这种抓取机制是非常的落后。BSP可能因为服务器难以承受爬虫的负载而选择与Feedsky这种Feed增值服务商进行合作。但实际上不管爬虫的调度策略多么先进,都还是无法满足精确快速的信息传递要求。 所以按照我的想法,Feed应该从抓取变成推送的过程。

目前的抓取过程是这样的:BSP们只负责生成往往并不标准的Feed地址,抓取更新的问题完全由各种在线或离线阅读器的爬虫来做,阅读器为了及时更新Feed内容,必须不断的检查Feed是否更新,即便有last modify和Etag的支持,但是各种浏览器的爬虫不断的请求还是让服务器无法承受。我们假设Donews有30万的经常更新的Feed,平均每个Feed被10个不同的在线或离线阅读器订阅,同时假设每个爬虫平均一小时请求一次。那么一个小时至少产生300万次的请求,平均每秒800多次。我不懂技术,不知道这样一个负载对于服务器意味着什么,但我觉得如果再加上庞大的page view,服务器的开销应该也是相当的大。最近Donews经常宕掉,我想应该和庞大的请求有关系。

但其实上面大量的请求都是无用请求,而且实际上效果还是非常不好,这应该是这种Feed机制本身的机制问题。我和朋友讨论的是BSP向阅读器的推送过程,这个过程还不是对爬虫简单的ping通知。 我们把这个想法比喻成一个分布式的多人聊天室,当BSP的Feed内容更新以后,它就会主动通知已经订阅这个Feed地址的阅读器。就像是在多人聊天室中一个人发出了消息,分布在各地的其他人都能迅速而准确的收到消息,简单的说。我希望Feed内容更新的速度就像IM聊天一样迅速。也许有人认为这样Feed还有什么新技术可言呢,我觉得这是一种应用,而不是一种技术,就像Mashup一样,就像Web2.0一样,就像北城说的农民种地就是web2.0,有人就有SNS。

这里我不去介绍Feed推送在技术上如何实现,因为我觉得这应该不是什么问题。我只是想说这种变革即便可行,也可能遇到想不到的困难。因为这是一个多方支持才能完成的应用,每当遇到这种情况的时候,除非历史机遇非常好,一般都很难进行推广。这个方面最可以拿来说事的就是Email和IM之间的互通互联的问题。据说Email在出现之初也是各个服务商不互通互联(Src注:我网龄太小,很多以前的事情都不太清楚),但是因为在Email出现的时候还没有www的出现(Src注:也是朋友告诉我的),所以Email服务商之间很快就互通互联了,因为那个时候大家都还无法看清楚未来,都在小心翼翼的培育这个市场。但IM出现的时候已经完全不是一个历史时期了,当时www已经非常发达,IM也是迅速腾飞起来并迅速向钱靠拢。在这样的情况下,IM之间的互通互联变得高不可攀。

Feed推送我认为是一个极好的方法,如果它在Rss Feed同时期出现,可能会取得非常巨大的成功,但是现在可能已经错过了最好的历史时期。这部分功能应该由Feedsky这样的Feed增值服务商来做