从Technorati看博客搜索的发展

来源:百度文库 编辑:神马文学网 时间:2024/06/06 02:52:01
互联网经过多年的发展,信息的组成已经不再局限于简单的发布与共享,特别是博客的兴起与RSS的广泛应用。信息的发布源已经由政府,公司,机构逐渐延伸至个人。对于传统信息的发布,往往是以信息的广泛传播,提升知名度,增加访问量,从而直接或间接的创造价值为目的。这就是媒体的特性,作为媒体的角色出现了以新浪为代表的大量的网站。
而个人的信息发布往往是为了个人表达的需要。互联网中的个人数量非常庞大,而这些用户分布在各个博客服务商,也有很多人自己搭建平台,创建博客。在这同时,也带来一个问题:信息无法集中的展示,影响力无法得到充分展现,这时博客搜索的出现可以说是顺其自然的。而且按照目前搜索已经超越任何一家门户网站来看,博客搜索也将超越任何一家博客服务提供商。
博客搜索可以解决以下几个问题:
1、如何将这些博客有机的组织在一起,将好的内容筛选出来,并让有价值的内容更加广泛的传播和引用。这就有点像Qihoo和ChinaBBS,这是最简单的层次。
2、根据博客之间相互的引用,发现博客之间相互的关系,从而绘制出一张博客世界的网络。很多人在博客里面使用大量链接,主要的目的是增加博客的外延,给者更加广阔的阅读空间,提供文章写作背景,或者说明文章引用。这个天然的特性使得对博客之间或者是博客与信息之间天然的产生了一张巨大的信息网。这可以算的上是真正的SNS,是通过软链接实现的,不需要人为的去维护,目前像UUZone,既想实现SNS,又简单的只通过添加好友的方式来实现这样一张网络的方式属于硬链接,非常难以实现。它有两方面的要求非常高:一是需要用户不间断的进行维护,二是要求用户集中在网站上进行注册,这两方面都非常难以发展。

3、对博客内针对第三方信息的引用进行挖掘,产生出新的价值。单个的博客传递的信息比较局限,可能是对一部片子的观后感,可能是对某个餐厅的评价,可能是对某个人物的评论,但把所有博客的内容综合起来,我们可以得到一些很有意思的数据。例如:http://www.technorati.com/pop/books/。这是根据博客文章里对书的链接从而计算出来的书的流行程序排名。同理,我们可以计算出电影的,名星的。但这些有个前提,就是有一个结构化数据的访问中心,大家都对这个中心比较认同,前面就是根据对Amazon这个信息中心内页面的引用,电影则是对IMDB内停息页的链接,国内卓越,当当都可能成为这个信息中心,豆瓣也非常有这个可能,甚至我觉得它的可能性还要大一些。

4、对最新的博客内容进行分词,发现最近的流行词汇。在这方面,Tag还非常初级,目前被广泛使用的Tag大多数是一些像“生活”,“博客”之类的没有什么时效性价值的词,要真正获得当前的热点目前没有什么太好的办法,只能通过分词解决。分词后的计算是一个非常惊人的计算量,如何优化这方面的算法将是一个竞争比较激烈的领域。
5、对结构化内容的综合呈现,例如:http://www.technorati.com/tags/%E5%8D%9A%E5%AE%A2%E7%BD%91,
http://www.booso.com/tag/%B2%A9%BF%CD%CD%F8/,将博客和图片同时呈现在一个界面,有效的节约的用户的时间,随着将来格式化数据的越来越丰富,这个页面会越来越丰富,甚至将来会与门户网站的专题有的一拼,当然肯定没有编辑做出来的专题那么有条理,界面那么漂亮,但在数量上肯定是专题所无法比拟的。
以上几个方式,与用户行为基本无关(当然,写博客本身就是一种用户行为,这也是与网页搜索相比,博客搜索天然具有的优点),在没有用户参与的情况下也可以比较好的实现,当然前提是技术上的实现。当有了用户行为,并加入了用户行为分析后,相信结果还会进一步得到优化。
_xyz