gRaSSland开发日记: 对于gRaSSland项目2.0计划

来源：百度文库编辑：神马文学网时间：2024/10/04 03:33:02

对于gRaSSland项目2.0计划
对gRaSSland项目感兴趣的朋友请订阅以下邮件列表:lists.sourceforge.net/lists/listinfo/weblucene-devel：对gRaSSland这个开放的中文BLOG空间RSS搜索项目我初步的一些设想如下，请大家讨论并补充。
第一方面：是动态发现(Crawler)：
短期： lynx -dump + 一些脚本先将可能的一些数据（比如： http://www.cnblog.org/rings/ ）中的RSS导出来。
中长期：Larbin 或者Nutch（ nutch可能性较大）
第二方面：是分词(Segment)：
很高兴看到开始利用中科院计算所的汉语词法分析系统ICTCLAS
进行的基于词表语法分析的分词尝试：近期可能会有C#和Java的版本发布
第三方面：是内容的自动类聚(Cluster)：
内容自动分类是必须基于词表分词的：卢亮在这方面做了一些很有意思的尝试：
http://news.booso.com
第四方面：是blog之间的链接关系分析(Link Analysis)
这方面： Roy在www.8fang.net 中有很多心得。
我非常高兴看到咱们这些人通过搜索引擎彼此聚合在了一起，如何将以上这些资源整合起来并首先在gRaSSland项目中展现出来，就看大家的努力了。