gRaSSland开发日记: 对于gRaSSland项目2.0计划

来源:百度文库 编辑:神马文学网 时间:2024/10/04 03:33:02
对于gRaSSland项目2.0计划
对gRaSSland项目感兴趣的朋友请订阅以下邮件列表:lists.sourceforge.net/lists/listinfo/weblucene-devel:对gRaSSland这个开放的中文BLOG空间RSS搜索项目我初步的一些设想如下,请大家讨论并补充。
第一方面:是动态发现(Crawler):
短期: lynx -dump + 一些脚本先将可能的一些数据(比如: http://www.cnblog.org/rings/ )中的RSS导出来。
中长期:Larbin 或者Nutch( nutch可能性较大)
第二方面:是分词(Segment):
很高兴看到开始利用中科院计算所的汉语词法分析系统ICTCLAS
进行的基于词表语法分析的分词尝试:近期可能会有C#和Java的版本发布
第三方面:是内容的自动类聚(Cluster):
内容自动分类是必须基于词表分词的:卢亮在这方面做了一些很有意思的尝试:
http://news.booso.com
第四方面:是blog之间的链接关系分析(Link Analysis)
这方面: Roy在www.8fang.net 中有很多心得。
我非常高兴看到咱们这些人通过搜索引擎彼此聚合在了一起,如何将以上这些资源整合起来并首先在gRaSSland项目中展现出来,就看大家的努力了。