信息智慧工作室( In2in.com )

来源:百度文库 编辑:神马文学网 时间:2024/07/02 16:54:06
产品1. 中文语言分析和处理系统(Chinese Language Analysis System 1.0)试用版。
简介CLAS是用来处理中文文本的系统。功能包括词语切分、N-gram切分、句子切分和词组识别等。以后要增加的功能有频率统计、内码转换、模式查找等等。系统主程序,需要有字典、知识库等数据文件才能正常运行。这是介绍CLAS系统的Powerpoint演示稿。
下载CLAS_alpha.zip. 大小:534 Kb.
产品2. 汉语切分用字典
简介汉语切分需要的字典。共有词条5万8千多,有词性标注信息。现在提 供的是文本格式,一行一词。有了本字典,CLAS的切分器就可以运行了。使用前,需先用CLAS提供的字典管理器将其转换成系统要求的数 据库格式。方法是:点击CLAS的菜单“Resources | Use dictionary”; 在弹出的“Segmentation dic manager”对话框的上部选中“一般格 式”;然后按“导入”按钮,找到字典文本文件,按确定即可生成系统能使用字典数据库(dic.dat)。
下载dic.zip. 大小:236 Kb.
产品3. 网页纯文本转换工具:htm2txt
简介将网页内容转换成纯文本格式的工具。解压缩后运行htm2txt.exe即可使用。操作说明请见帮助文件htm2txt.hlp。
下载htm2txt.zip. 大小:205 Kb.
产品4. 经人工校对过的切分语料
简介这里提供的是100篇共计约6万多字的、经过人工校对的切分语料。每个切分出来的词用一对尖括号括起来。例如:“<这> <批> <人> <奇怪> <为何> <雷德伍德> <只> <得到> <少许> <高层> <人员> <的> <支持>。”。 标点符号没有做标记。
下载seg_checked_txts1-100.zip. 大小:114 Kb.
产品5. 汉语实验检索系统(CEIRS) 1.0 版
简介汉语实验检索系统(CEIRS)是作者花了三年多时间开发的完整的检索系统 (Information Retrieval System)。主要供实验研究各种汉语检索技术。可分别生成以单字、词和词组为索引单位的索引库,并能自动计算在每10%回召率(recall)水平上的检准率(precision)。系统用Visual Prolog开发,速度并不是最快,但却有一般商用检索系统所没有的实验、研究功用。详细的技术说明和操作手册正在制作当中。请点击此处阅读在线说明书:1.关于CEIRS 2.CEIRS的主要用途 3.操作指南 4. 设计考虑 5. 应用案例 6. 可能的应用 7. CEIRS的将来
安装:将ceirs.zip解压缩后,运行setup.exe即可将系统安装到计算机上。运行平台是Windows95,98,ME, 2000。同样需要字典支持分词功能。另外需要知识库支持词组识别功能(将陆续上传)。
下载ceirs1.zip. 大小:1.18 Mb.
产品6. 公式计算器及其Prolog源代码
简介公式计算器能根据用户输入的公式(可带变量),自动计算结果。详细的介绍请看这里。 程序用Visual Prolog 5.1 (win32)版开发。源程序中带有许多字串处理、表处理等有用的函数。
安装使用:将文件解压缩后,运行exe目录下的"formula.exe"文件。若要查看源程序,请用VIP5.1打开"formula.vpr"文件。若要追踪运行过程,请先将"task window"的属性设为"visible"。
下载FORMULA_source.zip. 大小:479Kb.
产品7. 中文信息检索用停用词库
简介基于词的中文信息检索系统一般具有过滤停用词的功能,即不将一些常用的虚词、成语、符号等语言单位收入到索引库中。这里提供了约1110个停用词。选取这些停用词的方法和过程在陈鸿标博士论文第7.2.3.节中说明。
使用:将文件stwd.zip解压缩后,得到一个名为stwd.dat的文件(大小:117Kb)。此文件是Prolog数据库格式。将此文件拷贝到CEIRS目录下即可使用。若想将停用词从数据库中导出,可以运行CEIRS。点击菜单项“数据库维护|停用词”。然后按“export”按钮。输入一个文件名。数据库中的停用词就可以保存到该文本文件中。
下载stwd.zip. 大小:27Kb.
产品8. 用于CEIRS的同义词和上下义词数据库样例
简介CEIRS具有同义词和上下义自动扩展功能。她在处理用户输入的查询串时,可以根据事先准备好的同义词和上下义词库,对查询关键词做自动扩展处理。这里提供了该数据库的样例。其格式是Prolog外部文本数据库的格式。可以用一般的文本编辑器编辑。但要注意引号的使用。不要有错漏。
使用:将文件hy_sym_dat.zip解压缩后,得到两个的文件:hypo.dat和syn.dat。将此两个文件拷贝到CEIRS目录下即可使用。你需要自己添加词条。
下载hy_sym_dat.zip. 大小:1.06Kb.
产品9. 用于分析问句的样例
简介要设计问句理解的算法,首先需要对问句的结构作充分的分析。此处列出95个已经切分好的问题。主题是列车时刻信息。假设所有的问题都是围绕列车时刻来问的。
下载trainQuestions.htm. 大小:7.64 Kb.