技术俱乐部(technical club) :: 阅读主题 - 转 终于突破中文分词的效率问题

来源:百度文库 编辑:神马文学网 时间:2024/07/03 11:54:29
转 终于突破中文分词的效率问题

        技术俱乐部(Technical Club)首页 -> 编程技术讨论区阅读上一个主题 :: 阅读下一个主题  作者正文seashore
论坛管理员


年龄:25
十二宫图:
加入时间: 2004/10/25
文章: 298

卓音元: 367

时间: 2005-1-24 周一, 上午7:51    标题: 转 终于突破中文分词的效率问题
完全解析一篇文章不到6秒钟.

原句:
18岁那年,有个自称算命先生看了我的手相后说,此生你将注定与男人纠缠不清。我说怎么可能,我不漂亮,也无贪欲。我不想要太多,一生只想爱一次,只要一个爱我的丈夫,然后我是他的好妻子。为他做饭、洗衣带孩子。我要和他相伴到老。
算命先生还说我曾有快乐的童年,但这说明不了什么,未来每一天都在变,没有长久的苦难,当然也没有长久的幸福。听到这话的时候,我感觉自己从里到外开始发冷。
那么多年,我一直企图摆脱这个咒语一样的预言,却总是徒劳无功。我碰到过很多男人,不是他爱我我不爱他就是我爱他而他不爱我,还有就是我们彼此相爱却因为有缘无份而不得不分开。他们都说我是好姑娘,结果是我至今仍孑然一身。
23岁的时候,我经历了第一场爱情的失败。那是我的初恋,他叫钟建。我们分手的时候也是这样的春天。我还清晰地记得,我们坐在江边的茶园里。我们都不敢看对方的眼睛。我的眼睛四处逡巡。我看见柳树发芽了,鹅黄的叶子在阳光下快乐地疯长。河里有很多垃圾漂过,河堤上有情侣在接吻。茶叶一根根笔直地站立在水中,这是上好的绿茶。我想起刚认识钟建的那一年那个算命先生的话,我想这是不是就是一切纠缠和苦难的开始呢,我很害怕。
和钟建分手一年后,我来到了现在的这座城市。我曾在这个城市读了四年大学,我像熟悉我的家乡一样熟悉这座城市。最重要的是我最好的朋友邓澜在这座城市。我做了电台DJ,一档深夜音乐节目。从此,我用声音和文字与世界交流。
我居无定所,像无根的池萍一样在这个城市的四处飘荡。一年内我搬了五次家。从这个城市的南边搬到北边,再从北边搬到西边然后东边。我恨极了这种漂泊流浪没有尽头没有希望的日子。我每天晚上十点半出门上班,十二点下班。我像幽灵一样穿越这个城市的夜晚。我化很精致的妆,穿很漂亮的衣服。像人们清晨出门那样。
有时候我会去酒吧坐一坐,更多的时候我下班就回家上网。我买了一台二手联想电脑,很破却已经足够我夜深人静的时候上线游荡。我每天准时凌晨一点上网,然后在各个BBS之间游荡,写写看看,停停走走。我很少仔细看贴子,走马观花逛完一圈的时候天就亮。
我在节目里侃侃而谈,实际上我勤于思考却拙于表达,我总是不知道该用怎样的词语才能恰当地表达出自己的起初想法。我在网上认识人不多,其中有一个叫野鬼。他说他是孤魂野鬼,只在夜晚出没。碰到他的时候我叫幽冥。他说女孩子不应该取我这们的名字,我笑就,因为我也只在夜晚活动。我们从不问对方是干什么的,我只是滔滔不绝地对他诉说,说我的生活,说我喜欢自己自己的声音在这个城市的夜里四处散布,说我陷在绝望的爱情里找不到出路,还说我希望有一座房子,面朝大海,春暖花开。他总是安静地听我说话,无论我怎么思维混乱、言辞颠倒他也从不怀疑我是否在撒谎。我喜欢相互信任,即使是在网上。我叫他野鬼,可他从不叫我幽冥,他叫我丫头,我们的称呼常常会打动我的心,但那只限于夜晚。白天我是一个坚硬冷漠的人,我甚至从不在白天上网。那个叫野鬼的人从不问我为什么,只是对我说,我不该是一个缺少阳光的女子,我令他心疼。
无论我对野鬼说过 只作为一个符号存储在我的电脑里。关掉电脑以后,他就像空气一样立刻从我的视野和脑海里消失,甚至于一场小小的病毒也会让他从此不再出现。放映<花样年华>后,我曾经对他说他是我的“树洞”,他沉默数秒后表示反对。他说“树洞”是没有感情和生命的,而他有。
上大学的时候老师告诉我们所谓悲剧就是人类自己将美好的东西撕碎给人类看。我一直记得我句话,我想努力制造一个喜剧,却不小心把这个喜剧撕碎了,成了悲剧。
邓澜说我把自己的生活搞得乱七八糟,该有个人来照顾我,还说如果我再不嫁就没人要了,那口气和我爸妈一样。我说好啊,那你给我介绍个好人吧,好要有跔的胸怀愿意收留我。其实,那时候我也就26岁,比起30岁的现在来说还算得上是花样年华。
第一次见到江凯文是在培根路的1812酒吧,我和邓澜一进门就看见坐在吧台的江凯文,他一个人在喝闷酒。邓澜为我们作了介绍,虽是第一次见面,其实我们都早已在对方心里盘踞。有很多次,邓澜对我欲言又止。
邓澜欲言又止的是江凯文是个离异的男人,有一个小孩,和她妈妈在一起。邓澜觉得这对我来说有些不公。我不在乎这些。我们相爱了。
第一次感到和一个人心有灵犀的默契是这样幸福。我想,我会一辈子爱他,我不要再让忧郁溢满他的眼神。我也相信他爱我一如我爱他。然后,我开始小心翼翼地经营这份爱情。他不喜欢我做电台的工作,我听他的话换了一份朝九晚五的工作。每天做好晚饭等他回家。我戒了网,彻底忘记那个叫野鬼的人。我希望我的爱可以抚平他心里的伤口。
一切原本都是好好的。如果我不说结婚的话,可能一切都不会发生。和江凯文相恋一年的时候,我想结婚了。我并不是想要一个所谓老婆的名分,我从来都觉得婚姻束缚不了两个不再相爱了的人,没了爱,婚姻又要来干什么。我只是想为他生个孩子,给他一个完整的家。
我说出结婚的想法以后,江凯文就消失了。我去他上班的地方找他,他避而不见。我给他找电话,我说我错了,我不要你娶我,我只要我们在一起。他在电话里沉默不语。我想不明白凯文为什么这样惧怕婚姻。我每天神思恍惚,晚上回家总是胡思乱想,我迅速地憔悴下去。
我到1812去喝酒,这是我和凯文第一次见面的地方。誓言还在耳边,一切却已经改变。我喝了很多酒。我看见有一个头盖骨在酒柜里,好像曾经被摔碎过,胶布像绷带一样缠满了整个头颅。我叫来服务生,我想知道为什么他们为什么会放一个头骨在这里,我还想知道这个头骨生前是男是女,他(她)是否也曾有过悲伤的爱情。服务生说这是老板从华西医院拿来的头骨,生前是一个非常漂亮的女孩,只在这个世上呆了20年。万圣节的时候,客人玩得太疯,摔到地上碎了,所以用胶布粘起来。我说她一定很疼了,你们把她放在这里,她会嫌吵的。服务生说,也许她就喜欢这种生活呢,夜夜笙歌多好啊。我说你们怎么可以这样啊,我拉住服务生一定要他说这个薄的女孩生前有没有过刻骨铭心的爱,我一杯接一杯地喝酒。这时,邓澜和凯文一起出现在我的面前。
凯文冲过来抱住我,不停地说对不起对不起,他温热的泪滴在我的脸上和我的泪混在一起,我又感到了他的温度,这让我温暖。我哭着说我不能没有他。我可以不要婚姻,不要名分,什么都不要,只要他别离开我。他终于说出他的苦衷。他以前在部队的时候曾摔断过颈椎,虽然现在好了,但是随时有可能得发导致瘫痪,他不要我为了他受苦。我说生生死死我都要和他在一起,无论贫穷,疾病。除非他不再爱我了。他说傻丫头,我怎么可能不爱你呢,没有你我活着还有什么意思。
失而复得的爱情让我觉得多年的坎坷其实算不了什么,幸福一定会属于我,只要我不放弃。凯文对我很好,他似乎也对这份有过波折的爱倍加珍惜。我以为日子可以就这样一直过下去,结婚对我来说已经不重要,重要的是我和凯文在一起。而且,我们彼此相爱。
不知道是不是老天故意和我开玩笑。一个月后,凯文又消失了。我满世界找他,疯了一样。我相信他一定有什么苦衷,不然他决不会突然失踪。我求邓澜帮我找到他。我蜷缩在家里,不吃不喝等他的电话。很久以后,在我快要死去的时候,凯文从西藏打回电话说他不能给我一个家,他很穷,没有自己的房子他不会娶我。
我立刻倾尽所有买了一套房子。我说我们有自己的房子了,你快回来啊。他回来了,却不愿意再回我身边。他瘦了很多,我相信这些日子里他也常常思念我,不然不会这么消瘦。我忽然发现我根本不懂凯文,在一起一年,一直以为我们了解对方就像了解自己一样。一直相信有了爱其他一切都不重要了。而此刻,我才发现我完全不知道凯文在想什么,他要的又是什么。我感到悲哀。
我每天幽灵一样游荡在这个城市的大街小巷,我想我该忘记这个男人,这个多变的男人。我走在路上的时候就像梦游一样,好几次善战被车撞到。有好几次,我恍惚看见凯文在跟踪我,我想一定是我看花眼了。
同事结婚,赶去祝福。坐在角落里翻看他们的婚纱照,心里悲凉无比。有个客人走过来对我说,“咦,怎么凯文不上来啊?我看他在楼下已经站了半个小时了,很焦躁的样子。我还以为他在等你呢。”我个人并不知道我和凯文之间后来发生的那些事。我站起来就往楼下冲,只看到楼下一地的烟蒂。我因此确信凯文依然是爱我的,只要他爱我无论发生过什么我都会原谅他。
关于这段故事,我已经不想再叙述。凯文最终没有成我相位终身的爱人。他曾经是爱我的,这毋庸置疑。他第二次离开我的原因是他牛顿 他的初恋情人。她一直是他心里的痛,暗恋多年却不敢表达。后来女孩出国,他也结婚生子。现在女孩回来了,三十多岁的女人风采依然,而且一直单身。凯文自从在街上看到她的第一眼就认定她才是他生命里的天使,而此刻的他又是自由身,他相信这是上天安排的缘分,于是,他离开我,开始疯狂地追求她。这是他在一次醉酒后告诉邓澜的。他还说我是一个好女孩,他不能欺骗我。看见我一天天憔悴下去,他也很心疼,他怕我想不开所以才跟踪我。听到这番话的时候,我觉得自己真是滑稽。居然为了这么一个男人如此消瘦。他以为没了他,我会自杀,我不会这么蠢,为了一个不爱自己的男人而折磨自己。早知道他离开我的原因,我甚至不会有一丝一毫的难过,如果伤心,也是为自己的有眼而伤心。
结局是,我又回到电台。而凯文依然没有圆他那个青春年少的梦,他曾回来求我说他发现他爱的还是我,没有我他将无法生活。我哑然失笑。我说这也是我曾经对你说过的话,不过,这是我说过的最愚蠢的话。我早已不爱你了,而我也做不了你的天使。这世界谁没谁,生活都会照样继续。没什么大不了的。
后来,邓澜对我讲述了凯文的第一次婚姻。这些往事,凯文从没对我说过,我也从不。凯文以前在部队,出身贫寒,最大的梦想就是出人头地。而无论他怎么努力钻营,机会也一直没有垂青于他。为了改变命运,他娶了并不喜欢的团长的女儿。这次婚姻并没有带给他转机,骄横的爱人终于激怒了他。于是,他离婚了。他似乎不再追逐名利,只想找一个相爱的人好好生活。如果不钻营投机,他会是一个相当优秀的人,聪明而体贴。邓澜以为他已经醒悟了,所以才力撮我们。她说她对不起我,不该让我们相识。我笑笑,说一切都过去了。何况,这怨不得谁,是老天早就注定的。18岁的时候就注定了的。
选择爱就是选择劫难。
我换了城市。继续做DJ的工作。
有听众曾说,我的声音透着绝望,那透明清凉的绝望。
朋友说我越来越不正常。我说是,一个迷恋夜晚的女子怎么可能正常。
有人在背后开始对我指指点点,说一个30岁的女人还不结婚一定是有问题。
我不为所动。
但是我知道,总有一天,我会老去,且没有人会再听我说话。


解析为:
那年 有个 自称 先生 看了 我的 手相 注定 男人 纠缠 不清 我说 怎么 可能 漂亮 不想 太多 一生 只想 一次 只要 一个 爱我 丈夫 然后 我是 他的 妻子 为他 做饭 洗衣 孩子 和他 先生 还说 快乐 童年 说明 不了 什么 未来 每一 都在 没有 长久 苦难 当然 没有 长久 幸福 听到 时候 感觉 自己 外开 始发 那么 多年 一直 企图 摆脱 这个 咒语 一样 预言 总是 徒劳无功 碰到 很多 男人 不是 爱我 不爱 就是 我爱 不爱 还有 就是 我们 彼此 相爱 因为 有缘 而不 得不 分开 他们 都说 我是 姑娘 结果 至今 然一 时候 经历 第一 爱情 失败 那是 我的 初恋 我们 分手 时候 也是 这样 春天 我还 清晰 记得 我们 坐在 我们 都不 对方 眼睛 我的 眼睛 四处 逡巡 我看 柳树 发芽 叶子 阳光 快乐 很多 垃圾 河堤 有情 接吻 茶叶 一根 笔直 站立 水中 这是 上好 绿茶 想起 认识 那一 那个 先生 的话 这是 不是 就是 一切 纠缠 苦难 开始 害怕 分手 一年 我来 到了 现在 城市 在这 城市 读了 四年 大学 熟悉 我的 家乡 一样 熟悉 城市 重要 最好 朋友 在这 城市 电台 深夜 音乐 节目 从此 声音 文字 世界 交流 无定 一样 在这 城市 四处 飘荡 一年 五次 这个 城市 南边 搬到 北边 北边 搬到 西边 然后 东边 极了 这种 漂泊 流浪 没有 尽头 没有 希望 日子 每天 晚上 出门 上班 十二 下班 幽灵 一样 穿越 这个 城市 夜晚 精致 漂亮 衣服 人们 清晨 出门 那样 有时候 酒吧 更多 时候 下班 回家 上网 二手 联想 电脑 已经 足够 时候 上线 游荡 每天 准时 凌晨 一点 上网 然后 各个 之间 游荡 看看 走走 很少 仔细 走马观花 一圈 时候 节目 侃侃而谈 实际 思考 表达 总是 不知道 怎样 词语 才能 恰当 地表 出自 起初 想法 网上 认识 不多 其中 有一 他说 只在 夜晚 出没 碰到 他的 时候 幽冥 他说 女孩子 不应 们的 名字 因为 只在 夜晚 活动 我们 从不 对方 干什么 只是 滔滔不绝 对他 诉说 我的 生活 喜欢 自己 自己 声音 在这 城市 夜里 四处 散布 绝望 爱情 不到 出路 还说 希望 有一 房子 大海 花开 总是 安静 我说 无论 怎么 思维 混乱 言辞 颠倒 从不 怀疑 我是 撒谎 喜欢 相互 信任 即使 网上 从不 幽冥 丫头 我们的 称呼 常常 打动 我的 那只 限于 夜晚 白天 我是 一个 坚硬 冷漠 甚至 从不 白天 上网 那个 从不 为什么 只是 对我 不该 一个 缺少 阳光 女子 心疼 无论 说过 作为 一个 符号 存储 我的 电脑 关掉 电脑 以后 就像 空气 一样 立刻 我的 视野 脑海 消失 甚至 一场 小小 病毒 也会 让他 从此 不再 出现 放映 花样 年华 曾经 对他 我的 沉默 表示 反对 他说 没有 感情 生命 大学 时候 老师 告诉 我们 所谓 悲剧 就是 人类 自己 美好 东西 给人 一直 记得 句话 努力 制造 一个 喜剧 却不 小心 这个 喜剧 成了 悲剧 自己 生活 乱七八糟 有个 照顾 还说 如果 再不 没人 那口 和我 一样 我说 好啊 给我 介绍 好人 胸怀 愿意 收留 其实 那时 也就 比起 现在 来说 花样 年华 第一次 见到 培根 酒吧 看见 坐在 一个 闷酒 为我 介绍 第一次 见面 其实 我们 早已 对方 心里 盘踞 很多 对我 欲言又止 欲言又止 是个 离异 男人 有一 小孩 妈妈 一起 觉得 对我 来说 有些 不公 不在乎 这些 我们 相爱 第一次 感到 一个 人心 有灵 默契 这样 幸福 一辈子 不要 忧郁 溢满 他的 眼神 相信 爱我 一如 我爱 然后 开始 小心翼翼 经营 这份 爱情 喜欢 电台 工作 他的 一份 工作 每天 做好 晚饭 回家 彻底 忘记 那个 希望 我的 可以 心里 伤口 一切 原本 都是 好好 如果 不说 结婚 的话 可能 一切 都不 发生 相恋 一年 时候 结婚 并不是 想要 一个 所谓 老婆 名分 从来 觉得 婚姻 束缚 不了 两个 不再 相爱 没了 婚姻 又要 干什么 只是 为他 孩子 给他 一个 完整 我说 结婚 想法 以后 消失 我去 上班 的地 而不见 给他 电话 我说 不要 只要 我们 一起 电话 沉默 不语 不明 为什么 这样 惧怕 婚姻 每天 神思 恍惚 晚上 回家 总是 胡思乱想 迅速 下去 喝酒 这是 第一次 见面 的地 誓言 还在 一切 已经 改变 喝了 很多 我看 有一 个头 盖骨 酒柜 好像 曾经 摔碎 绷带 一样 整个 头颅 服务 知道 为什么 他们 为什么 一个 在这里 我还 知道 这个 生前 是否 也曾 有过 悲伤 爱情 服务 这是 老板 华西 医院 拿来 生前 一个 非常 漂亮 女孩 只在 这个 世上 时候 客人 地上 所以 起来 我说 一定 你们 把她 放在 这里 服务 也许 喜欢 这种 生活 夜夜 多好 我说 你们 怎么 可以 这样 拉住 服务 一定 他说 这个 女孩 生前 有没有 刻骨 一杯 一杯 喝酒 这时 一起 出现 我的 面前 过来 抱住 不停 对不起 对不起 温热 我的 脸上 和我 一起 我又 感到 他的 温度 让我 温暖 不能 没有 可以 不要 婚姻 不要 名分 什么 都不 只要 别离 终于 说出 他的 苦衷 以前 部队 时候 虽然 现在 好了 但是 随时 有可能 导致 瘫痪 不要 为了 受苦 我说 生生 死死 都要 和他 一起 无论 贫穷 疾病 除非 不再 爱我 他说 丫头 怎么 可能 不爱 你呢 没有 你我 活着 还有 什么 意思 而复 爱情 让我 觉得 多年 坎坷 其实 不了 什么 幸福 一定 属于 只要 不放 对我 很好 似乎 这份 有过 波折 倍加 珍惜 以为 日子 可以 这样 一直 下去 结婚 对我 来说 已经 重要 重要 一起 而且 我们 彼此 相爱 不知道 是不是 老天 故意 和我 玩笑 一个 消失 世界 一样 相信 一定 什么 苦衷 不然 决不 突然 失踪 找到 在家 不吃 不喝 他的 电话 很久 以后 快要 死去 时候 西藏 回电 话说 不能 给我 一个 没有 自己 房子 不会 立刻 尽所 一套 房子 我说 我们 自己 房子 回来 回来 却不 愿意 身边 很多 相信 这些 日子 常常 思念 不然 不会 这么 消瘦 忽然 发现 根本 不懂 一起 一年 一直 以为 我们 了解 对方 就像 了解 自己 一样 一直 相信 有了 其他 一切 都不 重要 此刻 发现 完全 不知道 什么 又是 什么 感到 悲哀 每天 幽灵 一样 游荡 在这 城市 大街 小巷 忘记 这个 男人 这个 多变 男人 路上 时候 就像 一样 几次 善战 几次 恍惚 看见 跟踪 一定 我看 同事 结婚 祝福 坐在 角落 看他 们的 心里 悲凉 无比 有个 客人 过来 对我 怎么 文不 上来 我看 楼下 已经 小时 焦躁 样子 我还 以为 等你 个人 并不 知道 之间 后来 发生 那些 站起来 楼下 看到 楼下 一地 因此 确信 依然 爱我 只要 爱我 无论 发生 什么 都会 原谅 关于 这段 故事 已经 不想 叙述 最终 没有 相位 终身 爱人 曾经 爱我 毋庸置疑 第二 离开 我的 原因 牛顿 他的 初恋 情人 一直 心里 暗恋 多年 却不 表达 后来 女孩 出国 结婚 生子 现在 女孩 回来 三十 多岁 女人 风采 依然 而且 一直 单身 自从 街上 看到 她的 第一 认定 才是 生命 里的 天使 此刻 又是 自由 相信 这是 上天 安排 缘分 于是 离开 开始 疯狂 追求 这是 一次 告诉 还说 我是 一个 女孩 不能 欺骗 看见 一天天 下去 心疼 不开 所以 跟踪 听到 时候 觉得 自己 真是 滑稽 居然 为了 这么 一个 男人 如此 消瘦 以为 没了 自杀 不会 这么 为了 一个 不爱 自己 男人 折磨 自己 知道 离开 我的 原因 甚至 不会 有一 难过 如果 伤心 也是 自己 伤心 结局 我又 回到 电台 依然 没有 那个 青春 年少 回来 我说 发现 爱的 还是 没有 无法 生活 哑然 我说 这也 曾经 对你 说过 的话 不过 这是 我说 愚蠢 的话 早已 不爱 不了 你的 天使 世界 生活 都会 照样 继续 没什么 大不了 后来 对我 讲述 第一次 婚姻 这些 往事 从没 对我 说过 从不 以前 部队 出身 贫寒 最大 梦想 就是 出人头地 而无 怎么 努力 机会 一直 没有 垂青 为了 改变 命运 并不 喜欢 团长 女儿 这次 婚姻 没有 带给 横的 爱人 终于 激怒 于是 离婚 似乎 不再 追逐 名利 只想 一个 相爱 好好 生活 如果 投机 一个 相当 优秀 聪明 体贴 以为 已经 所以 才力 我们 对不起 不该 让我 相识 说一 过去 何况 不得 老天 早就 注定 时候 注定 选择 就是 选择 劫难 城市 继续 工作 听众 我的 声音 绝望 透明 清凉 绝望 朋友 越来越 不正 我说 一个 迷恋 夜晚 女子 怎么 可能 正常 有人 在背 开始 对我 指点 说一 女人 还不 结婚 一定 问题 不为 但是 知道 总有 一天 没有 我说 18 23 DJ BBS 26 30 1812 1812 20 18 DJ 30

程序执行时间: 5.13747501373秒
_________________
返回顶端 seashore
论坛管理员


年龄:25
十二宫图:
加入时间: 2004/10/25
文章: 298

卓音元: 367

时间: 2005-1-24 周一, 上午7:55    标题:
http://zjshl.512j.com/wordparse/parse.php
_________________
返回顶端 seashore
论坛管理员


年龄:25
十二宫图:
加入时间: 2004/10/25
文章: 298

卓音元: 367

时间: 2005-1-24 周一, 上午7:56    标题:
「资讯处理用中文分词规范」设计理念及规范内容
黄居仁*. 陈克健**. 陈凤仪**.魏文真**.张丽丽**
*中央研究院历史语言研究所
**中央研究院资讯科学研究所
摘 要
「资讯处理用中文分词规范」有下列两个突破1)提出分级的观念及确立信,达,雅三级的标准.最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作机器翻译,资讯检索等自然语言处理的标准;至於最需要人工分词才能达到的雅级则视为电脑处理,理解中文之最高目标.(2)把分词规范分成不变核心(分词单位定义及基本原则),以及可变准则(辅助原则).在确定分词规范架构後,只要定时更新基本词库或特殊领域的专门词库,便可维持分词规范的不变性.
规范制定的过程
根据美国资讯专业期刊 (AI Trend 1991) 的预测,随著自然语言处理技术日趋成熟,相关软体产品的研发将成为未来资讯产品的主要潮流.一个明显的例子如苹果电脑已推出能辨认英文语音指令的个人电脑,另外Thinking Machine公司已发展出能以近似自然语言查询全文资料库的WAIS全文检索系统.不过,中文在这些方面的产品开发上仍远落後於西方语言.
中文在自然语言处理方面有一个很不便的地方就是中文词和词之间在书写时传统上并不断开(如西方语言多半以间距标示词的界限),因此在词的界限上很难有一个简单清楚的区分,这使得中文在自然语言处理时必须增加分词这个程序而影响了相关软体产品的研发.然而词的界定问题不但一般使用者无从依循,连汉语语言学家至今仍无定论.
有鉴於制订分词标准的重要性,大陆方面在1989年制订【信息处理用现代汉语分词规范】,并於1993年上报为(GB)标准.台湾的计算语言学会(ROCLING)在1991年开始草拟分词规范,初步订定了中文分词的原则,并於1995年下半年起接受中央标准局的委托,进行中文分词规范的建立,研拟「资讯处理用中文分词规范」,希望能为中文资讯科技提供一套通用的参考,减少彼此之间的差异,为自然语言处理环境奠定良好基础.由於海峡两岸用语多少有些不同,而且为因应中文自然处理的个别需求,这两套规范之间虽然精神雷同却有些技术上的差异.
分词规范的研拟分为两种方式进行,一方面是邀请台湾知名的学者专家召开讨论会,就其专业领域的角度,对分词规范的大方针进行讨论;另一方面则是中央研究院词库小组根据分词规范,实际从事语料分析,从上百万的语料中,整理出分词标准的细节规定.为此,我们特别在计算语言学通讯开辟「『搜』文解字」专栏,针对值得重视的分词现象提出讨论,广邀各方意见.相信「资讯处理用中文分词规范」的拟定对於未来「资讯用分词国家标准」的实施有实质的助益,能有效推动中文资讯界技术发展.
二,制定规范的设计指导原则
为了因应自然语言处理的需求,在制定分词规范时,有三个要件缺一不可.亦即(1)必须符合语言学理论要求,(2)在资讯处理上确实可行,和(3)确保实际文本资料一致性.这是我们制定「资讯处理用中文分词规范」时的指导原则.也因有了这三条指导原则,本规范与大陆出版【信息处理用现代汉语分词规范】有以下三条较不同的思考方式.
GB【信息处理用现代汉语分词规范】所规范的不是「词」,仅仅只是供信息处理用的「分词单位」.而且,在词的辨认上由於没有最高指导原则,许多问题处理难免会有前後矛盾情形产生.或是理由不清,必需直接规定的武断作法.它的作法是依个别词型,考虑机器处理的方便可行,分别规定其切分标准.它并不定义词,也不提出辨词的最高原则.
由於是依个别词型一一规范,凡是没有规范到的或规范不够清楚的部分都成了分词规范的死角.例如:这套分词规范并没有谈到动後修饰词之分词办法.又例如该规范对偏正式复合词(包含名词和动词)的说明不够清楚,只以「结合紧密,使用稳定」来规范,无法当作一个明确可行的规范.
【信息处理用现代汉语分词规范】并未对自动分词的技术瓶颈深入探究,只是在拟定个别词型切分原则时考虑了自动分词的可行性.但是电脑技术日新月异,现在看来不易处理的问题将来也许都可迎刃而解,那岂不又要修改分词规范了?我们认为分词草案中提出的层次划分的概念才能彻底有效掌握自动分词上的技术困难.
计算语言学学会的「资讯处理用中文分词规范」如何达成此三项指导原则的要求呢?以下分项说明之.
1. 符合语言学理论之要求
订定分词规范的首要工作是定义切分字串的基本单位,对资讯处理而言,所谓的词是以何为依据?我们定义一个具有独立意义,且扮演特定语法功能的字串应视为一个词.虽然没有使用语言学专门术语来定义切分单位,但是根据定义,动词,名词,副词,定词,量词,介词,方位词,连接词,语助词,感叹词皆可依类一一断开.另外,像动词,名词,或是结构复杂字串的判定较复杂,需要细则来规范其分合标准.因此除了定义外,必须另有原则规范分词.我们提出两条基本原则以及六条辅助原则.两条基本原则分由语意及语法出发,给词(分词单位)更妥善的定义.而辅助原则系根据语言现象而定的判断原则;因为这些辅助原则多因语料变异而随时修订,提供了在语言演化时,可不变动基本定义而仍可忠实处理当代语言的理想架构.
2. 在资讯处理上确实可行
资讯处理用分词规范订定的目的是为中文语文资讯交换订出一套中文词的规范.从语言学的观点而言,词的基本定义是具有独立意义,且扮演固定词类的最小字串.从分词的观点而言,分词基本原则应从两方面来考量1)语意无法由组合成分直接相加而得到的字串应该合为一分词单位.(2)词类无法由组合成分直接得到的字串应该合为一分词单位.然而就设计电脑自动化分词程式而言,这个定义及基本原则所规范的分词要领,依然非一蹴可及.其困难来自三方面:第一,词的界定是抽象概念.光由以上的简单定义及原则,并不足以转化为电脑执行程序,因此必须增加一些辅助原则并依各种不同词的类型分别讨论切分与否.第二,词集并非一个封闭集合.词可由构词律产生,人们日常也不断创造新词,因此电脑自动分词无法仅凭藉一部标准辞典来作分词依据.第三,语言的复杂性.词,复合词,片语的界线有的时候不容易区分,例如以下的多重切分似乎各有一些道理:
顾客满意度:顾客 满意 度,顾客 满意度
最早期:最 早期,最 早 期,最早期
冬夜:冬 夜,冬夜
人口贩子:人口 贩子,人口贩子
理想的分词有时会过於复杂困难,为了顾及自动分词的可行性及分词结果的应用,我们建议在理想与现实间采用一个中庸之道.因为如果陈意过高,完全无法自动化处理,也失去了订定规范的意义.但是,如果完全迁就於电脑的处理能力,与词的分界偏离,又岂能称之为分词标准?於是我们提出一套三个层次的分词标准,其精神在给予分词工作一套循序渐进,由简入繁的依循原则.每前进一个层次,就多解决一些分词难题,也就愈接近理想.也就是说,我们允许分词的结果有瑕疵,不同的分词结果各符合不同层次的标准.其层次划分也需配合自动化的可行性,层次愈低,自动化的可能性应该愈高.不同的层次有其个别应用的范围并满足不同目的,因此分词原则可灵活应用而不僵化.
3.确保实际文本资料之一致性
在确定架构後,把分词规范分成不变的核心(分词单位的定义及基本原则)以及可变的准则(辅助原则).只要固定在一段时间修订更新分词的通用词库或在应用於特殊领域时增订专门词库,分词规范便可以维持而不需改变.不但解决了语意模糊之处,使意义更清楚,而且使电子资料的交换更方便.
而且在三个层次的断词标准中,信级(最基本层次)不需要复杂电脑程式即可达到,更可确保与一般非研究单位交换电子资料时的一致性.
三,分词规范之基本架构
资讯处理用中文分词规范的基本架构分成三部份 – 分词单位的定义,分词的基本原则和辅助原则,分词规范的层次划分.
1. 分词单位之定义:具有独立意义,且扮演固定词类的字串视为一分词单位.
分词原则
基本原则:
基本原则是从语意与语法来说明分词单位.这不只是平面的条例规定分词原则,我们将基本原则视为不变的最高指导原则,只从语法和语意两方面来作原则性的定义,而不针对某种词类作变动或一一规定.因此,我们可以在语言学理论上找到分词依据,使分词规范有执行的归依.
(二)辅助原则:
除了理论性原则外,我们也必须有操作性原则,视分词的实际状况设定分合的依据.相对於基本原则的不变性,辅助原则富於弹性,可依时代的演变,不同的文本或视情况的需要而有所增减.辅助原则并非绝对原则,而是操作原则.语料中难免有用二条以上原则的状况,若其结果相同,则加深分词结果之可信度,万一判定结果冲突,则以适用原则较多之结果分词.但若适用原则条数皆同,还可用定义及基本原则作最高层次之制定.
(分词用)词汇库:
根据分词规范产生的词汇库,可以是一个用於不同文本的通用词库,至於特殊领域或应用的专门词库,可依不同应用及领域而增补之.甚至不同地域或时间造成所用语词的变动,也可随文本及时间演变用法差异的不同而有所修正.
分词规范层次的划分
为了使分词电脑自动化,我们按其困难程度,将分词规范分成信级,达级,雅级等三个层次处理.最容易达到的信级标准订为基本资料交换的标准,而把技术上较难,但自动分词程式仍可达到的达级标准作机器翻译,资讯检索等自然语言处理的标准;而把目前最需要人工分词才能达到的雅级标准作为电脑处理,理解中文之最高目标以及作为构建中文标记语料库等标准参考资料的规范.每一层次的应用及困难度列於下列表格中.
应 用 上 的 区 分
自 动 分 词
困 难 程 度
建 议
信级
基本资料交换.
取得词项基本资料.
解决歧义切分.
应於未来建立标准词集及特殊领域词集.
达级
一般自然语言处理.
如,建立词双连语言模型等
可以用规律解决复合词,较无复杂切分问题.
达级应将不同类型的切分与否设为标准中的可变参数.
雅级
词切分的理想境界.
语法,语意的抽取.
如,语音合成,语意分析
不同的语感或观点可能造成不同切分结果,达到圆满一致,极为困难.
(1)除切合词外应有标示词性,词内部结构之标准.
(2)雅级应探求可供客观评估的或处理的辅助原则.
表一 各级分词标准的应用及建议
由以上的讨论可看出,信级切分只要考虑歧义切分的问题几乎可完全自动化.在达级层次中,只要构词律够完备,比较容易达到完全自动化.基於我们在构词律上多年研究,对这点我们持乐观态度.对於复杂的词汇类型,有时以人为判断都会有不一致情形发生,自动化就更困难了.因此建议提出各个复杂类型可以简易辨别的准则,这个准则离真正的理想切分可能不是完全吻合,但若相去不远应该也是可以接受的.
四,规范之细部内容
1 分词规范
1.1 定义:具有独立意义,且扮演特定语法功能的字串.
根据定义,动词,名词,副词,定词,量词,介词,方位词,连接词,语助词,感叹词皆可依类一一断开.这些基本词类中,前五者,尤其是动词和名词的判定较复杂.原因有三:一,动词和名词皆另有词组形式,便有区分复合词和词组的问题.另外副词,定词,和量词也有类似的困扰.二,动词,名词是个开放性词集,随时都有新词产生.三,一些结构复杂的字串,像是中插结构「洗了澡」或合并结构「中小学」,也需要细则来规范其分合标准.
1.2 基本原则
(1) 语意无法由组合成分直接相加而得到之字串应该合为一分词单位.
合并原则
这是一条很重要的分词细则,凡是组合後意义起变化的字串皆应视为一个词.试举一例:"撞期"依此原则必须视为一个词,但是「撞山」仍可保持断开,视为动词加宾语之动词组.此原则的适用面很广.即便是一个字串表面有明显的词组甚至句子的构造,但凡意义失去组合性时应合为一个词.因此下列字串皆应视为一个分词单位,例如:飞黄腾达(成语),撞期,吃醋(动词组),或多或少(副词片语),十二万分(定量结构),五月(定名结构,不是五个月),谈谈(重叠结构,表尝试),「坐坐」就走(重叠结构,含短暂貌),辛辛苦苦(重叠结构,表程度加强),片片,一片片(重叠结构,具泛指意涵),「好好」孝顺父母(重叠结构,表尽力)…等.
合并结构,像是「上下课,中山南北路」,依此原则也应该合并为一个词.因为该字串的意义并非「上」加「下课」,「中山南」加「北路」,而是「上课」加「下课」,「中山南路」加「中山北路」,可见合并结构的意义不等於组合意义,故应合并.唯带专名之合并词,像是「台北市长」(「台北市」加「市长」),因切分後前方的专名和後方的名词皆可独用,意义可以组合成,故仍予以切分.
(2) 词类无法由组合成分直接得到,应该合为一分词单位.合并原则
此原则分两部份:一,该字串之语法功能不符合组合结果.例如:动作及物动词「喝,吃,听」前面加「好」构成「好喝,好吃,好听」,不能再加宾语,成为不及物,且能被程度副词「很,十分,非常」修饰,与原来的语法特性不同,故可视为一个分词成分.二,该字串之内部结构不符合语法规律.例如:「那只狗不会游水」中「游水」指的是「在水里游」,但「游」是不及物动词,不可直接後接名词.因此,「游水」不符合动词「游」的语法规律,故应合并之.
1.3 辅助原则:
(1) 有明显分隔标记应该切分之.切分原则
一个词可能中插了别的成分,或是一个词,或是一个标点符号,在此情况下,不得不将之断开.例子有:
动宾中插:洗了一个澡
述补中插:打得破,打不破
交互中插:弯下腰去,喘不过气来
合并中插:动词:上,下课
名词:父,母亲,高中,职,中山南,北路
定量:本 (二) 月,七,八月,1995,6年,三 到 四月
数词及表时间,地点或编号之词虽含有标点符号,但是我们认为这些符号不具标点符号功能,所以不算是中插,故下列情形仍维持合并.
七,五00,三.六,2/28(二月二十八号),3:30(三点三十分),
二0~一号(门牌号码),AB-8888(车牌号码)
(2) 附著语素尽量和前後词合为一个分词单位.合并原则
附著语素指的是有独立意义却无法独立扮演语法功能的语素.例如:「立」可分为三个语素:一,表「站立」,是不及物动词;二,表「建立」,是及物动词;三,表「立刻」,是附著语素,多半出现在「立刻」「立即」的词中.由於书面语文白夹杂,常可见附著语素独用情形,如「情势立告逆转」.此例中,我们依此原则将「立告」合为一个偏正式复合动词.又例如「吝」也是个附著语素,多半出现在「吝啬」「吝惜」中,但依此原则「不吝」「吝於」也会被合并成一个动词.不过,我们也可能遇到附著语素无法和前後词合成一个语言成份的情况,如「为什麼还吝而不做呢?」我们也只好将附著词「吝」断开,依其在该句中所扮演的功能给予词类.
现代汉语中有许多词具词缀特色,常用来和其它词结合,具有一致的意义,并往往决定该组合词之词类(词头多半无此功能,但词尾多半都有).词缀也是附著语素,因此带词缀之字串也应合为一词.例如:「演员,救生员,队员,查哨员,技术员,组成员,督导员,邮务员…」「现代化,合理化,泛政治化,民营化,地下化,本土化,小丑化,多元化…」.这些词在词典中收不胜收,必须藉构词律由电脑自动结合成词.但是从电脑处理的角度来看,在初步的处理时并不容易达成自动合词的目标,必须依不同层次分阶段达成,因此依附著词结合难易的程度分为词缀及接头/接尾词.目前我们挑选出衍生性强的接头词及接尾词作为分词的参考依据,请见附录1.此外,「的,地,之」虽通常被视为词缀,但是由於下列两个理由我们不将它们当作词缀处理.一,它们所附著之词干无词类限制,无论名词,动词,副词,数量词甚至句子皆能带这些词缀,这和一般词缀表现不一;二,它们常和词组结合,如「常常和官员打交道的记者」「欲退出选委会之人」,这点也和一般词缀的衍生方式不同,所以这三个词将和前後词一律断开.
(3) 使用频率高或共现率高的字串尽量视为一个分词单位.合并原则
有些字串因为常常一起出现,所以其结合较紧密,较少见中插情形.纵使这些字串完全不符合上述三条原则,即它们的语意,语法功能未完全失去组合性,也不含附著语素,仍可因此原则合为一个词.如一般说话者会强调感觉「读书」为一个单位,但「读 小说」为两个单位.在这原则下可能被视为分词单位的例子有:
动词:并列结构:进出,收放,……
偏正结构:大笑,改称,……
动宾结构:关门,洗衣,卸货,……
名词:并列结构:春夏秋冬,轻重缓急,男女,花草,……
偏正结构:象牙,……
副词:并列结构:暂不,既已,不再,……
这条原则有两个难处,在於如何得出使用频率,以及区分值应该设在何处.这不是个容易解决的问题,在没有一套可遵循的标准法则时,对於一些字串此原则是否适用就成了见仁见智的情形,因此这条原则只是一条可用原则,但随著大规模精确语料库的建立,以及各种语言统计技术的日见精进,这个问题应可以得到较科学化,客观的解决.
(4) 双音节结构之偏正式动词尽量视为一个分词单位.合并原则
当一个字串具有动词之语法功能,若符合双音节结构,且是偏正结构,即可视为一个分词单位.因此,在「组建完毕」「紧追其後」中的「组建,紧追」虽然语意,语法功能未失组合性,不含附著语素,也不是常见字串,仍可依此原则合并之.此原则并不用於动宾及主谓式复合动词.所以「警察无故擒 人」「股市陷入价 升 量 减的走势」中「擒人」和「价升量减」不会因此原则合并.
(5) 双音节加单音节之偏正式名词尽量视为一个分词单位.合并原则
有些单音节的名词本身可独立成词,但是常与前面的双音节成分结合紧密,可视为一分词单位.例如:「线,权,车,点」所构成的成分「防卫线,捷运线,木栅线,平均线;监护权,领导权,使用权,发言权,优先权;垃圾车,交通车,宣传车,娃娃车;著眼点,立足点,共同点,争议点」.从与其他成分结合的观点来看,这些单音节名词也可视为接尾词,与衍生性附著语素并列在接尾词之列,请参见附录.
(6) 内部结构复杂之词尽量切分之.切分原则
这是一条暂行原则.下列结构虽然依前述五条细则是应合为一个词,但由於合并起来过於冗长,而且其结合需用道具法中的词组律,故不予合并.
词组带接尾词:太空 计划 室,塑胶 制品 业
动词带双音节结果补语:看 清楚,讨论 完毕
专有名词:
专名带普名:胡 先生,平汉 铁路,二二八 事变,永新 加油站
词组或句子之专名,最常见为书名,戏剧名,歌曲名: 鲸鱼 的 生 与 死
(书名),那 一 年 我们 都 很 酷 (戏剧名)
复杂结构:省 自来水 公司,台北市 第一 信用 合作社
辅大 景观 设计 系,中文 分词 规范 研究 计画
4. 正反问句:喜欢 不 喜欢,参加 不 参加
5. 动宾结构,述补结构之动词带词缀时,不予合并.
例:写信 给,分红 给,取出 给,退回去 给
2. 分词规范的层次划分
我们将分词标准分成三个层次.只要能够依分词用通用词汇库中的词项,将词一个个断开来,就符合信级(初级)的标准.在达级(中级)层次中,要求将具有简单构词规律之词也正确断出.到了雅级(高级)标准,必须将所有的词都正确断出,也就是说复杂型的复合词及无构词规律的词都必须正确切分.
信 级:凡是收录在标准辞典中的词一律断开.
达 级:能以构词律组合出来的词在达级合并.
例如:数词,专指定量词,重叠词,带词缀之衍生词
雅 级:无法以构词律组合也无法完全收录在辞典中的词在雅级合并.
例如:复合词(主要是偏正式复合名词,偏正式复合动词,述补式复合动词),专有名词,简称,合并词,成语换字,特殊领域用词
有了这样的划分原则,我们便可进一步探讨各层级的内容.信级是最易达到的标准,除了解决歧义外,未收录在词汇库中的词全部会被断成一个个字元,是任何断词系统的第一步.该层次标准之判定则需先订定通用词汇库的收词标准,并需确立该词典依时更新之原则.信级所表现的分词资料,为语言资料交换的最基本形式,任何语言资料交换应符合这个层次的标准.如果要得到词汇的相关词类,语法,语义讯息,必须从此词汇库得到.即使属於达级或雅级的复合词都要经由其复合成分得到相关词项讯息,而这些复合成分正是词汇库中的词.至於如何将被断开的词正确合并起来就成了以下两个层级的挑战.
在达级中要求由构词律组合之词必须合起来,包含了:数词,重叠词,专指定量词,带词缀之衍生词.这些词有一定内部组合规律.通常在这一个层次组合的词较规则,比较容易以自动方式处理.然而如果完全迁就於电脑的处理能力来分级,会和实际的应用脱节.因此建议达级应为一个可浮动层级,介於信级及雅级之间,将不同类型的组合词以选择性参数表示之,视为标准中的可变参数.例如为了资讯检索的应用,检索资料符合信级切分标准之外,并将所有专有名称及缩写正确合并起来,这样的文本符合达(专名,缩写)级的标准.如此一来不同的应用可以有不同的达级切分,只要将合并完成的词类别以参数表示即可.
雅级事实上就是达级的最高层次,将所有应该合并的词全数合并起来.对自动化处理而言这也是最终目标,由於有下述的一些复杂类型目前无法做到,但是如果有不同层次的分词标准,某些达级层次标准可以先予自动化,以循序渐近的方式,达到最终也是最难雅级自动化分词程式.
五,中文分词困难
为了因应实际语言的复杂性,我们也无可避免必须提供条列式的规范,作为实作的标准.辅助原则正是为适切指导个别语言状况而订,但是从另一方面而言,正因为辅助原则是条列式的形式,因此不免发生语句切分时产生顾此失彼之处.我们认为目前的规范仍有讨论空间,在此提出,作为进一步修定分词规范的参考.
1. 附著语素与前後词合为分词单位的适用范围
基本上我们不乐於见到附著语素单独被切分,但是在讨论辅助原则(2)时我们也提到由於古今用法的差异,许多附著语素在文言文的使用中具有独用的特性,因此在文白杂夹的句式中,难免有现在所谓的附著语素却独立被切分开的情况,例如「吝而不做」中的「吝」.这是因为词素只在某些特定环境中偶而出现,而绝大多数表现为附著语素,因此词汇库中的附著标记无法处理这些不同状况.
此外,由於辅助原则(1)规定有明显分隔标记应该切分,所以像动宾中插例子「跳过几次槽」的「槽」或合并中插「青,壮年」中的「青」都因为另有依据的原则,而不得不舍弃原则(2),而仍保有附著语素独自为一分词单位.类似的,为了符合辅助原则(6)内部结构复杂成分尽量切分的要求,也产生了附著语素单独作切分单位的情况,例如「都市计昼案」中的「案」以及「环境保护署」中的「署」.
由於附著语素的判断存在困难,我们常常无法决定一个成分究竟是独立语素或附著语素,例如「眼,耳,鼻,舌」.所以有些情况下不容易决定是否该采行辅助原则(2),对附著成分作合词动作,因此以标准词典作为合词依据,不在词典内的情况一律切分.基於这样的考量,动宾式及名方式结构仍存在附著语素被单独切分.例如「桌 上,崖 边」.
另外由於定词或数词与名词出现时,除少数有词汇意义的成分合词外,一律作切分,故有许多附著语素独立作一切分单位.如「数 职,哪 一 型,一 案,一 役,两 嫌,该 剧」.
2. 有关偏正式结合的规定
辅助原则(4)(5)是关於偏正式动词及偏正式名词的合词规定.相较於其他原则是一般普遍性的规定,适用於所有的范围,辅助原则(4)(5)则较具有独用性,只针对某个特有类型作规定.
辅助原则(5)双音节加单音节之偏正式名词尽量视为一个分词单位,是由使用上的语感著眼,但是这条辅助原则的实践会遭遇几个问题.
(1) 衍生性接尾词词集范围不易确定
为方便电脑作业,理应有一明确词集限定作接尾用的名词,才能藉由构词律作合词动作,而且为求各方处理的一致性,该词集应是一固定不变更的有限集合.
搜罗此词集的一种方式是由语料库上出现的语词整理衍生性词尾.但是由於语言的演化及开放性,陆续可能又会发现可列入词集的成分,因此必须随时更新词集,这又与上述固定有限集合的理想冲突.
另一个作法是直接由标准词典上作全面整理标识,不过最大的困难是如何判定某个单音节名词性成分具有衍生性接尾的特性.如果贯彻辅助原则的规定,理应所有单音节名词性成分前面有双音节成分,都尽可能合为一成分.但是这麼一来,又可能造成词组成分都被合为一个分词单位,例如「长江水,黄色水,简单事,朋友家」.
(2) 不符合音节限制的分合未明
在原则中限定双音节与单音节名词的合词,如果依照此原则执行,则未来分词单位势必出现许多三音节的成分,可以预见对中文词的音节数指出新的演进方向.在古中文以单音节词为主,渐趋演进至现代的双音节词,如果分词标准所订的原则是符合现代语感的,那麼显然当代的中文又有一股三音节词造词运动的潮流.不过这里原则偏重於双音节与单音节名词的合词规定,却忽略单音节与单音节名词成分的规定,如果双音节词是目前中文词的大宗,那麼双音节的偏正式名词应更优先考量合为一词.词缀「-度」所构成的词除了三音节「配合度,透明度,精确度,灵敏度」,更有许多双音节词「信度,难度,高度,甜度」.类似的,由接尾词「-类」所构成旳词除了三音节的「塑胶类,纺织类,爬虫类」之外,还有许多双音节词「鸟类,虫类,纸类」,虽然在原则中未明确规范,仍应合词.再者,如果音节数大於所规定,似仍应一律合词.
(3) 合词范围的判断有困难
即使确定某个成分是接尾词,但因接尾词本身具有独立成词的条件,故前面出现的是双音节成分,仍然不易确定是否一律合词.例如由「处」可构成「公车处,新闻处,筹备处,管理处,服务处,办公处,人事处」等机构,但「转折处,矛盾处,交会处,经理处,老板处」等一般处所是否也一律合词?再如「量」可构成「运动量,消耗量,蕴藏量,生产量」,但如果是遇到「暂时量,不变量,普通量,一定量」等情形是否也一样合词?仍须深入探讨以求一致原则.
另外辅助原则(5)有关双音节与单音节构成偏正式名词的规定,与辅助原则(6)内部结构复杂之成分切分的条文有冲突的地方,因此「用纸量,含铁量,耗油量,排水量」可依原则(6)而切分为三个成分,也可依原则(5)而合词.这时便需另引用其他原则以决定是否分词.
以上所讨论是辅助原则(5)实施可遭遇的问题,辅助原则(4)关於双音节偏正式动词的规定也有类似的困难:
(1) 衍生性接头词的词集范围不易确定
虽然原则规定双音节偏正式动词合为一个成分,但是这项规定显然是有其施行范围,一般我们不会把「常来,多买,很高,颇大」合为一个切分单位,因此是有特定的接头成分,而非毫无选择性的.目前收列有「重,增,代,改」等26个接头词,同样的也面临到这个词集的完整性问题,超出此词集范围的分合情况不易决定.
(2) 有关音节限制的题
如果采用接头词与动词性成分合词的规律规范双音节偏正式动词,「相爱,相知,相助」是一切分单位.但「相 撞击,相 扶助」是否为一分词单位则未明确规定.
六,结论
分词规范的制定历经多年的前置准备工夫,又经过数位专家多次会议讨论,目前呈现的面貌是以层次的划分及原则的变异性区分,因此有信,达,雅三个层次,处理不同难易度的分词作业;另有不变的核心准则(包括定义及基本原则)以及可变的辅助原则,指导分词的进行.与大陆条列式的分词规范相比,本分词规范比较切合资讯处理的实际现况,同时也提供电脑自动化处理的理想,不但能有理论上的基础,并能为资讯分词处理规划努力的标竿.
虽然目前不能达到尽善尽美的地步,但是分词规范描绘出整个架构,而且已在词库小组的语料库建立担负起分词的主要依据.在草创时期,已有二百万的平衡语料是在分词标准的大原则下作切分(词库小组 1995),接著有七十万目词语料库是完全依据分词草案进行切分,达到达级的分合标准(词库小组 1996).目前又陆续完成了八十万目词的语料切分.我们希望各界也能够参考制定的分词规范,把实际工作的成效反应给我们.相信在大家的努力下,能够形成带动中文资讯发展的另一股动力.
参考文献
吕叔湘主编(1984) 汉语八百词,香港商务印书馆.
林甫雯(1990) 汉语的述补式复合动词,清华大学硕士论文.
姜美玉(1995) 汉语重叠现象,清华大学硕士论文.
梁南元(1990) 「信息处理现代汉语分词规范草案」及其切分标准原则问题,语文建设 通讯28期,页45-53.
张慎敏(1994) 现代汉语「起来」的语意及句法研究,清华大学硕士论文.
张丽丽(1993) 现代汉语中的法相词,中文词知识库小组技术报告#93-06,南港,中央研究院.
汤廷池(1985) 「国语句法中的重叠现象」,国语语法研究论集,页113-132.
汤廷池(1994) 「北平话否定词的语意内涵与出现分布」,国语语法句法五集,页101-116.
词库小组(1993) 中文词类分析,中文词知识库小组技术报告#93-05,南港,中央研究院.
词库小组(1995) 中央研究院平衡语料库的内容与说明,中文词知识库小组技术报告#95-02,南港,中央研究院.
词库小组(1996) 资讯处理用中文分词标准草案,经济部中央标准局.
刘源,谭强,沈旭昆(1993) 信息处理用现代汉语分词规范及自动分词方法,北京,清华大学出版社.
郑雅霞,黄居仁(1989) 「成语的语法表达模式与自然语言剖析」,国文天地54期,页58-62.
魏文真(1995) 国语的有字句,清华大学硕士论文.
Chao, Yuen Ren (1968) A Grammar of Spoken Chinese, University of California Press, California.
Huang, Chu-Ren (1987) Mandarin Chinese NP DE: A Comparative Study of Current Grammatical Theories, PhD diss., Cornell University.
Huang, Chu-Ren, Ruo-Ping Mo (1992) "Mandarin Ditransitive Construction and the Category of gei" The Berkeley Linguistic Society 18, pp109-122, Berkeley: BLS.
Li, Charles & Sandra Thompson (1981) Mandarin Chinese: A Functional Reference Grammar, University of California Press, California.
相关著作
高照明,陈克健,黄居仁(1994),中文分词规范之研究与规画,资讯标准
简介,3:5-6.
词库小组(1996),『搜』文解字–中文词界研究与资讯用分词标准,中文词
知识库小组技术报告#96-01,南港,中央研究院.
Chu-Ren Huang, Keh-jiann Chen and Li-Li Chang. 1996. "Segmentation Standard for Chinese Natural Language Processing." Proceedings of the 1996 International Conference on Computational Linguistics (COLING 96). pp. 1045 - 1048. August 1996. Copenhagan, Denmark.
A Segmentation Standard for Chinese Information Processing:
Design Criteria and Content
Chu-Ren Huang*Keh-Jiann Chen**Feng-Yi Chen**Wen-Chen Wei**Li-li Chang**
*Institute of History and Philology, Academia Sinica
** Institute of Information Science, Academia Sinica
ABSTRACT
本文提出「资讯处理用中文分词规范」有下列两个突破1)提出分级的观念及确立信,达,雅三级的标准.最容易达到的信级订为基本资料交换的标准;技术上较难,但自动分词程式仍可达到的达级作机器翻译,资讯检索等自然语言处理的标准;至於最需要人工分词才能达到的雅级则视为电脑处理,理解中文之最高目标.(2)把分词规范分成不变核心(分词单位定义及基本原则),以及可变准则(辅助原则).在确定分词规范架构後,只要定时更新基本词库或特殊领域的专门词库,便可维持分词规范的不变性.
例如「不下,不力,不休」等,参见3.14节.
参见刘源,谭强,沈旭昆(1993)页3~5.
当重叠结构之意义未失组合性,则不予合并.例如「坐坐坐,哈哈,叮当叮当」不须组合成一个词,因该字串之语意可从每个成分组合而成,并无多出的词意.
但像「养得起,养不起」,「处得来,处不来」因无相对应之「养起」,「处来」,所以视为一分词单位,不予切分.
_________________
返回顶端 seashore
论坛管理员


年龄:25
十二宫图:
加入时间: 2004/10/25
文章: 298

卓音元: 367

时间: 2005-1-24 周一, 上午7:58    标题:
一个简单的中文分词
CLucene - a C++ search engine http://sourceforge.net/projects/clucene/

传统的全文检索都是基于数据库的,Sql Server Oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(Mysql4.0以上可以作为整合开发),Mysql也不支持中文。
后来得知Apache有一个开源的全文检索引擎,而且应用比较广,Lucene是Apache旗下的JAVA版的全文检索引擎,性能相当出色,可惜是java版的,我一直在想有没有C或C++版的,终于有一天在http://sourceforge.net 淘到一个好东东,Clucene!CLucene是C++版的全文检索引擎,完全移植于Lucene,不过对中文支持不好,而且有很多的内存泄露,
Cluene不支持中文的分词,我就写了一个简单的中文分词,大概思路就是传统的二分词法,因为中文的分词不像英文这类的语言,一遇到空格或标点就认为是一个词的结束,所以就采用二分词法,二分词法就是例如:北京市,就切成 北京 , 京市。这样一来词库就会很大,不过是一种简单的分词方法(过段时间我再介绍我对中文分词的一些思路) ,当然了,在检索时就不能输入“北京市”了,这样就检索不到,只要输入:“+北京 +京市”,就可以检索到北京市了,虽然精度不是很高,但适合简单的分词,而且不怕会漏掉某些单词。
我照着Clucene的分词模块,做了一个ChineseTokenizer,这个模块就负责分词工作了,我把主要的函数写出来

ChineseTokenizer.cpp:

Token* ChineseTokenizer::next() {


while(!rd.Eos())
{
char_t ch = rd.GetNext();


if( isSpace((char_t)ch)!=0 )
{
continue;
}
// Read for Alpha-Nums and Chinese
if( isAlNum((char_t)ch)!=0 )
{
start = rd.Column();

return ReadChinese(ch);
}
}
return NULL;
}

Token* ChineseTokenizer::ReadChinese(const char_t prev)
{
bool isChinese = false;
StringBuffer str;
str.append(prev);

char_t ch = prev;

if(((char_t)ch>>&&(char_t)ch>=0xa0)
isChinese = true;

while(!rd.Eos() && isSpace((char_t)ch)==0 )
{

ch = rd.GetNext();

if(isAlNum((char_t)ch)!=0)
{
//是数学或英语就读到下一个空格.或下一个汉字
//是汉字.就读下一个汉字组成词组,或读到空格或英文结束
if(isChinese)
{
//汉字,并且ch是汉字
if(((char_t)ch>>&&(char_t)ch>=0xa0)
{
// 返回上一个汉字
str.append(ch);
rd.UnGet();
// wprintf(_T("[%s]"),str);
return new Token(str.getBuffer(), start, rd.Column(), tokenImage[lucene::analysis::chinese::CHINESE] );
}
else
{
//是字母或数字或空格
rd.UnGet();
// wprintf(_T("[%s]"),str);
return new Token(str.getBuffer(), start, rd.Column(), tokenImage[lucene::analysis::chinese::CHINESE] );
}
}
else
{
//非汉字
// ch是汉字
if(((char_t)ch>>&&(char_t)ch>=0xa0)
{
// wprintf(_T("[%s]"),str);
rd.UnGet();
return new Token(str.getBuffer(), start, rd.Column(), tokenImage[lucene::analysis::chinese::CHINESE] );
}
str.append( ch );
}
}

}
// wprintf(_T("[%s]"),str);
return new Token(str.getBuffer(), start, rd.Column(), tokenImage[lucene::analysis::chinese::ALPHANUM] );
}


同时,这个中文分词不支持文件,只能支持内存流的形式,因为我用到了rd.UnGet();如果是文件的话,嘿嘿,只能回退半个字节哦

嗯。先写到这里了,今天太急了,等我有空了我就把我对CLucene的改进发到上面来。
_________________
返回顶端 seashore
论坛管理员


年龄:25
十二宫图:
加入时间: 2004/10/25
文章: 298

卓音元: 367

时间: 2005-1-24 周一, 上午8:01    标题:
中文搜索引擎技术揭密:中文分词


信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

中文分词和搜索引擎

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)上以“和服”为关键词进行搜索:

在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:

“通信信息报:瑞星以技术和服务开拓网络安全市场”

“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”

“陈慧琳《心口不一》化妆和服装自己包办”

“::外交部:中国境外领事保护和服务指南(2003年版) ...”

“产品和服务”

等等。第一页只有三篇是真正在讲“和服”的结果。

在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:

“福建省晋江市恒和服装有限公司系独资企业”

“关于商品和服务实行明码标价的规定”

“青岛东和服装设备”

在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

中文分词技术

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

1、歧义识别

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

2、新词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

中文分词的应用

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
_________________
返回顶端 枫林火山
卓音成员


年龄:35
十二宫图:
加入时间: 2004/10/30
文章: 244

卓音元: 266

时间: 2005-1-24 周一, 下午9:07    标题:
很遗憾,这些我都看过,ICTCLAS比较好,能找到它的早期的免费版本就ok了,尤其是那两个dll文件,http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm返回顶端 seashore
论坛管理员


年龄:25
十二宫图:
加入时间: 2004/10/25
文章: 298

卓音元: 367

时间: 2005-2-07 周一, 下午3:27    标题:
枫林火山 写道:很遗憾,这些我都看过,ICTCLAS比较好,能找到它的早期的免费版本就ok了,尤其是那两个dll文件,http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm

我已经开始学C++了
_________________
返回顶端 rrrrrr
版主


年龄:23
十二宫图:
加入时间: 2004/10/27
文章: 40

卓音元: 52

时间: 2005-2-07 周一, 下午6:14    标题:
开始看还以为是水那?
_________________
.....................................................