【高分请教】 实现海量搜索给点思路,来皆都有分!

来源:百度文库 编辑:神马文学网 时间:2024/06/05 11:39:24
CSDN -技术社区 -
主  题:【高分请教】 实现海量搜索给点思路,来皆都有分!
作  者:flyfish51f (flyfish51f)
信 誉 值:99
所属论坛:MS-SQL Server 数据库开发
问题点数:100
回复次数:28
发表时间:2003-04-14 12:54:29Z
海量搜索http://search.csdn.net/help.htm1、对用户输入的不带空格的多关键词搜索串,系统先进行分词,并只搜索出分词结果出现在同一短句内的文章。短句,即表示一个完整意思的文字段。一般以问号、逗号、句号、省略号、感叹号、分号、冒号等为分开标志。 例如:搜索“软件工程师”,系统会自动分词为“软件”和“工程师”,然后系统在搜索库中查找“软件”和“工程师”同时出现在同一短句内的所有文章。这就能命中出现“软件工程师”、“软件测试工程师”等这样句子的文章。 2、 根据上下文确定要查看的网页 每个海量搜索结果都包含文章的主题和文章内容的一段摘要,这些摘要提供了搜索关键词在网页中的上下文,其中的关键词用红色显示出来,如果对文章内容感兴趣,点击标题就会链接到相应的文章。分词如何实现?怎样取得上下文摘要?请多给思路,来都有分!
回复人: pengdali(大力 V3.0) ( ) 信誉:557 2003-04-14 12:59:06Z 得分:5
我们正在上知识管理,真是让我大开眼界,我现在知道什么叫搜索
Top
回复人: yoki(小马哥--鬓微霜,又何妨) ( ) 信誉:100 2003-04-14 13:12:20Z 得分:5
大力说来听听~,让俺们也开开眼
Top
回复人: wenhao676(zzc) ( ) 信誉:101 2003-04-14 13:12:44Z 得分:5
没考虑过,学习,up! 关注!
Top
回复人: pengdali(大力 V3.0) ( ) 信誉:557 2003-04-14 13:26:33Z 得分:10
搜索数据源: km 支持 所有现有常用数据库如:mssql,oracle,mysql,access,sybase,db2..,支持大部分文件格式,pdf,doc,xls,html,xml...,支持网页抓取(网络蜘蛛),甚至你的共享文件夹、你的E-Mail....也就是说,你写入“大力”,它可以在任何一个数据库中,文档中,文件夹下,网络上全文搜索,按相似度排序。
Top
回复人: pengdali(大力 V3.0) ( ) 信誉:557 2003-04-14 13:28:43Z 得分:10
km 自动摘要:不是你在搜索引擎上的自动摘要,他是按统计学和文字学来复杂摘要,以文找文,同意词搜索.. 智能分类:对与搜索结果自动分类。
Top
回复人: flyfish51f(flyfish51f) ( ) 信誉:99 2003-04-14 13:28:45Z 得分:0
To:pengdali(大力) 说来听听!这些我是从海量哪摘过来的!还请指教!
Top
回复人: pengdali(大力 V3.0) ( ) 信誉:557 2003-04-14 13:33:37Z 得分:5
速度极块,相Google一样。太牛了,真是大开眼界!忘了说是全java实现,且我都体验过了。我刚开始以为是吹的,一看。。哇!我们落后国外很多了!
Top
回复人: pengdali(大力 V3.0) ( ) 信誉:557 2003-04-14 13:36:40Z 得分:10
特别是二维搜索,自动摘要,智能分类,我看的还只是标准版
Top
回复人: flyfish51f(flyfish51f) ( ) 信誉:99 2003-04-14 13:42:07Z 得分:0
海量分词演示(演示版仅支持简体中文)http://demo.hylanda.com/Segmentdemo.php
Top
回复人: flyfish51f(flyfish51f) ( ) 信誉:99 2003-04-14 14:37:48Z 得分:0
to:pengdali(大力) 你那个标准版哪里down啊
Top
回复人: happydreamer() ( ) 信誉:204 2003-04-14 15:02:41Z 得分:2
进来学习
Top
回复人: flyinger(风往北吹) ( ) 信誉:99 2003-04-22 12:42:42Z 得分:2
hehe!
Top
回复人: lizongqi(英雄啊) ( ) 信誉:100 2003-04-22 13:51:06Z 得分:2
gz
Top
回复人: liuyunfeidu(飞龙) ( ) 信誉:100 2003-04-22 14:18:44Z 得分:2
强烈关注
Top
回复人: lynx1111(任我行:一个PLMM看着就兴奋的男人) ( ) 信誉:95 2003-04-22 15:22:55Z 得分:2
我背下来!
Top
回复人: shuiniu(飞扬的梦)(我是一头只吃西红柿的水牛) ( ) 信誉:100 2003-04-22 15:36:09Z 得分:2
强烈关注!
Top
回复人: dwhhh(我很头痛!!!) ( ) 信誉:100 2003-04-22 16:19:31Z 得分:2
Google就是这样的!gz
Top
回复人: wenddy112(敬) ( ) 信誉:100 2003-04-22 17:21:52Z 得分:13
要分词你首先得有一个词库。现在有很多大学再做词库,当然那是有知识产权的了。有了词库就可以用很多的方法来分词。如最大匹配法等。其实海量的速度也不是很快了。现在较快的分词算法应该是哈希分词算法。是贵州大学做的。以后网上应该有测试版出。上下文嘛,你可以设定一个罚值,在你搜索到的词的前后多少个字。或者前后多少句。就可以了。
Top
回复人: longyunfei(龙云飞) ( ) 信誉:96 2003-04-22 17:33:01Z 得分:2
向大家学习!!1
Top
回复人: benxie(结婚是幸福的!为了老婆努力赚钱!) ( ) 信誉:100 2003-04-22 21:51:57Z 得分:2
gz
Top
回复人: haina219(海纳) ( ) 信誉:100 2003-04-22 23:44:28Z 得分:2
长学问啊!
Top
回复人: superhasty(鸟儿自空中飞过) ( ) 信誉:100 2003-04-23 17:17:39Z 得分:2
看过。不认为这种分词是非常合理的。
Top
回复人: skity() ( ) 信誉:100 2003-04-23 20:24:38Z 得分:2
厉害
Top
回复人: tanrui(Tanruy) ( ) 信誉:100 2003-04-28 19:09:45Z 得分:2
我在做搜索的时候遇到一个最基本的问题:就是数据库有几百万行数据,如果用like语句来作为条件进行搜索的话,查询的时间是无法忍受的。这个问题通常是怎么解决的呢?谢谢各位高手指点。。
Top
回复人: asam2183(三山) ( ) 信誉:100 2003-04-28 20:14:09Z 得分:2
学习
Top
回复人: wenddy112(敬) ( ) 信誉:100 2003-04-28 22:28:15Z 得分:5
kmp算法
Top
回复人: online(龙卷风V2.0--再战江湖) ( ) 信誉:100 2003-04-29 12:53:16Z 得分:2
进来学习
Top
回复人: joygxd(不经风雨怎见彩虹) ( ) 信誉:100 2003-04-29 13:01:51Z 得分:2
我没接触过,不知什么时候才能了解
Top
该问题已经结贴 ,得分记录: pengdali (5)、 yoki (5)、 wenhao676 (5)、 pengdali (10)、 pengdali (10)、 pengdali (5)、 pengdali (10)、 happydreamer (2)、 flyinger (2)、 lizongqi (2)、 liuyunfeidu (2)、 lynx1111 (2)、 shuiniu (2)、 dwhhh (2)、 wenddy112 (13)、 longyunfei (2)、 benxie (2)、 haina219 (2)、 superhasty (2)、 skity (2)、 tanrui (2)、 asam2183 (2)、 wenddy112 (5)、 online (2)、 joygxd (2)、