建站教程>CMS建站>帝国cms分页采集正则及过滤技巧-中国西部旅游信息网
来源:百度文库 编辑:神马文学网 时间:2024/10/04 17:45:58
帝国cms分页采集正则及过滤技巧
http://www.hz8851.com | 时间:2010-06-16 | 关注人次[10111] | 字体设置:大中小
-
老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。
从文章的源代码中获得的
第一种:
编写的规则:
选全部列出式
区域正则:
http://www.hz8851.com | 时间:2010-06-16 | 关注人次[10111] | 字体设置:大中小
-
老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。
从文章的源代码中获得的
第一种:
编写的规则:
选全部列出式
区域正则:
[!--smallpageallzz--]'>下一页 [!--ad--]
链接正则:
--------------------------------------------------------------------------------
第二种
采集代码
编写的规则:
选用上下导航式:
分页区域正则:[!--smallpagezz--]下一页
分页链接正则:新闻正文正则:
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
[!--newstext--]
过滤广告正则:
例如:http://www.3edu.net/lw/3/lw_31205.html
--------------------------------------------------------------------------------
第三种
编写的规则:
"全部列出"式正则设置:
分页区域正则(无)
分页链接正则:
--------------------------------------------------------------------------------
第四种:
选全部列出式
区域正则: