seo的双刃剑--robots.txt简介

来源：百度文库编辑：神马文学网时间：2024/10/03 02:35:46

有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引，即使你从未与他们有过任何联系。其实这正是Web Robot的功劳。WebRobot其实是一些程序，它可以穿越大量Internet网址的超文本结构，递归地检索网络站点所有的内容。这些程序有时被叫“蜘蛛（Spider）” ， “网上流浪汉（Web Wanderer）”，”网络蠕虫（web worms）”或Webcrawler。常见的搜索引擎有google,yahoo,msn,百度，soso，sogou等等。
现在所有网站都考虑seo，所谓seo就是优化网站对这些搜索引擎的友好度，让自己的网站更容易通过搜索引擎被访问到。然而，Robot程序抓你的网站页面时，有时会因为频率太高而影响你的服务器，所以，合理的设置robots.txt（注意，是robots）很重要。
若要控制爬网你的网站的时间和方式，请在网站的顶层（根）目录创建 robots.txt 文件。在 robots.txt 中，可以指定允许或阻止哪些爬网软件。大部分爬虫程序都遵循robots.txt的规范。
robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
下面是一些robots.txt基本的用法：
l 禁止所有搜索引擎访问网站的任何部分：
User-agent: *
Disallow: /
l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file
l 禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp、private目录）
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
l 禁止某个搜索引擎的访问（下例中的BadBot）
User-agent: BadBot
Disallow: /
l 只允许某个搜索引擎的访问（下例中的WebCrawler）
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
l 所有的搜索引擎抓取间隔设置(20意味着20秒）：
User-agent:*
Disallow:
Crawl-delay:20
3、常见搜索引擎机器人Robots名字
名称搜索引擎
Baiduspiderhttp://www.baidu.com
Scooterhttp://www.altavista.com
ia_archiverhttp://www.alexa.com
Googlebothttp://www.google.com
FAST-WebCrawlerhttp://www.alltheweb.com
Slurphttp://www.inktomi.com
MSNBOThttp://search.msn.com
发现一个生成robots.txt的工具网站，与各位朋友分享。
http://www.mcanerin.com/EN/search-engine/robots-txt.asp
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=1102882

seo的双刃剑--robots.txt简介 SEO研究，百度对301彻底无视,301后的robots.txt设置 robots.txt 指南如何写robots.txt？如何写robots.txt？ Robots.txt怎么写？如何写robots.txt 用robots.txt探索Google Baidu隐藏的秘密 robots.txt文件你真的知道怎么用吗？ robots.txt和Robots META标签 robots.txt和Robots META标签 robots.txt和Robots META标签 robots.txt写法,规范,作用 robots.txt写法,规范,作用你所不知道的robots.txt秘密——史上最全的robots优化设置指南 | 互联网创业... SEO是什么？SEO简介 SEO简介 Robots.txt指南:全国特价虚拟主机联盟! 拒绝搜索引擎抓取页面:robots.txt 你知道什么是robots.txt和Robots META标签吗？和搜索有什么关系吗? 你知道什么是robots.txt和Robots META标签吗？和搜索有什么关系吗? robots.txt文件怎么配置! - 已解决 - 搜搜问问 “家”文化的双刃剑抗癌基因的双刃剑