如何控制Robots的访问

      一般来说,大家都想要让自己的网站被各大搜索引擎收录,但是有部分的网站,比如是收费的,这些网站的主要服务对象是收费用户,他们是不想被搜索引擎收录。现在我就来介绍一下如何控制搜索引擎的访问。
      1、使用robots.txt文件。
      在你的网站目录下建一个robots.txt文件,搜索引擎每次检索网页的时候,都会检查一下根目录下是否有这个文件,要是有的话,就按照这个robots.txt上的要求去检索网页,要是没有的话,就按正常的方式去检索,默认你是全部公开你的网页的。
      robots.txt文件的写法(可以参考本站根目录下的robots.txt):
      User-agent: *  是指搜索引擎的名称,比如百度的是Baiduspider,Google的是Googlebot,如果对所有的搜索引擎一起控制的话,就填一个 '*' 就可以了。
      Disallow:  是不允许搜索引擎访问的目录。
      sitemap:  提交一个sitemap,使搜索引擎能够比较完整的遍历整个站点。sitemap 后填写本站的sitemap地址。
      有两点要注意:
      1、默认是以根目录开始的。
      比如你要Disallow /cgi-bin/目录下的mt 和 mt2 两个目录,但是不想Disallow其他目录,那你就要Disallow两次。
      Disallow: /cgi-bin/mt/    
      Disallow: /cgi-bin/mt2/
      2、在最后都要加一个'/'表示结束。
      如果你想要对不同的搜索引擎控制不同的访问的话可以多些几个 User-agent 和 Disallow。具体的可以参考这里
      2、在META标签里面进行控制
      如果你要控制某个目录下的某些文件的话,那用robots.txt就不能控制了,因为那个是控制整个目录的,你要使用<head>标签中的<meta>来控制。
      meta控制搜索机器人的写法是:
      <meta name="Robots" content="">
      在content中可以有一下四个选项(每个选项之间用逗号表示,用英文的逗号):
      index:索引收录本页面。
      noindex:不索引收录本页面。
      follow:根据本页面的链接索引其他页面。
      nofollow:不索引本页面链接上的页面。
      例如:<meta name="Robots" content="index,follow">表示索引本页面,并且也索引本页面上的链接。

      robots.txt 和 meta 标签的优先级:既然meta是控制某些目录下的文件,robots.txt的优先级应该比meta的要高。一般来说,在根目录下最好弄个robots.txt,因为搜索引擎的蜘蛛检索的时候都会检查这个文件的。
作者:Jackie,转载本文时,必须以超链接的形式标明文章的原始出处!
网址:
 | 0 Comments | EDIT
相关日志

Advertisements

  • 史蒂夫•乔布斯传(精装珍藏版,附印作者签章)
  • 黑客:计算机革命的英雄
  • HTML5揭秘
  • 卓越购书,满一百返20。
  • 留言

    曙光博客订阅 曙光博客邮件订阅 曙光博客视频
    • Bluehost虚拟主机
    • MediaTemple虚拟主机
    • Hostgator虚拟主机
    • Hostmonster虚拟主机

    推荐文章

    PhotoShop CS5官方下载地址+注册机下载 PhotoShop CS5官方下载地址+注册机下载
    Dropbox Dropbox
    10个免费的在线QR码生成网站 10个免费的在线QR码生成网站
    免费Gmail备份工具 免费Gmail备份工具
    WordPress备份插件汇总 WordPress备份插件汇总
    无觅相关文章插件,快速提升流量