如何控制Robots的访问

一般来说,大家都想要让自己的网站被各大搜索引擎收录,但是有部分的网站,比如是收费的,这些网站的主要服务对象是收费用户,他们是不想被搜索引擎收录。现在我就来介绍一下如何控制搜索引擎的访问。

1、使用robots.txt文件

在你的网站目录下建一个robots.txt文件,搜索引擎每次检索网页的时候,都会检查一下根目录下是否有这个文件,要是有的话,就按照这个robots.txt上的要求去检索网页,要是没有的话,就按正常的方式去检索,默认你是全部公开你的网页的。

robots.txt文件的写法(可以参考本站根目录下的robots.txt):

User-agent: * 是指搜索引擎的名称,比如百度的是Baiduspider,Google的是Googlebot,如果对所有的搜索引擎一起控制的话,就填一个 '*' 就可以了。

Disallow: 是不允许搜索引擎访问的目录。

sitemap: 提交一个sitemap,使搜索引擎能够比较完整的遍历整个站点。sitemap 后填写本站的sitemap地址。

有两点要注意:

1、默认是以根目录开始的。

比如你要Disallow /cgi-bin/目录下的mt 和 mt2 两个目录,但是不想Disallow其他目录,那你就要Disallow两次。

Disallow: /cgi-bin/mt/
Disallow: /cgi-bin/mt2/

2、在最后都要加一个'/'表示结束。

如果你想要对不同的搜索引擎控制不同的访问的话可以多些几个 User-agent 和 Disallow。具体的可以参考这里

2、在META标签里面进行控制

如果你要控制某个目录下的某些文件的话,那用robots.txt就不能控制了,因为那个是控制整个目录的,你要使用<head>标签中的<meta>来控制。

meta控制搜索机器人的写法是:

<meta name="Robots" content="">

在content中可以有一下四个选项(每个选项之间用逗号表示,用英文的逗号):

index:索引收录本页面。

noindex:不索引收录本页面。

follow:根据本页面的链接索引其他页面。

nofollow:不索引本页面链接上的页面。

例如:<meta name="Robots" content="index,follow">表示索引本页面,并且也索引本页面上的链接。

robots.txt 和 meta 标签的优先级:既然meta是控制某些目录下的文件,robots.txt的优先级应该比meta的要高。一般来说,在根目录下最好弄个robots.txt,因为搜索引擎的蜘蛛检索的时候都会检查这个文件的。