如何控制Robots的访问

一般来说，大家都想要让自己的网站被各大搜索引擎收录，但是有部分的网站，比如是收费的，这些网站的主要服务对象是收费用户，他们是不想被搜索引擎收录。现在我就来介绍一下如何控制搜索引擎的访问。

1、使用robots.txt文件

在你的网站目录下建一个robots.txt文件，搜索引擎每次检索网页的时候，都会检查一下根目录下是否有这个文件，要是有的话，就按照这个robots.txt上的要求去检索网页，要是没有的话，就按正常的方式去检索，默认你是全部公开你的网页的。

robots.txt文件的写法（可以参考本站根目录下的robots.txt）：

User-agent: * 是指搜索引擎的名称，比如百度的是Baiduspider，Google的是Googlebot，如果对所有的搜索引擎一起控制的话，就填一个 '*' 就可以了。

Disallow: 是不允许搜索引擎访问的目录。

sitemap: 提交一个sitemap，使搜索引擎能够比较完整的遍历整个站点。sitemap 后填写本站的sitemap地址。

有两点要注意：

1、默认是以根目录开始的。

比如你要Disallow /cgi-bin/目录下的mt 和 mt2 两个目录，但是不想Disallow其他目录，那你就要Disallow两次。

Disallow: /cgi-bin/mt/
Disallow: /cgi-bin/mt2/

2、在最后都要加一个'/'表示结束。

如果你想要对不同的搜索引擎控制不同的访问的话可以多些几个 User-agent 和 Disallow。具体的可以参考这里。

如果你要控制某个目录下的某些文件的话，那用robots.txt就不能控制了，因为那个是控制整个目录的，你要使用<head>标签中的<meta>来控制。

meta控制搜索机器人的写法是：

在content中可以有一下四个选项（每个选项之间用逗号表示，用英文的逗号）：

index：索引收录本页面。

noindex：不索引收录本页面。

follow：根据本页面的链接索引其他页面。

nofollow：不索引本页面链接上的页面。

例如：<meta name="Robots" content="index,follow">表示索引本页面，并且也索引本页面上的链接。

robots.txt 和 meta 标签的优先级：既然meta是控制某些目录下的文件，robots.txt的优先级应该比meta的要高。一般来说，在根目录下最好弄个robots.txt，因为搜索引擎的蜘蛛检索的时候都会检查这个文件的。