机器人(搜寻引擎术语)

常见名字

google蜘蛛： googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛： lycos_spider_(t-rex)

alltheweb蜘蛛： fast-webcrawler/

inktomi蜘蛛： slurp

当一个搜寻蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜寻机器人就会按照该档案中的内容来确定访问的範围；如果该档案不存在，所有的搜寻蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下，而且档案名称必须全部小写。

User-agent:描述搜寻引擎robot的名字

即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜寻引擎有效可用通配符 *表示全部

Disallow: 描述不希望被访问的一组URL

设定禁止访问的部分，可以用完整url ，也可以用相对路径，可以是单个目档案，也可以是整个资料夹，也可以用通配符限定指定类型

Allow: 描述希望被访问的一组URL

设定允许访问的部分，不过因为默认是全部允许的，这个语法通常是配合disallow使用的，用它来完成如“除了xxx.html该目录下全部不能访问”这样的设定。要注意的是allow和disallow的顺序是有讲究的，搜寻引擎会以它先看到的规则为判断标準。

关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字元。

我们在进行网站最佳化的时候，很多时候需要把一些无用连线，及二级目录，还有一些重要的档案，如后台管理，这些我们都是不希望蜘蛛抓取到的，我们可以使用robots进行禁止，以防权重丢失或一些重要的档案被别人看到！

例1. 禁止所有搜寻引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的搜寻引擎访问

User-agent: *

Allow: /

或者

可以建一个空档案 “robots.txt“里面什幺都不要写

例3. 仅禁止百度抓取网站所有档案

User-agent: Baiduspider

Disallow: /

例4. 仅允许百度访问网站

User-agent: Baiduspider

Allow: /