勇敢心资源网

当前位置:首页 > 百科 / 正文

机器人(搜寻引擎术语)

(2019-03-05 04:32:37) 百科

机器人(搜寻引擎术语)

机器人是Robot英文直译,在搜寻引擎最佳化SEO中,我们经常翻译为:探测器。有时,你会碰到crawlew(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。

基本介绍

  • 中文名:机器人
  • 外文名:Robot
  • 地方:搜寻引擎最佳化SEO
  • 类型::探测器

常见名字

google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp

基本语法

当一个搜寻蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜寻机器人就会按照该档案中的内容来确定访问的範围;如果该档案不存在,所有的搜寻蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且档案名称必须全部小写。
User-agent:描述搜寻引擎robot的名字
即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜寻引擎有效 可用通配符 *表示全部
Disallow: 描述不希望被访问的一组URL
设定禁止访问的部分,可以用完整url , 也可以用相对路径,可以是单个目档案,也可以是整个资料夹,也可以用通配符限定指定类型
Allow: 描述希望被访问的一组URL
设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜寻引擎会以它先看到的规则为判断标準。
关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字元。

套用案例

我们在进行网站最佳化的时候,很多时候需要把一些无用连线,及二级目录,还有一些重要的档案,如后台管理,这些我们都是不希望蜘蛛抓取到的,我们可以使用robots进行禁止,以防权重丢失或一些重要的档案被别人看到!
例1. 禁止所有搜寻引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的搜寻引擎访问
User-agent: *
Allow: /
或者
可以建一个空档案 “robots.txt“里面什幺都不要写
例3. 仅禁止百度抓取网站所有档案
User-agent: Baiduspider
Disallow: /
例4. 仅允许百度访问网站
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
例5. 禁止搜寻引擎抓取特定目录
在这个例子中,该网站有三个目录对搜寻引擎的访问做了限制,即搜寻引擎不会访问这三个目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /joe/
例6. 只允许搜寻引擎抓取cgi-bin目录下的see目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Disallow: /cgi-bin/
例7. 禁止抓取/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 仅允许抓取以”.gif”为后缀的URL
User-agent: *
Allow: .gif$
Disallow: /
例9. 禁止抓取网站中所有的动态页面
User-agent: *
Disallow: /*?*
例10. 仅禁止百度抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$
例11、allow:(允许语法)用来定义允许蜘蛛爬取的页面或子目录
例:禁止百度收录admin的资料夹,允许收录admin档案中的/a.asp/b.asp
User-agent:Baiduspider
Disallow:/admin/
Allow:/admin/a.asp
Allow:/admin/b.asp
例12、”$” 匹配行结束符 ”*” 匹配0或多个任意字元
例:禁止百度蜘蛛以.php结束的所有页面
User-agent: Baiduspider
Disallow:.php$
或者User-agent: Baiduspider
Disallow:/*.php

使用必要

“每当用户试图访问某个不存在的URL时,伺服器都会在日誌中记录404错误(无法找到档案)。每当搜寻蜘蛛来寻找并不存在的robots.txt档案时,伺服器也将在日誌中记录一条404错误,所以你应该做网站中添加一个robots.txt。”
关于这一点呢,我个人是不太认可的,这幺多年过去了,搜寻引擎没理由连这幺简单的404都无法分辨出来的, 我并不是在否认这段话,
google对于一个网站的评价标準有很多, 一个网站是否存在sitemap,必然也是该站是否完整的衡量标準之一(纯属个人猜测),所以,我不认可的只是404。
此外,robots.txt可以有效的节省你的流量。
我相信很多草根站长都是从虚拟空间开始起家的,一开始的流量,频宽都是有限制的,而搜寻引擎对网站的抓取必然也是要占用流量的,所以避免搜寻引擎“无效的抓取”就显得十分重要了,如,快取档案,临时档案,上传资料夹,用户中心 等feimlww1027, 禁止掉这些档案目录,一方面能降低流量消耗,另一方面偶尔也能保证收录的质量(临时页面如果和实际档案内容类似 搜寻引擎会有点迷惑的)。
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net
搜索
随机推荐

勇敢心资源网|豫ICP备19027550号