必威体育Betway必威体育官网
当前位置:首页 > seo技术

robots规则说明 robots协议的作用

时间:2020-03-24 10:38:23来源:seo技术作者:seo实验室小编阅读:0次「手机版」
 

   虽然robots.txt在日常SEO工作中很少触碰,但它存在的意义却是非常大的。Robots的作用已经不在局限于网页的隐私了,还在于页面某些路径的清理,如删除死链非常管用。下面随尹华峰SEO技术博客来全面认清真正的robots.txt文件。

 
  最详细的robots写法与作用:
  robots介绍:
 
  很多做优化的忽略robots的重要性,我们首先要记住的就是蜘蛛来到网站之后第一个看的就是robots文件,它是搜索引擎的协定,告诉蜘蛛哪些能抓,哪些不能抓,哪些目录下的哪些文件可以抓,这些robots文件都可以实现。优化时候忽略了robots文件的重要性,可能会一不小心被网站编程人员给自己埋了一个坑
 
  robots规则说明:
 
  *代表所有的意思
 
  1、User-agent
 
  爬虫抓取时会声明自己的身份,这就是User-agent,如果这个规则适用于所有搜索引擎的话,写法:User-agent:* 如果单独适用于百度的话User-agent:Baiduspider
 
  (附一些搜索引擎的名字:百度Baiduspider|谷歌Googlebot|360蜘蛛:360Spider|SOSO蜘蛛:Sosospider|雅虎蜘蛛:Yahoo!|有道蜘蛛:YoudaoBot|搜狗蜘蛛:Sogou News Spider|MSN蜘蛛:msnbot/msnbot-media|必应蜘蛛:bingbot/compatible|一搜蜘蛛:YisouSpider|Alexa蜘蛛:ia_archiver|宜sou蜘蛛:EasouSpider|即刻蜘蛛:JikeSpider|一淘网蜘蛛:EtaoSpider)
 
  2、Disallow 列出的是要禁止抓取的的网页和规则,后面用/代表层次关系
 
  Disallow:/(代表着禁止抓取网站所有内容)
 
  Disallow:/abc(禁止抓取abc及其层次下的内容)
 
  Disallow:/abc/(禁止抓取abc层次下的内容,但是允许抓abc)
 
  Disallow:/*.png(禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow:/*.PPT)
 
  Disallow:/abc/*.png(禁止访问abc层次下的PNG图片,其他格式也是)
 
  Disallow:/*?*(屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)
 
  Disallow:/abc/*?*(只屏蔽abc层次下的动态地址)
 
  Disallow:/*?/(屏蔽动态层次下的内容,比如有些文章或栏目是网址/?14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容)
 
  Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)
 
  其他的按照这个思路灵活使用就行了
 
  3、Allow
 
  *Allow代表允许访问抓取的意思
 
  Allow一定放在disallow的前面才能不受disallow的影响,比如禁止所有动态后,想要排除一个栏目,写法如下:
 
  Allow:/abc
 
  disallow:/*?*
 
  其他的写法参考disallow的逻辑
 
  robots协议的作用
 
  通过我们上面的内容,我们对robots也有了了解。当搜索引擎王文网站时,会优先访问网站的robots协议,从中来获取信息来抓取网站。那么如果没有robots协议会对网站有什么影响呢?
 
  1、如果没有robots,搜索引擎蜘蛛访问网站时依旧会先访问robots.txt,没有的话会返回404页面,影响虽然不大,但是也决对不好。
 
  2、没有robots,搜索引擎蜘蛛默认抓取所有内容。这一点影响不是很大,但是还是取决于网站的内容,如果存在很多低质量的内容,建议还是使用robots进行限制比较好。
 
  综合上面所说的内容,robots协议还是加上比较好,没有很麻烦,我们一般会把robots放在FTP的根目录下,有助于蜘蛛的抓取。

相关阅读

什么是robots文件?robots文件的作用有哪些?

  新手SEO站长可能很少了解robots文件,因为这个文件通常写好之后基本是不会再修改了的。当然,除非某天你不想蜘蛛抓取你的网站了

​robots是什么?robots​和robots mate的区别

  robots mate是什么  robots meta标签主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)

一个新网站怎么写robots协议

    我们先来了解一下什么是robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Rob

如何规范robots协议内容

    robots协议又是什么?该如何书写它呢?robot协议就是给搜索引擎蜘蛛的一个规定,我们利用这个文件来限制搜索引擎的抓取范围,尊

新手必学的robots编写教程

  当你的网站发布以后,一定会有一些不愿让百度网爬取的网页页面、文件,对于这类难题,人们还要应用协议去屏蔽。那麼这一协议是啥?到

分享到:

栏目导航

推荐阅读

热门阅读