robots规则说明 robots协议的作用

　　虽然robots.txt在日常SEO工作中很少触碰，但它存在的意义却是非常大的。Robots的作用已经不在局限于网页的隐私了，还在于页面某些路径的清理，如删除死链非常管用。下面随尹华峰SEO技术博客来全面认清真正的robots.txt文件。

　　最详细的robots写法与作用：

　　robots介绍：

　　很多做优化的忽略robots的重要性，我们首先要记住的就是蜘蛛来到网站之后第一个看的就是robots文件，它是搜索引擎的协定，告诉蜘蛛哪些能抓，哪些不能抓，哪些目录下的哪些文件可以抓，这些robots文件都可以实现。优化时候忽略了robots文件的重要性，可能会一不小心被网站编程人员给自己埋了一个坑

　　robots规则说明：

　　*代表所有的意思

　　1、User-agent

　　爬虫抓取时会声明自己的身份，这就是User-agent，如果这个规则适用于所有搜索引擎的话，写法：User-agent：* 如果单独适用于百度的话User-agent：Baiduspider

　　2、Disallow 列出的是要禁止抓取的的网页和规则，后面用/代表层次关系

　　Disallow：/（代表着禁止抓取网站所有内容）

　　Disallow:/abc(禁止抓取abc及其层次下的内容)

　　Disallow:/abc/（禁止抓取abc层次下的内容，但是允许抓abc）

　　Disallow:/*.png(禁止抓取png的图片，其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow：/*.PPT)

　　Disallow:/abc/*.png（禁止访问abc层次下的PNG图片，其他格式也是）

　　Disallow:/*？*（屏蔽站内所有动态URL，因为动态地址都带？所有可以用这种形式，其他的字符也可以）

　　Disallow:/abc/*？*（只屏蔽abc层次下的动态地址）

　　Disallow:/*？/（屏蔽动态层次下的内容，比如有些文章或栏目是网址/?14125这样URL，这样可以让抓取文章，也可以屏蔽后面内容）

　　Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)

　　其他的按照这个思路灵活使用就行了

　　3、Allow

　　*Allow代表允许访问抓取的意思

　　Allow一定放在disallow的前面才能不受disallow的影响，比如禁止所有动态后，想要排除一个栏目，写法如下：

　　Allow:/abc

　　disallow:/*?*

　　其他的写法参考disallow的逻辑

　　robots协议的作用

　　通过我们上面的内容，我们对robots也有了了解。当搜索引擎王文网站时，会优先访问网站的robots协议，从中来获取信息来抓取网站。那么如果没有robots协议会对网站有什么影响呢？

　　1、如果没有robots，搜索引擎蜘蛛访问网站时依旧会先访问robots.txt，没有的话会返回404页面，影响虽然不大，但是也决对不好。

　　2、没有robots，搜索引擎蜘蛛默认抓取所有内容。这一点影响不是很大，但是还是取决于网站的内容，如果存在很多低质量的内容，建议还是使用robots进行限制比较好。

　　综合上面所说的内容，robots协议还是加上比较好，没有很麻烦，我们一般会把robots放在FTP的根目录下，有助于蜘蛛的抓取。

robots规则说明 robots协议的作用

相关阅读

栏目导航

推荐阅读

热门阅读