必威体育Betway必威体育官网
当前位置:首页 > 网站建设

robots.txt用法和seo作用-Googlebot/Baiduspider

时间:2018-11-22 08:40:00来源:网站建设作者:seo实验室小编阅读:69次「手机版」
 

spidertxt

通过给网站设置适当的robots.txt对Google百度seo优化的作用是很明显的。wordPress博客网站也一样。

我们先看看robots.txt是什么,有什么作用?

robots.txt是什么?

我们都知道txt后缀的文件是纯文本文档,robots是机器人的意思,所以顾名思义,robots.txt文件也就是给搜索引擎蜘蛛这个机器人看 的纯文本文件。robots.txt是搜索引擎公认遵循的一个规范文 档,它告诉google、百度等搜索引擎哪些网页允许抓取、索引并在搜索结果中显示,哪些网页是被禁止收录的。 搜索引擎蜘蛛 spider(Googlebot/Baiduspider)来访问你的网站页面的时候,首先会查看你的网站根目录下是否有robots.txt文件,如 果有则按照里面设置的规则权限对你网站页面进行抓取和索引。如淘宝网就通过设置robots.txt屏蔽百度搜索引擎:

User-agent: baiduspiderDisallow: /User-agent: baiduspiderDisallow: /

robots.txt的作用

我们了解了什么是robots.txt,那它有什么作用,总体来说,robots.txt文件至少有下面两方面的作用:

1、通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。

2、设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。

robots.txt的写法

关于如何写robots.txt文件,在下面我们会以WordPress博客来作更具体举例说明。这里先提示几点robots.txt写法中应该注意的地方。如robots.txt文件里写入以下代码

User-agent: *Disallow:Allow: /

robots.txt必须上传到你的网站根名录下,在子目录下无效;

robots.txt,Disallow等必须注意大小写,不能变化;

User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。网上有人说冒号后面必须有空格,其实没有也是可以的,请看谷歌中文网站管理员博客的设置就是这样:http://www.googlechinawebmaster.com/robots.txt ;

User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”;

Disallow:表示不允许搜索引擎访问和索引的目录;

Allow:指明允许spider访问和索引的目录,Allow: / 表示允许所有,和Disallow: 等效。

robots.txt文件写法举例说明

禁止Google/百度等所有搜索引擎访问整个网站

User-agent: *Disallow: /

允许所有的搜索引擎spider访问整个网站(Disallow:可以用Allow: /替代)

User-agent: *Disallow:

禁止Baiduspider访问您的网站,Google等其他搜索引擎不阻止

User-agent: BaiduspiderDisallow: /

只允许Google spider: Googlebot访问您的网站,禁止百度等其他搜索引擎

User-agent: GooglebotDisallow:User-agent: *Disallow: /

禁止搜索引擎蜘蛛spider访问指定目录  (spider不访问这几个目录。每个目录要分开声明,不能合在一起)

User-agent: *Disallow: /cgi-bin/Disallow: /admin/Disallow: /~jjjj/

禁止搜索引擎spider访问指定目录,但允许访问该指定目录的某个子目录

User-agent: *Allow: /admin/farDisallow: /admin/

使用通配符星号"*"设置禁止访问的url   (禁止所有搜索引擎抓取/cgi-bin/目录下的所有以".html"格式的网页(包含子目录))

User-agent: *Disallow: /cgi-bin/*.html

使用美元符号"$"设置禁止访问某一后缀的文件   (只允许访问以".html"格式的网页文件。)

User-agent: *Allow: .html$Disallow: /

阻止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面

User-agent: *Disallow: /*?*

阻止Google spider:Googlebot访问网站上某种格式的图片  (禁止访问.jpg 格式的图片)

User-agent: GooglebotDisallow: .jpg$

只允许Google spider:Googlebot抓取网页和.gif格式图片   (Googlebot只能抓取gif格式的图片和网页,其他格式的图片被禁止; 其他搜索引擎未设置)

User-agent: GooglebotAllow: .gif$Disallow: .jpg$.......

只禁止Google spider:Googlebot抓取.jpg格式图片 (其他搜索引擎和其他格式图片没有禁止)

User-agent: GooglebotDisallow: .jpg$

Google和百度对robots.txt文件的介绍:Google robotstxt,百度 robots.txt。

文章来源:http://farlee.info/archives/robots-txt-seo-googlebot-baiduspider.html作者:FarLee

相关阅读

Swift中performSelector返回值的用法

最近使用swift,翻译OC的代码时,发现performSelector的返回值与OC中的用法相差很大。在OC中返回的是ID类型,而swift中返回的是 Unmana

网络软文推广的作用和好处有哪些?

软文营销是网络营销推广中常见的一种营销方式,目前,软文营销在网络推广工作中有着无法取代的作用,一次成功的软文营销,也给企业带来了

Java中接口作用深入理解

关于Java中接口作用的深入理解。这是个很容易遇到的问题吧。 / 2019/3/1 补充 : 接口的存在也是为了弥补类无法多继承的缺点,假设

黑钻原理剖析,黑钻怎么玩?有什么作用?

最近,黑车黑钻黑搜索突然流行起来,不仅仅是因为读起来押韵,而是确实有不少人钻了漏洞尝到了甜头,然而好景不长,黑车在流行了仅仅一个多

JS中split的用法

最近在写一个页面,需要取时间段,没有后台支撑,前端根据时间段,实现hightcharts自动生成数据看我们前端直接用split这个属性,完美解决时

分享到:

栏目导航

推荐阅读

热门阅读