必威体育Betway必威体育官网
当前位置:首页 > seo技术

一个新网站怎么写robots协议

时间:2020-03-12 11:17:49来源:seo技术作者:seo实验室小编阅读:0次「手机版」
 

   

  我们先来了解一下什么是robots协议,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当然robots协议可以说是一个君子协议,前不久百度起诉360未经授权大量抓取百度内容,因为百度之前忍痛遵守robots协议没有抓取淘宝内容,自然对360这种真流氓行径表示愤怒哈。
  一个新网站怎么写robots协议
  User-agent:*这里的*代表的所有的搜索引擎种类,*是一个通配符。
  Disallow:/admin/这里定义是禁止爬寻admin目录下面的目录。
  Disallow:/require/这里定义是禁止爬寻require目录下面的目录。
  Disallow:/ABC这里定义是禁止爬寻ABC整个目录。
  Disallow:/cgi-bin/*.htm禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
  Disallow:/*?*禁止访问网站中所有的动态页面。
  Disallow:.jpg$禁止抓取网页所有的.jpg格式的图片。
  Disallow:/ab/adc.html禁止爬去ab文件夹下面的adc.html所有文件。
  如何规范robots协议内容
  我们可以利用小爬虫工具、爱站工具等来生成网站地图。我们首先打开爱站工具包,选择网站地图,然后左侧选择添加网站,将网址输入后选择xml选项,将里面的顶部的所有文件选项勾选之后点击抓爬,完成后生成xml文件,最后将生成之后的sitemap后缀为html、xml、txt的文件上传到网站后台的根目录中即可。这样,只要有用户进入就会抓取了。
  robots协议又是什么?该如何书写它呢?robot协议就是给搜索引擎蜘蛛的一个规定,我们利用这个文件来限制搜索引擎的抓取范围,尊重信息提供者意愿并维护其隐私权,保护我们的隐私不被搜索引擎抓取的一份内容。这个有我们自己进行编辑规定。
  robots协议的编辑会用到三个标签:User-agent:蜘蛛名称(这里个User-agent指定搜索引擎蜘蛛名称)。
  各位有兴趣也可以参考一下大网站或者一些名博的robots协议写法,为自己的网站设计一份合适的协议。robots查看方法:比如百度,直接在百度网址后面加上robots.txt,即http://www.baidu.com/robots.txt。
分享到:

栏目导航

推荐阅读

热门阅读