天发现网站日志中出现一个不太常见的CC蜘蛛,访问名称为:CCBot/2.0(https://commoncrawl.org/faq/),下面我们具体来了解一下CCbot是什么蜘蛛?
一.CCbot是什么蜘蛛?
CCbot,全称为Common Crawl Bot,是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。
二.你如何处理CCbot蜘蛛?
方法1.使用robots.txt
使用robots.txt文件来允许或禁止蜘蛛访问页面的权限。robots.txt是放在网站根目录中,蜘蛛来访问时会先查找并查看robots.txt文件,并遵守robots协议来访问网站上的内容,允许访问则访问,不允许访问蜘蛛则离开。
①.不允许任何蜘蛛访问您站点的任何部分
User-agent:*
Disallow:/
②.允许任何蜘蛛访问您站点的任何部分
User-agent:*
Disallow:
③.不允许CCbot蜘蛛访问网站的任何部分
User-agent:ccbot
Disallow:/
④.允许CCbot蜘蛛访问您站点的任何部分
User-agent:ccbot
Disallow:
⑤.允许CCbot蜘蛛访问您站点,但不允许CCbot访问“wp-admin”文件夹
User-agent:ccbot
Disallow:/wp-admin
方法2.使用元标记
可以在页面中使用元标记来帮助控制搜索引擎蜘蛛对您网站的访问权限。如果您为所有页面使用模板,则可以在<head>和</head>之间添加元标记,它将适用于使用该模板的所有页面。如果要控制特定页面,可以在<head>和</head>之间的各个页面上添加元标记。
①.允许所有蜘蛛访问您的页面
meta name=“robots”content=“index”/
②.允许所有蜘蛛访问您的网页并跟踪页面上的链接
meta name=“robots”content=“index,follow”/
③.允许所有蜘蛛访问您的网页,但不允许他们跟踪链接
meta name=“robots”content=“index,nofollow”/
④.不允许任何蜘蛛访问您的网页
meta name=“robots”content=“noindex”/
⑤.允许CCbot访问您的网页
meta name=“ccbot”content=“index”
⑥.不允许CCbot访问您的页面
meta name=“ccbot”content=“noindex”
⑦.允许CCbot访问您的页面并跟踪更多页面的链接
meta name=“ccbot”content=“index,follow”
如果你在网站日志中也发现了CCbot,不要惊慌,你接下来需要做的就是是允许它继续爬行还是禁止爬行?May个人觉得这类蜘蛛没有多大的意义,一旦发现这类蜘蛛爬行比较频繁,最好的方式就是禁止这些蜘蛛继续访问我们的网站。
相关阅读
在SEO中,我们经常谈论到为页面创建合适的slug。什么是slug?及如何优化?在这篇文章中,我们将说明您需要了解的所有信息。 slug
现在很多企业都会做一个网站优化来为自己的营销达到更加好的效果,但是有些小企业刚的朋友可能不太清楚什么是关键词优化。不如
对于做seo优化的人来说,关键词密度是一个网站布局收录的重要指标。网站关键词确实很重要,但到底有多重要,是否一定要维持在一定
传统企业在完成网站建设和上线之后,才是刚刚进入到互联网行业,一些传统企业发现为什么自己网站排名这么低,去搜索根本找不到
在做网站优化的时候,锚文本是我们常用的优化手段之一,那么,锚文本对网站优化的作用有哪些呢?接下来就一起来了解一下吧! 锚文