CCbot是什么东西

　　天发现网站日志中出现一个不太常见的CC蜘蛛，访问名称为：CCBot/2.0(https://commoncrawl.org/faq/)，下面我们具体来了解一下CCbot是什么蜘蛛？

　　一.CCbot是什么蜘蛛？

　　CCbot，全称为Common Crawl Bot，是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。

　　二.你如何处理CCbot蜘蛛？

　　方法1.使用robots.txt

　　使用robots.txt文件来允许或禁止蜘蛛访问页面的权限。robots.txt是放在网站根目录中，蜘蛛来访问时会先查找并查看robots.txt文件，并遵守robots协议来访问网站上的内容，允许访问则访问，不允许访问蜘蛛则离开。

　　①.不允许任何蜘蛛访问您站点的任何部分

　　User-agent：*

　　Disallow：/

　　②.允许任何蜘蛛访问您站点的任何部分

　　User-agent：*

　　Disallow：

　　③.不允许CCbot蜘蛛访问网站的任何部分

　　User-agent：ccbot

　　Disallow：/

　　④.允许CCbot蜘蛛访问您站点的任何部分

　　User-agent：ccbot

　　Disallow：

　　⑤.允许CCbot蜘蛛访问您站点，但不允许CCbot访问“wp-admin”文件夹

　　User-agent：ccbot

　　Disallow：/wp-admin

　　方法2.使用元标记

　　可以在页面中使用元标记来帮助控制搜索引擎蜘蛛对您网站的访问权限。如果您为所有页面使用模板，则可以在<head>和</head>之间添加元标记，它将适用于使用该模板的所有页面。如果要控制特定页面，可以在<head>和</head>之间的各个页面上添加元标记。

　　①.允许所有蜘蛛访问您的页面

　　meta name=“robots”content=“index”/

　　②.允许所有蜘蛛访问您的网页并跟踪页面上的链接

　　meta name=“robots”content=“index，follow”/

　　③.允许所有蜘蛛访问您的网页，但不允许他们跟踪链接

　　meta name=“robots”content=“index，nofollow”/

　　④.不允许任何蜘蛛访问您的网页

　　meta name=“robots”content=“noindex”/

　　⑤.允许CCbot访问您的网页

　　meta name=“ccbot”content=“index”

　　⑥.不允许CCbot访问您的页面

　　meta name=“ccbot”content=“noindex”

　　⑦.允许CCbot访问您的页面并跟踪更多页面的链接

　　meta name=“ccbot”content=“index，follow”

　　如果你在网站日志中也发现了CCbot，不要惊慌，你接下来需要做的就是是允许它继续爬行还是禁止爬行？May个人觉得这类蜘蛛没有多大的意义，一旦发现这类蜘蛛爬行比较频繁，最好的方式就是禁止这些蜘蛛继续访问我们的网站。

相关阅读