必威体育Betway必威体育官网
当前位置:首页 > 站长新闻

网曝百度不顾robots协议擅自抓取微信内容

时间:2018-02-11 20:02:00来源:站长新闻作者:seo实验室小编阅读:57次「手机版」
 

robots协议

刚刚收到通知:百度现在已删除相关内容

搜狗合作了知乎微信,乐视贾老板倾家荡产维护版权,大家都在努力创造独家资源,看到微信独家数据,百度这是眼红得坐不住了。

据@郭昂9爆料:百度不顾robots协议擅自抓取微信内容和应用,原文是这样的:

昨天有点事情忙到晚上,突然碰到了一个搜狗的哥们跟我抱怨平安夜还要被迫加班,想到很久没见,想一起吃个宵夜但是没有实现,说是忙不过来,今天又详细的了解了一下,原来微信公众号的数据被百度不顾robots协议大量的抓取和应用,他不得不处理反抓到凌晨,搞得平安夜都只能陪着看”百度spider“度过。虽然自己的微博荒废了很久,但还是不吐为快。

背景是这样子的,微信做了公众账号后,积累了大量高质量的作者和文章,养成了很大一批用户的阅读习惯。腾讯投资搜狗,开放微信数据供搜狗搜索独家使用,这部分数据对用户浏览和阅读需求的满足,能起到很大的帮助,也算是在搜索体验趋向于同质化的今天,能有效的带来“差异化”的体验点。所以,搜索靠腾讯的资源,将微信的公众号文章嵌入了搜狗搜索中,还开发了基于公众号的推荐应用微信头条

当然,这种优质的独家数据是要进行独家保护的,搜狗也就用了搜索引擎常用的robots协议,对相应目录进行了限制,不允许其他搜索引擎抓取。关于robots协议,这是搜索引擎行业约定俗成的行规,可以限制其他搜索引擎抓取和索引相应内容。

网曝百度不顾robots协议擅自抓取微信内容 微新闻

搜狗搜索的爬虫协议对网站抓取内容的范围是做了明确规定的,百度爬虫没有任何权利抓取搜狗独家微信内容资源,这是事实。

相关阅读

Bugreport 抓取

前言 主要介绍怎么抓取 bugreport 用于分析异常唤醒什么的分析可参考:https://github.com/google/battery-historian流程 测试之前

Java爬虫系列:使用HttpClient抓取页面HTML

今天就来介绍下抓取html内容的工具:HttpClient。 围绕下面几个点展开: 1.什么是HttpClient 2.HttpClient入门实例 3.复杂应用 4.结

豆瓣电影TOP250抓取

全部代码以及分析见GitHub:https://github.com/dta0502/douban-top250 本文是Python爬取豆瓣的top250电影的分析和实现,具体是将电

抓取中国地震台网最近一年地震数据,生成表格以及地震分

代码如下: import requests from lxml import etree import pymysql from pyecharts import Geo import numpy as np earthquake

scrapy爬虫实践之抓取拉钩网招聘信息(1)

趁着学习计划空白的时间,我决定自己创建一个project练手爬虫,刚好可以实践之前学习过的scrapy 项目内容:1.抓取拉钩网下,关键字为【数

分享到:

栏目导航

推荐阅读

热门阅读