「免费百度指数」百度指数爬虫更新版

免费百度指数

current time: 2019.3.21 正常

今天跑了一下数据，发现百度随机返回缺失的数据~~，这就有点坑了

对此我们就只能更换获取数据的接口了，我们更改接口以后，就没有缺失数据的情况了！！！

current time: 2018.11.6 17.23 正常

昨天晚上有人跟我说百度指数更新了，今天看了下，更新了下代码

个人感觉是降低了难度，极大的减少了请求次数。这一次是直接根据参数，在js中生成数字

如果需要获取一段的平均值，只需要请求

http://index.baidu.com/api/SearchApi/index 这个参数就行，平均值直接返回 (这个是搜索指数，另外一个资讯指数 基本上就是一样的方式)

如果需要获取每一天的数值就需要研究js了，一共有3个关键参数

使用uniqid 请求

http://index.baidu.com/Interface/api/ptbk 得到第3个关键参数 as data2

然后在使用 data 和data2 就能得到每一天的数值，这里是使用js生成

出于劳动成果和对百度的~~ ，这里就不发完整代码了，有需要的话可以发信息到我邮箱找我 Emile ：[email protected](有偿)

--------------------------------------------------

current time: 2018.9.28 17.30 正常

current time: 2018.10.30 18.40 正常

记录一下前段时间的工作~~

主要写了电商爬虫：淘宝，天猫，京东

汽车类爬虫：汽车之家，易车网，太平洋汽车

信息类爬虫：微博，微信

手机 APP类网站：百度手机助手，360手机助手

指数查询类：百度指数，搜狗指数

其它：大众点评，美团，站长之家，淘票票，百度搜索等等

更新一下百度指数爬虫，

主要思路如下：

1.先模拟登陆或自动化登陆百度，保存cookie ，(ps,我是2种都做了，但是使用requests进行模拟登陆的时候，怎么调程序都需要输入4位中文验证码，这里我是使用打码平台直接识别，使用selenium 登陆，没有参数异常或验证码）

2.使用cookie 添加到selenium，获取到关键参数res 和res2，然后selenium就可以关闭了

3.使用res 和res2 请求得到res3，res3即每一天的关键字参数

4.使用res，res2，res3，来获取每一天的p段落，获取其中的偏移距离

5.继续使用res，res2，res3，得到对应的初始图片

6，使用PIL 我们自己手动来切割图片，然后在拼接图片，得到完好可图的图片，其中每个字符占8px，

7.我们使用8px来切割图片，得到每一个字母的图片，这个时候图片是8*14，而且我发现，这个时候的图片相同字符是不变，即我们根本不需要什么TensorFlow 或Python的其它orc来进行识别，识别及耗费时间，又耗费cpu，我们可以使用Imagchops来对图片进行比对，这里测试了几千张，每一张图片都是在0-9 和，里面

难点解读：

res 可以直接是页面直接返回，res2是需要js执行得到，这里我是使用selenium 执行了页面，然后 return res2的相关变量得到的res2

这里准确率理论上是100%

然后再写一些我听说的各种限制：

2018.4月以前，百度是只对ip限制，ip访问频繁会有验证码，但是2018.4月更新后，也会对账号访问次数做限制，据说是1天300次，另外这个账号在手机端和 pc 端的访问次数是独立的

出于劳动成果和对百度的~~ ，这里就不发完整代码了

百度指数爬虫更新版