免费百度指数
current time: 2019.3.21 正常
今天跑了一下数据,发现百度随机返回缺失的数据~~,这就有点坑了
对此 我们就只能更换获取数据的接口了,我们更改接口以后,就没有缺失数据的情况了!!!
current time: 2018.11.6 17.23 正常
昨天晚上有人跟我说百度指数更新了,今天看了下,更新了下代码
个人感觉是降低了难度,极大的减少了请求次数。这一次是直接根据参数 , 在js中生成数字
如果需要获取一段的平均值,只需要请求
http://index.baidu.com/api/SearchApi/index 这个参数就行,平均值直接返回 (这个是搜索指数,另外一个资讯指数 基本上就是一样的方式)
如果需要获取每一天的数值 就需要研究js了,一共有3个关键参数
使用uniqid 请求
http://index.baidu.com/Interface/api/ptbk 得到第3个关键参数 as data2
然后 在使用 data 和data2 就能得到每一天的数值,这里是使用js生成
出于劳动成果 和 对百度的~~ ,这里就不发完整代码了 ,有需要的话可以发信息到我 邮箱找我 Emile :[email protected](有偿)
--------------------------------------------------
current time: 2018.9.28 17.30 正常
current time: 2018.10.30 18.40 正常
记录一下前段时间的工作~~
汽车类爬虫:汽车之家,易车网,太平洋汽车
更新一下百度指数爬虫,
主要思路如下:
1.先模拟登陆或自动化登陆百度,保存cookie ,(ps,我是2种都做了,但是使用requests进行模拟登陆的时候,怎么调程序都需要输入4位中文验证码,这里我是使用打码平台直接识别, 使用selenium 登陆 ,没有参数异常或验证码)
2.使用cookie 添加到selenium,获取到关键参数res 和res2,然后selenium就可以关闭了
3.使用res 和res2 请求得到res3,res3即每一天的关键字参数
4.使用res,res2,res3,来获取每一天 的p段落,获取其中的偏移距离
5.继续使用res,res2,res3,得到对应的初始图片
6,使用PIL 我们自己手动来切割图片,然后在拼接图片,得到完好 可图的图片,其中每个字符占8px,
7.我们使用8px来切割图片,得到每一个字母的图片,这个时候图片是8*14,而且我发现,这个时候的图片相同字符是不变,即我们根本不需要什么TensorFlow 或Python的其它orc来进行识别,识别及耗费时间,又耗费cpu,我们可以使用Imagchops来对图片进行比对,这里测试了几千张,每一张图片都是在0-9 和,里面
难点解读:
res 可以直接是页面直接返回,res2是需要js执行得到,这里我是使用selenium 执行了页面,然后 return res2的相关变量得到的res2
这里准确率 理论上是100%
然后再写一些我听说的各种限制:
2018.4月以前,百度是只对ip限制,ip访问频繁会有验证码,但是2018.4月更新后,也会对账号访问次数做限制,据说是1天300次,另外 这个账号在手机端 和 pc 端的访问次数是独立的
出于劳动成果 和 对百度的~~ ,这里就不发完整代码了
相关阅读
《新标准韩语》初级+中级+高级 全套视频(含教程)_韩语教程百度云资源https://pan.baidu.com/s/1HCRUxbafHcN6su-tVhsGrQ
1、进入百度地图开发者平台网站 进入web开发 2、注册百度开发者账号 3.阅读开放平台概述 4.创建应用 创建完成: 百度地图开
Web是一个开放的平台,这也奠定了Web从90年代初诞生直至今日将近30年来蓬勃的发展。然而,正所谓成也萧何败也萧何,开放的特型、搜索引
百度UNIT 机器人多轮对话技能创建以及API调用 基于百度UNIT2.0 版本,实现简单的多轮人机对话功能 创建机器人必备条件 确定有哪
使用说明: 正常运行软件,登录百度云账号,选择要下载的文件,然后下载。下载之后不久会出现一个红色按钮,上边赫然四个字,召唤大神!召唤大