必威体育Betway必威体育官网
当前位置:首页 > IT技术

百度指数 爬虫 更新版

时间:2019-08-11 12:14:20来源:IT技术作者:seo实验室小编阅读:57次「手机版」
 

免费百度指数

current time: 2019.3.21 正常

今天跑了一下数据,发现百度随机返回缺失的数据~~,这就有点坑了

对此 我们就只能更换获取数据的接口了,我们更改接口以后,就没有缺失数据的情况了!!!

current time: 2018.11.6 17.23 正常

昨天晚上有人跟我说百度指数更新了,今天看了下,更新了下代码

个人感觉是降低了难度,极大的减少了请求次数。这一次是直接根据参数 , 在js中生成数字

如果需要获取一段的平均值,只需要请求

http://index.baidu.com/api/SearchApi/index 这个参数就行,平均值直接返回 (这个是搜索指数,另外一个资讯指数 基本上就是一样的方式)

如果需要获取每一天的数值 就需要研究js了,一共有3个关键参数 

使用uniqid 请求

http://index.baidu.com/Interface/api/ptbk 得到第3个关键参数 as data2

然后 在使用 data  和data2 就能得到每一天的数值,这里是使用js生成

出于劳动成果 和 对百度的~~ ,这里就不发完整代码了 ,有需要的话可以发信息到我 邮箱找我 Emile :[email protected](有偿)

--------------------------------------------------

current time: 2018.9.28 17.30 正常

current time: 2018.10.30 18.40 正常

记录一下前段时间的工作~~

主要写了  电商爬虫:淘宝天猫京东

                汽车类爬虫:汽车之家,易车网,太平洋汽车

                信息类爬虫:微博微信

                手机APP网站:百度手机助手,360手机助手

                 指数查询类:百度指数搜狗指数

                 其它:大众点评,美团,站长之家,淘票票,百度搜索等等 

更新一下百度指数爬虫,

主要思路如下:

1.先模拟登陆或自动化登陆百度,保存cookie  ,(ps,我是2种都做了,但是使用requests进行模拟登陆的时候,怎么调程序都需要输入4位中文验证码,这里我是使用打码平台直接识别, 使用selenium 登陆 ,没有参数异常或验证码)

2.使用cookie 添加到selenium,获取到关键参数res 和res2,然后selenium就可以关闭了

3.使用res 和res2 请求得到res3,res3即每一天的关键字参数

4.使用res,res2,res3,来获取每一天 的p段落,获取其中的偏移距离

5.继续使用res,res2,res3,得到对应的初始图片

6,使用PIL 我们自己手动来切割图片,然后在拼接图片,得到完好 可图的图片,其中每个字符占8px,

7.我们使用8px来切割图片,得到每一个字母的图片,这个时候图片是8*14,而且我发现,这个时候的图片相同字符是不变,即我们根本不需要什么TensorFlow 或Python的其它orc来进行识别,识别及耗费时间,又耗费cpu,我们可以使用Imagchops来对图片进行比对,这里测试了几千张,每一张图片都是在0-9 和,里面

难点解读:

res 可以直接是页面直接返回,res2是需要js执行得到,这里我是使用selenium 执行了页面,然后 return res2的相关变量得到的res2

这里准确率 理论上是100%

然后再写一些我听说的各种限制:

2018.4月以前,百度是只对ip限制,ip访问频繁会有验证码,但是2018.4月更新后,也会对账号访问次数做限制,据说是1天300次,另外 这个账号在手机端 和 pc 端的访问次数是独立的

出于劳动成果 和 对百度的~~ ,这里就不发完整代码了 

相关阅读

《新标准韩语》韩语教程百度网盘资源

《新标准韩语》初级+中级+高级 全套视频(含教程)_韩语教程百度云资源https://pan.baidu.com/s/1HCRUxbafHcN6su-tVhsGrQ

百度地图开发者平台API项目应用

1、进入百度地图开发者平台网站 进入web开发 2、注册百度开发者账号 3.阅读开放平台概述 4.创建应用 创建完成: 百度地图开

爬虫技术的门道,这篇文章总结的最全

Web是一个开放的平台,这也奠定了Web从90年代初诞生直至今日将近30年来蓬勃的发展。然而,正所谓成也萧何败也萧何,开放的特型、搜索引

百度UNIT 机器人多轮对话技能创建以及API调用

百度UNIT 机器人多轮对话技能创建以及API调用 基于百度UNIT2.0 版本,实现简单的多轮人机对话功能 创建机器人必备条件 确定有哪

百度干净云 大神版 【真 破解限速】

使用说明: 正常运行软件,登录百度云账号,选择要下载的文件,然后下载。下载之后不久会出现一个红色按钮,上边赫然四个字,召唤大神!召唤大

分享到:

栏目导航

推荐阅读

热门阅读