必威体育Betway必威体育官网
当前位置:首页 > IT技术

关于用python爬取自如网信息的价格问题(已解决)

时间:2019-08-09 19:12:07来源:IT技术作者:seo实验室小编阅读:86次「手机版」
 

自如网

###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不定先贴个网址:http://www.ziroom.com/z/nl/z2.html 关键是月租这个数据,我发现了他的 机制 **:月租的每个数字是由每个网页提供的一个背景图片background-image里面,里面随机排布了9个数字 ![ 就这样] 在这里插入图片描述 然后每个他的每个数字是根据位移量确定的,每个数字占30个单位就比如 ![ ] (

在这里插入图片描述

这个鬼样子 , 位移量分别为240,210,0,150.就对应着第9 ,第8,第1,第6个数字。**

下面代码说明读取图片中的数字(也可以用于解析验证码),这样就提取出来图片中的数字

#需要安装pytesseract,PIL,的tesseract等库

进口pytesseract

从PIL进口图片DEF CanKao_List(对应,故): 图像= Image.open(对应,故) VCODE = [] all_vcode = pytesseract.image_to_string(图像) 中对于i all_vcode: vcode.APPend(i) 返回vcode print(CanKao_List(“C:/ Users / zs / Desktop / py /自如租房/1.png”))```

然后是获取图片部分`

 for j in range(1 ,51):
 #u2 ---二居
 	url ='http://'+ city [i] +'.ziroom.com / z / nl / z2.html'
 	req = requests.get(url,headers = headers )
 	ima_url = re.findall(“body.ratio2 .price span.num {\ n \ s * background-size:auto 30px; \ n \ s * background-image:URL(*); \ n}“,req.text,re.S)

` 这样可以图片电子杂志地址所以我想求助各位大佬,怎么获取位移量,源代码没有,好像要用硒,但是有人试了也没提取出来(可能是她太菜)有人能提供下思路么

-------------------------------------------有脾气的分割线----------------------------------------------------

以解决哈哈哈哈哈哈哈哈哈 就是用那个库 , 不过那个网站做了反爬机制 ,我发到我的文件里吧,或者去我公众号里拿,回复 自如 即可

这里写图片描述

相关阅读

Python爬虫初学(4)登陆武汉理工大学教务处并转到成绩管

cookie的问题捣鼓了好久,本来以为要用正则提取JSESSIONID跟Referer,后来发现模拟点击成绩管理的按钮(就是链接啦)cookie会自己更新的

初始化 ManagementObjectSearcher 类的一个新实例,它用

using System; using System.Management; public class Sample { public static void Main(string[] args) {

使用python做一个玩数字炸弹的游戏

 使用python3,数字炸弹游戏规则:在一个数字范围内,有一个数字作为炸弹,谁猜中这个炸弹就被惩罚。比如范围是1~100,炸弹是60,然后猜了

python3基础(廖雪峰)

python2,3共存:第一节:python基本概念:Python交互模式,它的提示符是>>>基本命令:exit()python基本语言:1.          .py       

Python中的pack和unpack的使用

不同类型的语言支持不同的数据类型,比如 Go 有 int32、int64、uint32、uint64 等不同的数据类型,这些类型占用的字节大小不同,而同样

分享到:

栏目导航

推荐阅读

热门阅读