自如网
###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不定先贴个网址:http://www.ziroom.com/z/nl/z2.html 关键是月租这个数据,我发现了他的 机制 **:月租的每个数字是由每个网页提供的一个背景图片background-image里面,里面随机排布了9个数字 ![ 就这样] 然后每个他的每个数字是根据位移量确定的,每个数字占30个单位就比如 ![ ] (
这个鬼样子 , 位移量分别为240,210,0,150.就对应着第9 ,第8,第1,第6个数字。**
下面代码说明读取图片中的数字(也可以用于解析验证码),这样就提取出来图片中的数字
#需要安装pytesseract,PIL,的tesseract等库
进口pytesseract
从PIL进口图片DEF CanKao_List(对应,故): 图像= Image.open(对应,故) VCODE = [] all_vcode = pytesseract.image_to_string(图像) 中对于i all_vcode: vcode.APPend(i) 返回vcode print(CanKao_List(“C:/ Users / zs / Desktop / py /自如租房/1.png”))```
然后是获取图片部分`
for j in range(1 ,51):
#u2 ---二居
url ='http://'+ city [i] +'.ziroom.com / z / nl / z2.html'
req = requests.get(url,headers = headers )
ima_url = re.findall(“body.ratio2 .price span.num {\ n \ s * background-size:auto 30px; \ n \ s * background-image:URL(*); \ n}“,req.text,re.S)
` 这样可以图片电子杂志地址所以我想求助各位大佬,怎么获取位移量,源代码没有,好像要用硒,但是有人试了也没提取出来(可能是她太菜)有人能提供下思路么
-------------------------------------------有脾气的分割线----------------------------------------------------
以解决哈哈哈哈哈哈哈哈哈 就是用那个库 , 不过那个网站做了反爬机制 ,我发到我的文件里吧,或者去我公众号里拿,回复 自如 即可
相关阅读
Python爬虫初学(4)登陆武汉理工大学教务处并转到成绩管
cookie的问题捣鼓了好久,本来以为要用正则提取JSESSIONID跟Referer,后来发现模拟点击成绩管理的按钮(就是链接啦)cookie会自己更新的
初始化 ManagementObjectSearcher 类的一个新实例,它用
using System; using System.Management; public class Sample { public static void Main(string[] args) {
使用python3,数字炸弹游戏规则:在一个数字范围内,有一个数字作为炸弹,谁猜中这个炸弹就被惩罚。比如范围是1~100,炸弹是60,然后猜了
python2,3共存:第一节:python基本概念:Python交互模式,它的提示符是>>>基本命令:exit()python基本语言:1. .py
不同类型的语言支持不同的数据类型,比如 Go 有 int32、int64、uint32、uint64 等不同的数据类型,这些类型占用的字节大小不同,而同样