qq代理ip
这个代码是根据上一个爬取代理IP代码写出来的,当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后(此IP地址已经存到了IP.txt中),我们就可以利用爬取到的IP来作为代理IP,进一步爬取这个网站上我们所需要的IP。
代码如下:
from bs4 import BeautifulSoup
import re
import time
import requests
import random
from fake_useragent import UserAgent
def get_ip_list():
f = open('IP.txt','r')
ip_list = f.readlines()
# print(ip_list)
f.close()
return ip_list
def get_random_ip(ip_list):
proxy_ip = random.choice(ip_list)
proxy_ip = proxy_ip.strip('\n')
proxies = {'https': proxy_ip}
return proxies
def get_content(url, ip_list):
print("get_content函数执行!")
try:
try:
time.sleep(1)
proxies = get_random_ip(ip_list)
headers = {'User-Agent':str(UserAgent().random)}
print(proxies)
req = requests.get(url=url, proxies=proxies,headers=headers,timeout=20)#, proxies=proxies,headers=headers,timeout=20
print("requests请求成功")
except:
print("重新运行")
time.sleep(10)
proxies = get_random_ip(ip_list)
headers = {'User-Agent':str(UserAgent().random)}
req = requests.get(url=url, proxies=proxies,headers=headers,timeout=40)
except:
print("第二次重新运行")
time.sleep(15)
proxies = get_random_ip(ip_list)
headers = {'User-Agent':str(UserAgent().random)}
req = requests.get(url=url, proxies=proxies,headers=headers)
req.encoding = 'utf-8'
soup = BeautifulSoup(req.text, 'lxml')
ips = soup.find_all('tr')
ip_final_list = []
for i in range(1, len(ips)):
ip_info = ips[i]
tds = ip_info.find_all('td')
if not tds[7].find('p',class_='bar_inner fast') == None:
#out = re.findall('<td>(.*?)</td>', str(tds[8]))
if tds[8].text.find('天') != -1:
tb = tds[8].text
tb = tb[:-1]
if int(tb) > 10:
ip_final_list.APPend(tds[1].text + ':' + tds[2].text)
#print(out)
return ip_final_list
if __name__ == '__main__':
for i in range(1,2):
url = 'http://www.xicidaili.com/wt/{}'.format(i)
ip_list = get_ip_list()
for ip in get_content(url, ip_list):
f2 = open('NewFile.txt','a+')
f2.write('http://'+ip)
f2.write('\n')
f2.close()
其实大部分代码与上一篇文章写的爬取代理IP差不多,不同点在于,此代码我使用了代理IP来爬取以及我爬取到的IP要为存活时间大于10天并且连接时间的那一条要为绿色。这么说大家可能不懂,附上链接,点击进去看网站就明白我在说什么了。
http://www.xicidaili.com/wt/
在此放一个截图,满足的IP地址类似于:
不说同时满足两个条件,那么该如何获取到连接时间的那一条要是绿色的呢?这就要观察其元素了。我观察到,凡是为绿色的,class都为“bar_inner fast”,再次放一张截图,可以能够解释清楚。
而为橙色以及黄色class分别为“bar_inner medium”以及“bar_inner slow”,这样一来我们就可以根据class的取值来判断是不是我们所需要的那个IP地址。
以此类推,如何再满足存活时间大于10天,可以通过我的代码自行思考。至于,怎么再将满足两种情况的IP保存,也很简单,看代码也就明白了,我也不多加赘述。
文章最后发布于: 2018-08-10 16:27:05
相关阅读
A5创业网(公众号:iadmin5)1月18日报道,据知情人士透露,中国支付公司易宝支付将放弃在香港的上市计划,转而向美股寻求IPO。而易宝支付对
javascript:void(0)是什么意思?JS的几种跳转
在JavaScript中void是一个操作符,该操作符指定要计算一个表达式但是不返回值。 void 操作符用法格式如下: 1. javascript:void (
使用在“cmd"中敲入命令”ipconfig /all" 找到172.开头的,那就是你要找到Ip
爬虫:爬取豆果网和美食网的菜单 所有代码请到我的github中下载,欢迎star,谢谢。 https://github.com/sileixinhua/SpiderRecipes
下面excel表中有一些人名和地名,现在想让他们按照人名的首字母从A-Z的顺序排列,借用10位明星的名字进行排序。今天,seo实验室小编就