必威体育Betway必威体育官网
当前位置:首页 > IT技术

使用代理IP爬取到网站的指定数据

时间:2019-10-31 08:12:10来源:IT技术作者:seo实验室小编阅读:58次「手机版」
 

qq代理ip

这个代码是根据上一个爬取代理IP代码写出来的,当我们已经从那个国内高匿代理IP网站中爬取到存活时间比较久的IP地址后(此IP地址已经存到了IP.txt中),我们就可以利用爬取到的IP来作为代理IP,进一步爬取这个网站上我们所需要的IP。

代码如下:

from bs4 import BeautifulSoup
import re
import time
import requests
import random
from fake_useragent import UserAgent

def get_ip_list():
	f = open('IP.txt','r')
	ip_list = f.readlines()
	# print(ip_list)
	f.close()
	return ip_list

def get_random_ip(ip_list):
	proxy_ip = random.choice(ip_list)
	proxy_ip = proxy_ip.strip('\n')
	proxies = {'https': proxy_ip}
	return proxies

def get_content(url, ip_list):
	print("get_content函数执行!")
	try:
		try:
			time.sleep(1)
			proxies = get_random_ip(ip_list)
			headers = {'User-Agent':str(UserAgent().random)}
			print(proxies)

			req = requests.get(url=url, proxies=proxies,headers=headers,timeout=20)#, proxies=proxies,headers=headers,timeout=20
			print("requests请求成功")
		except:
			print("重新运行")
			time.sleep(10)
			proxies = get_random_ip(ip_list)
			headers = {'User-Agent':str(UserAgent().random)}
			req = requests.get(url=url, proxies=proxies,headers=headers,timeout=40)
	except:
		print("第二次重新运行")
		time.sleep(15)
		proxies = get_random_ip(ip_list)
		headers = {'User-Agent':str(UserAgent().random)}
		req = requests.get(url=url, proxies=proxies,headers=headers)
	req.encoding = 'utf-8'
	soup = BeautifulSoup(req.text, 'lxml')


	ips = soup.find_all('tr')
	ip_final_list = []
	for i in range(1, len(ips)):
		ip_info = ips[i]
		tds = ip_info.find_all('td')
		if not tds[7].find('p',class_='bar_inner fast') == None:
			#out = re.findall('<td>(.*?)</td>', str(tds[8]))
			if tds[8].text.find('天') != -1:
				tb = tds[8].text
				tb = tb[:-1]
				if int(tb) > 10:
					ip_final_list.APPend(tds[1].text + ':' + tds[2].text)
				#print(out)
	return ip_final_list			
if __name__ == '__main__':
	
	for i in range(1,2):
		url = 'http://www.xicidaili.com/wt/{}'.format(i)
		ip_list = get_ip_list()
		
		for ip in get_content(url, ip_list):
			
			f2 = open('NewFile.txt','a+')

			f2.write('http://'+ip)
			f2.write('\n')
			f2.close()

其实大部分代码与上一篇文章写的爬取代理IP差不多,不同点在于,此代码我使用了代理IP来爬取以及我爬取到的IP要为存活时间大于10天并且连接时间的那一条要为绿色。这么说大家可能不懂,附上链接,点击进去看网站就明白我在说什么了。

http://www.xicidaili.com/wt/

在此放一个截图,满足的IP地址类似于:

不说同时满足两个条件,那么该如何获取到连接时间的那一条要是绿色的呢?这就要观察其元素了。我观察到,凡是为绿色的,class都为“bar_inner fast”,再次放一张截图,可以能够解释清楚。

而为橙色以及黄色class分别为“bar_inner medium”以及“bar_inner slow”,这样一来我们就可以根据class的取值来判断是不是我们所需要的那个IP地址。

以此类推,如何再满足存活时间大于10天,可以通过我的代码自行思考。至于,怎么再将满足两种情况的IP保存,也很简单,看代码也就明白了,我也不多加赘述。

文章最后发布于: 2018-08-10 16:27:05

相关阅读

易宝支付或赴美IPO,曾被央行处罚5次

A5创业网(公众号:iadmin5)1月18日报道,据知情人士透露,中国支付公司易宝支付将放弃在香港的上市计划,转而向美股寻求IPO。而易宝支付对

javascript:void(0)是什么意思?JS的几种跳转

在JavaScript中void是一个操作符,该操作符指定要计算一个表达式但是不返回值。 void 操作符用法格式如下: 1. javascript:void (

查看电脑的真实Ip(可连接访问的IP)

使用在“cmd"中敲入命令”ipconfig /all" 找到172.开头的,那就是你要找到Ip

爬虫:爬取豆果网和美食网的菜单

爬虫:爬取豆果网和美食网的菜单 所有代码请到我的github中下载,欢迎star,谢谢。 https://github.com/sileixinhua/SpiderRecipes

Excel中数据按照一定顺序排列的操作方法

下面excel表中有一些人名和地名,现在想让他们按照人名的首字母从A-Z的顺序排列,借用10位明星的名字进行排序。今天,seo实验室小编就

分享到:

栏目导航

推荐阅读

热门阅读