java爬虫
今天就来介绍下抓取html内容的工具:httpclient。
围绕下面几个点展开:
1.什么是HttpClient
2.HttpClient入门实例
3.复杂应用
4.结束语
一、什么是HttpClient
度娘说:
HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。 以下列出的是 HttpClient 提供的主要的功能,要知道更多详细的功能可以参见 HttpClient 的官网: (1)实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等) (2)支持自动转向 (3)支持 HTTPS 协议 (4)支持代理服务器等
这里面提到了官网,那就顺便说下它官网上的一些东西。
根据百度给出的HomePage是这个:http://hc.apache.org/httpclient-3.x/,但是进入后你会发现有句话
大意是:Commons HttpClient这个项目已经不再维护了,它已经被Apache Httpcomponents替代了。也就是说我们以后要用的话就用新的。点这个Apache HttpComponents的链接进去能看到它最新的版本是4.5,而且有快速上手的例子和专业的说明文档。有兴趣并且英文好的朋友可以好好研究下哦 ~~
额~~那个~~我的英文不好,就不按照官网的来了,直接给出我自己在网上学的练习案例~~
二、HttpClient入门实例
- 新建一个普通的maven项目:名字随便起,我的叫:httpclient_learn
- 修改pom文件,引入依赖
<dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.8</version> </dependency>
- 新建java类
package httpclient_learn; import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.HttpStatus; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.methods.CloseableHttpresponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.client.utils.HttpClientUtils; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; public class HttpClientTest { public static void main(String[] args) { //1.生成httpclient,相当于该打开一个浏览器 CloseableHttpClient httpClient = HttpClients.createDefault(); CloseableHttpResponse response = null; //2.创建get请求,相当于在浏览器地址栏输入 网址 HttpGet request = new HttpGet("https://www.tuicool.com/"); try { //3.执行get请求,相当于在输入地址栏后敲回车键 response = httpClient.execute(request); //4.判断响应状态为200,进行处理 if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) { //5.获取响应内容 HttpEntity httpEntity = response.getEntity(); String html = EntityUtils.toString(httpEntity, "utf-8"); System.out.println(html); } else { //如果返回状态不是200,比如404(页面不存在)等,根据情况做处理,这里略 System.out.println("返回状态不是200"); System.out.println(EntityUtils.toString(response.getEntity(), "utf-8")); } } catch (ClientProtocolException e) { e.printstacktrace(); } catch (IOException e) { e.printStackTrace(); } finally { //6.关闭 HttpClientUtils.closeQuietly(response); HttpClientUtils.closeQuietly(httpClient); } } }
- 执行代码,我们会发现打印出来的其实就是首页完整的html代码
<!DOCTYPE html> <html lang="zh-cn"> <head> //Java开发老菜鸟备注:由于内容太多,具体不再贴出来了 </head> <body>
//Java开发老菜鸟备注:由于内容太多,具体内容不再贴出来了
</body> </html>
操作成功!
好了,到这里就完成了一个简单的小例子。
爬一个网站不过瘾,再来一打。接下来我们换个网站:https://www.tuicool.com/,你会发现结果是这样的:
返回状态不是200 <!DOCTYPE html> <html> <head> <meta http-equiv="content-Type" content="text/html; charset=utf-8"> </head> <body> <p>系统检测亲不是真人行为,因系统资源限制,我们只能拒绝你的请求。如果你有疑问,可以通过微博 http://weibo.com/tuicool2012/ 联系我们。</p> </body> </html>
爬虫程序被识别了,怎么办呢? 别着急,慢慢往下看
三、复杂应用
第二个网站访问不了,是因为网站有反爬虫的处理,怎么绕过他呢?
1.最简单的是对请求头进行伪装,看代码,加上红框里面的内容后再执行
你会发现返回结果变了,有真内容了(红字警告先不管它,我们起码获取到了html内容)
那代码中新加的那段内容是哪里来的呢?
请打开谷歌浏览器的F12,对就是这里了:
当然我们还可以设置请求的其他头信息,如cookie等
2.上面说的是伪装成浏览器,其实如果你伪装了之后,如果短时间内一直多次访问的话,网站会对你的ip进行封杀,这个时候就需要换个ip地址了,使用代理IP
网上有一些免费的代理ip网站,比如xici
我们选择那些存活时间久并且刚刚被验证的ip,我这里选择了“112.85.168.223:9999”,代码如下
//2.创建get请求,相当于在浏览器地址栏输入 网址 HttpGet request = new HttpGet("https://www.tuicool.com/"); //设置请求头,将爬虫伪装成浏览器 request.setHeader("User-Agent","Mozilla/5.0 (windows NT 6.1) APPleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"); HttpHost proxy = new HttpHost("112.85.168.223", 9999); RequestConfig config = RequestConfig.custom().setProxy(proxy).build(); request.setConfig(config);
执行代码,能正常返回html结果。如果代理ip刚好不能用的话,会报错,如下显示连接超时,这个时候需要更换一个新的代理ip
3.另外,程序被识别出来很大原因是短时间内做了太多访问,这个是正常人不会有的频率,因此我们也可以放慢爬取的速度,让程序sleep一段时间再爬下一个也是一种反 反爬虫的简单方法。
如果有想学习java的程序员,可来我们的java学习扣qun:83078,3865,免费送java的视频教程噢!我每晚上8点还会在群内直播讲解Java知识,欢迎大家前来学习哦
相关阅读
Java基础------动态参数(可变参数,例如:Object... params
一、介绍 在阅读QueryRunner类源码是碰到了下面这个方法: public int update(String sql, Object... params) throws SQLExcepti
Javaweb-HttpServletResponse的sendRedirectch重定向
一 、sendRedirect 1.1 重定向过程: 当使用HttpServletResponse的sendRedirect()时会发生重定向时,服务器会在Servlet中设置HTT
因有个判断需要处理不同系统类型跳转不同 系统。 考虑用switch + 枚举的方式。 具体使用案例如下: package com.b2b.common.con
前面几篇我们学习HashSet和LinkedHashSet的原理和基本使用,这篇,我们来练习下这两个类的相关的集合编程练习题。一.生成10个1到20之
文章来自:源码在线https://www.shengli.me/css/353.html