冯小刚微博
写在前面
之前二胖分享的代码多是Python的,不少粉丝在公众号后台私信我爬虫相关的技术,二胖发现很多人在潜意识里认为Python就等于爬虫。
今天分享这段代码主要是想说一下:大家不要把爬虫和Python绑定,也不要把数据分析和Python绑定,不是只有Python才可以写爬虫,java、PHP、Lua、Ruby,甚至C++都可以写爬虫。
今天给学习Java的同学推荐一款java爬虫框架-WebCollector,然后二胖也用这个框架实现了一个微博爬虫,大约有200多行java代码,就当做例子给初学者入门吧。
因为文本表述比较困难,所以二胖会录制视频讲解相关环境的部署以及对代码进行讲解。
微信:代码和高清视频都放在文末的留言区,需要的同学自取。
废话不多说,Let's Go!
01
WebCollector初识
WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取,也支持断点爬取。
二胖个人感觉WebCollector和Python的爬虫框架Scrapy有异曲同工之妙,在使用流程上差不多,下面这张图就是WebCollector的Github主页。
02
项目演示
二胖先给大家演示一下代码运行,由于这几天冯小刚比较火,那就抓取一下冯小刚的微博吧。抓取后的结果用Json保存放在文件中,下图就是抓取后的部分结果。
下面的视频是代码运行的例子,点开视频即可查看:
(微信公众号中视频可能不清晰,大家可以下载原视频查看,我已上传,链接在留言区)
03
环境部署
要编写代码,首先得部署环境,这里二胖录制了一个小视频教大家部署一下环境:
如视频中所言,这里二胖已经把环境依赖的库都打包好了,大家直接就能用,别忘记了build Path。
04
爬虫简介&代码讲解
在下面的视频中,二胖给大家简单介绍一下爬虫的工作原理,然后再讲解一下这200多行代码是怎么运行的。
看完上面的视频,大家已经入门爬虫了,除了冯小刚的微博,你们还可以抓取自己想抓取的任何内容,比如马蓉的微博。
二胖有话说
二胖初学爬虫时用的就是WebCollector,因为那时候还不会Python,只会写一点Java,所以二胖是用Java入门爬虫的。
不过从使用感觉上来讲,Python稍微方便一些,和Java相比Python能用更短的代码实现相同的功能。
不过Java的性能比Python要好一些,怎么讲呢?
现在写爬虫基本都是多线程的,而Python的多线程和Java的多线程模型有些不一样,对于多核计算机,Python线程只使用了一个核,不同的用户线程一直在一个核上进行上下文切换,其他核就闲着,这是N:1的线程模型。
就像下图这张图一样:
而Java的多线程模型是真正意义上的多核模型,即每个cpu核心都在忙。
当然,这里要是不明白也没什么问题,大家可以持续关注二胖,在之后的日子里,二胖会慢慢和大家分享哈。
对爬虫而言,大多数情况下,限制抓取速度的瓶颈不在于CPU核心数,而在于网络延迟等待时间,所以对于个人抓取,Python和Java的区别不大。
本文涉及的代码,视频以及github地址放在下面的留言区了,需要的同学自取哈。
近期热文
开源一段代码-微信好友分析
分享一下我自学python过程中看过的那些书和那些课
相关阅读
目前,企业主推广网络的主流促销渠道包括新浪微博,微信公众号,颤音短片和爱奇艺网站。其中,新浪微博的粉丝因其创意,易于沟通和高话语形
编者按:互联网上有浩瀚的数据资源,要想抓取这些数据就离不开爬虫。鉴于网上免费开源的爬虫框架多如牛毛,很多人认为爬虫定是非常简单
随着微博用户数量的增长,越来越多的人开始推广微博,许多所谓的公司已经在微博推广中尝到了甜头。但是,做微博促销不能成为机会主义者
在互联网的历史上,几乎没有一个产品经历了从流行到沉寂后,还能再次流行起来的。但微博是个特例。3年前,即便是微博内部的员工,也有些
对我而言,每天刷微博已成为我每天杀死无聊时间的软件,但不仅是时间杀人,有时我会在使用微博时找到一些有用的信息。也许在刷微博的过