必威体育Betway必威体育官网
当前位置:首页 > IT技术

八爪鱼的简单应用

时间:2019-06-12 17:41:02来源:IT技术作者:seo实验室小编阅读:73次「手机版」
 

八爪鱼

知道我是做文献计量学的,懂得一些文献数据爬取的知识,因此,最近有小伙伴向我请教微博数据爬取的问题。先说说自己,我是通过编程的方式通过post get模拟请求获取数据的,还有一种是webdriver的方法,就是可视化地模拟人的动作,速度比较慢。鉴于他什么编程知识都没有,因此给他推荐了现有的网络数据爬取工具。据我所知,八爪鱼和火车头都是比较成熟的数据爬取工具。先来说说使用工具获取数据的优缺点。优点:不需要编程,对于经常需要的数据,工具已经封装好了特定的功能,可以说使用现有工具获取数据为害怕编程的小伙伴提供了一扇窗。缺点:不能灵活地随心所欲的获取想要的数据和数据格式。

写这篇博文,希望能够帮助到像我小伙伴那样对编程一点不懂,刚刚接触网络爬虫的人。这是一篇最简单的八爪鱼介绍的博文,这是一篇入门级别的八爪鱼工具介绍的博文,阅读这篇博文只能让你对该工具有大致了解,并不能百分百满足你的需求。重要的事情反复说三遍。

首先是下载安装八爪鱼工具。网址:http://www.bazhuayu.com/ 下载后点击setup安装即可,没什么可讲的。如果连这步都不会,也就和互联网说再见了。

这是打开后的主界面,其中 简单采集 选项是八爪鱼工具已经帮用户封装好的工具,只需输入简单的步骤就可以完成采集,相对的,功能比较单一,不一定能满足你对数据的要求。右边 自定义采集 选项需要用户自己编写规则,说是编写规则,其实不需要写代码,模拟点击就好。可以这么说,自定义 采集 基本能满足用户对数据的要求,推荐具有一定编程思维的小伙伴或者对八爪鱼工具有一定了解的小伙伴拓展使用。当然最好先试着采集小部分数据,看看是否满足你的要求。下图是点击简单采集后的对应模板,选择你需要的模板,根据提示一步步执行即可。这边可能需要输入你的账号密码,比如爬取微博数据时,需要输入你的账号密码,其中登录时候的验证码工具会自动帮你搞定。ps要真实的账号密码哦。

下图是点击自定义的界面。需要输入网址等信息,然后自己选择需要获取的数据。以百度首页为例,输入网址后,选择保存网址。

下图是八爪鱼打开对应网址的内容,跟在浏览器里打开的并无二样。

我们以爬取百度首页下面的 “把百度设为主页” “关于百度” “About baidu” “百度推广”这几项内容为例。首先点击第一个元素 “把百度设为主页”,得到下图。根据小窗口的对应指令进行选择,例子中我们选择选中全部,那么上面4个内容都会被选中,在弹出的窗口中,选择 “采集以下链接文本” 然后,如果你只想获得这些数据(这些类型的数据)在弹出的窗口中选择“保存并开始采集”,如果你还想获取其他数据,重新点击其他元素即可。最后导出数据为对应格式,你就获得了相应的数据。再通过其他方法对数据进行预处理即可。

相关阅读

非常简单易懂的DOM Diff算法简析

文章整理自阿里云栖视频 DIFF算法在执行时有三个维度,分别是Tree DIFF、Component DIFF和Element DIFF,执行时按顺序依次执行,它们

平面设计中,有哪些简单好用的排版技巧和方法?

当两张图片中应用的构成元素都相同,画布尺寸也相同的情况下,排版的好坏就决定你整张图片的质量了,这就好比两个厨师,同样的食材做同一

quart简单使用

quartz原理 Quartz是一个大名鼎鼎的Java版开源定时调度器,功能强悍,使用方便。 Quartz的原理不是很复杂,只要搞明白几个概念,然后知道

关于小型商业贸易公司的简单介绍文章示范

商业企业是指从事批发或零售商品的企业,共有、个企业单位和个体经营者。以下是小企业商务公司的简要介绍,供大家参考!小企业公司简介

深度学习(二)—图像检测算法(faster R-cnn)简单易懂的思路

基础知识掌握情况决定研究的高度,我们刚开始接触深度学习时,一般都是看到别人的概括,这个方法很好能让我们快速上手,但是也有一个很大

分享到:

栏目导航

推荐阅读

热门阅读