图书搜索引擎
比较务实的一本书,也是我2014年推荐的第一本书《这就是搜索引擎:核心技术详解》,这本书陆陆续续看了大半年,受益匪浅。虽说是核心技术详解,实际上这并不是给专业人员看的书,站长朋友看了后会对搜索引擎多了一份理性,少一分谩骂。本书看起来很轻松。
全书通俗易懂,内容广而不深,对搜索引擎的技术做了很全面的介绍,包括搜索引擎整体框架、爬虫、抓取策略、暗网爬取、分布式爬虫等内容。
搜索引擎作为互联网用户的上网入口,对流量的引导与分流至关重要,甚至可以说起了决定性的作用。1991年,Tim Berners-Lee将超文本的概念引入互联网,同时推出了WWW雏形、配套的HTTP传输协议及相应的Web服务器技术。1993年,第一个图形浏览器mosaic诞生,网页浏览客户端趋于成熟,这些技术与产品为互联网的快速普及和发展做好了技术准备,互联网用户开始从最初的军队和高校等科研机构普及到普通的个人用户,为接下来互联网的商业化大规模发展奠定了基础。
互联网信息量在过去15年获得了爆炸性增长,信息过载的问题目前来说非常严重,随着互联网个性化的发展趋势逐步展现,普通用户发布信息的成本越来越低,这个问题将会更加严重。这是搜索引擎相关引用越来越重要的一个基础背景。搜索是目前解决信息过载的相对有效的方式,在没有有效的替代解决方式出来之前,搜索引擎作为互联网网站和应用的入口及处于行业制高点的重要地位只会逐步加强。
搜索引擎发展史:分类目录(网址导航)是史前时代、文本检索是第一代、链接分析是第二代、以用户中心是第三代,
搜索引擎的3个目标:更全、更快、更准。
搜索引擎的3个核心问题:1.用户真正的需求是什么,2.哪些信息是和用户需求是真正相关的,3.哪些信息是用户可以信赖的。
除了上述的子功能模块,“反作弊”模块也日益重要。
互联网页面划分为五个部分:1.已下载网页集合、2.已过期网页集合、3.待下载网页集合、4.可知网页集合、5.不可知网页集合。
网络爬虫分为:批量性爬虫、增量型爬虫、垂直型爬虫。
爬虫抓取的策略:1.宽度优先遍历、2.非完全pagerank、3.OPIC(Online Page importantance Computation)、4.大站优先。
网页更新策略:1.历史参考策略、2.用户体验策略、3.聚类抽样策略。
写在最后:
结合上面的信息我们就能大致明白了:爬虫分很多种,爬虫来了不一定抓取的原因就是这里。另外爬虫是否抓取(重新抓取)你的网页也有很多种参考因素,我们通常所以的保证网站持续更新就是历史参考策略了。本文我把网页和爬虫的部分都罗列了出来,有兴趣的朋友可以买书来看。
很多时候,你问的答案就在这里,如果你不细读的话!
书名:《这就是搜索引擎:核心技术详解》
作者:张俊林
出版社:电子工业出版社
出版日期: 2012年1月1日
平装: 300页
(亚马逊购买) (当当网购买)
相关阅读
前段时间在极客时间上购买了杨晓峰老师的《Java核心技术36讲》,趁着这段时间有空,对相关知识点做了一个整体的大纲,也对自己所掌握的
虽然现在是资本寒冬,但这似乎并不影响创业者的激情,也不影响传统企业往互联网+转型的决心。但这些想法落地到产品,都需要经过产品需
我相信很多朋友都知道SEO快速排名,现在流行的快速排名都是众人皆知的黑帽SEO技术,但是却唯独不知道纯白帽也可以快速排名。但是我估
网站的优化长尾词可以说是相当的重要,因为我们都知道网站的大部分流量都是来自于长尾关键词,那么对于很多的站长朋友来说,对于长尾词
“热血街舞团”和“这就是街舞”是今年推出的两个比较火爆的街舞类节目,那么两个内容方向相同的节目,究竟谁能胜出?本文作者将从内容