搜索引擎技术
前几天,一篇题为《搜索引擎就是我的大学》一文在我的朋友圈流转,小婉姑娘讲述了自己初中肄业从一个月薪三百的乡郊饭店服务员,通过搜索引擎自我学习,一步一步步入城市,拿下人力资源管理,项目经理,营销策划,文案策划等多个有挑战职位的逆袭事迹。
这无意给了很多“有电脑的人”一种天下我有的莫名冲动。虽然搜索引擎可以搜索到几乎任何你想学的知识,但终究扔停留在可能性阶段。真正高效地驾驭搜索引擎还是需要做些功课。
作为一名野路子网络营销钻研狗,打算开个帖子给大家做个科普,同时奉上一系列压箱底的“秘技”,希望于各位看客老爷有所裨益。
本帖分科普篇;实用技巧篇;资源篇三部分,略长但越往后越精彩。
科普篇
一、搜索引擎是个什么东西?
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
这里的用户指的是有信息获取需求的普通用户,其实信息生产提交方(站长等)严格意义来讲也是“用户”,普通用户只需要掌握搜索引擎使用技巧,而站长们更多的是琢磨SEO(搜索引擎优化)。这个帖子这双边都会有所涉及。
二、搜索引擎工作原理
爬行抓取:搜索引擎蜘蛛跟踪链接,抓取页面html代码存入数据库,低权重复制内容过滤;
预处理:文字和相关标签抓取,中文分词,去掉无意义内容提炼页面主要关键词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),去重(同一内容不同网站或同一网站不同网址);倒排索引:关键词到内容,链接投票,文件处理(目前只能根据标签和相关描述文字识别),质量判断:搜索引擎算法;
排名:中文分词(排除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义贡献越小,词频,关键词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。
搜索引擎的工作原理使命就是确保用户发出搜索指令后展现在他们面前的是其所需要的优质内容。
三、目前主流的搜索引擎
搜索引擎简史:1994年Yahoo!诞生,1998年Google诞生,2000年百度诞生,2012年360搜索(好搜)推出。
百度
不管是PC端还是移动端百度市场份额都是绝对的国内第一,跟国内目前其他搜索引擎相比,不说矮子里面挑高个的难听话,也不提竞价广告的乱象丛生,但从信息获取效率以及用户体验来比,百度也是当之无愧的。
作为学习工具,百度搜索有这两个地方不错,一是百度网盘,二是百度文库。
搜狗
搜狗在近年来发展迅速,最具特色的点是可以搜索微信内容和知乎内容。这都仰赖于腾讯的买买买内容战略。
360
对于360,实话实说,广告不比百度少,搜索结果质量也不敢恭维。来个对比。更多例子各位自行捣鼓。
必须掌握Google!
Google上面才是互联网,其他国内的搜索引擎的触角都受限,只能叫局域网。除了信息全面,用户体验也是谁用谁知道。
四、世界范围内各搜索引擎市场份额
以2015年第三季度为例
谷歌以67.49%的份额雄居第一,Yahoo第二,Bing凭借10.67%占据第三,百度第四,份额8.13%。
搜索引擎以及相关实用技巧
一、高级搜索指令(了解多用几遍即可)
这么理解:一般人不知道的,能够提高搜索效率以及精度的一些特殊指令。
普通用户常用的包括:
双引号(搜索:“关键词”)
把搜索词汇放在双引号中,代表完全匹配搜索,也就是说搜索出来的结果页面都是保护双引号中所出现的所有词汇,连顺序也是完全匹配的。百度和google都是支持这个指令的。
使用双引号搜索可以更准确的找到特定关键词,更容易找到自己想要的资源。
减号(搜索:关键词 -不需要的关键词)
减号代表搜索引擎显示不包括减号后面词汇的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,要紧跟着需要排除的词。Google和百度都支持这个指令。
使用减号高级指令可以更加准确的找到需要的文件,尤其是某些词语有多重意义的时候。
星号 (搜索:搜索*擎)
星号是常用的通配符,也可以使用在搜索引擎中。百度不支持*号指令。
比如在Google中搜索“ 搜索*擎”,其中*代表任何文字、出现的结果就不仅仅是包含“搜索引擎”的页面了。
inurl:(搜索:inurl:任意字符串)
inurl:指令用于搜索查询词出现在URL中的页面,可以按英文字面意思理解。百度和Google都是支持inurl:指令的。inurl:指令不仅支持英文,还支持中文。
高级搜索指令inurl的语法格式为:inurl:xxx(xxx可以为任意字符串)。此命令是查找url中包含xxx的网页。
如果你是做SEO的,那么inurl:指令对你会很有用,因为你可以快速的找到竞争对手(因为关键词出现在URL中对排名有一定的影响)。
intitle:返回的是页面title中包含关键词的页面
百度和谷歌都支持intitle。 title是目前页面优化最重要的因素。无论是什么网站,基本都会把关键词放入title中。
详细用法:http://jingyan.baidu.com/article/3f16e003c21c162591c103a6.html
filetype:搜索特定文件格式的时候使用。
例如:filetype:pdf 视频教程,显示的是包含“视频教程”的所有PDF文件。filetype指令可以用来搜索特定的资源,比如PDF电子书、word文件等。Google和百度都是支持filetype:指令的。
详细用法:http://jingyan.baidu.com/article/73c3ce28f23d8de50343d9ac.html
site:这个高级搜索指令用来搜索某个域名下面的所有文件。
比如搜索“site:www.zhihu.com”,出现的就是www.zhihu.com这个域名下面的所有页面,可以说这个高级指令是查询网站收入页面数量最直接的方法。site:指令也可以用于子域名。但site:并不准确,特别是在Google中,出现的收入页面经常有大幅度波动,只能用于参考,但不能完全相信。
之前有人用“site:yun.baidu.com ”资源关键词这个搜网盘里面的资源,现在貌似不大顶用了,等下给出替代方案。
高级搜索指令大全诸位可自行百度,补充一点是,这些指令很多都可以互相搭配使用影响最后的结果。可以有很复杂的组合结果,好消息是有人帮我们封装好做写成了特殊的搜索引擎供我们使用。
二、特殊搜索引擎
这有个知乎特殊搜索引擎汇总贴:https://www.zhihu.com/question/20251786
大而全的东西意味着杂乱,外行很容易陷入选择困难症一脸茫然。我给大家重点勾勒几个点。
先顺逻辑:从学习的角度,我们搜索一个东西最浅显的需求就是了解知道,要想深入消化吸收往往意味着有必要触发资料收集下载这一动作。
嗯,我就是要教大家怎么下载。一般的付费教程以及电子书资源,百度网盘的资源丰富度远远超过你想象,不过百度官方并不提供资源检索功能。借助工具就好了,用网盘搜索引擎即可。我公众号的菜单栏内置了一个,大家可以体验一下。
理论上,只要挂在网上,就算是付费的视频,文档也能抠下来。某宝上面固然有售,稍稍懂点搜索引擎的功能其实都能省去不少精力,虽然大伙儿都不差钱,哈哈。
百度文库,豆丁等下载:冰点下载器
YouTube视频下载:en.savefrom.net
国内视频网站内容下载:硕鼠
虎牙直播,斗鱼直播等在线直播视频下载:屏幕录制软件(CamtasiaStudio),我手上是自己写的软件。
视频资源:用各种种子搜索引擎就好了。如:电驴,海盗,死去的btspread,以及不能说的其他站点。等下各位在评论区补充。
浏览国外资讯什么的,起码要会翻墙吧,建议用付费的VPN,速度有保障,最重要的是下东西飞快。俺用的一款之前叫greenvpn,现在叫绿豆加速器。红杏已挂。
省略一万种资源获取方式……
最后放个大招:自行百度吾爱破解,精易论坛,对绝大多数人来讲,那将是另外一片天堂。
各色工具资源站点我收藏夹都躺了几百个,一次抖不完。唠叨一个省事的终极思路——互联网的基础设施是IT们搭建起来的,其中有五颜六色的暗门,摸熟搜索引擎,就是拥有了打开这些暗门的钥匙。
至于暗网什么的高级黑,下次八卦,写写我掌握的一些细节。
三、关键词使用
使用搜索引擎的搜索功能最重要的是知道输入哪个关键词。
搜索引擎就像一个搬运工,你想让他给你搬运啥东西,你起码得知道自己想要什么。例如你想学英语,你可能就会搜怎么学英语,英语培训教程。这种起码的素养,一般人初次接触搜索引擎就具备。这一阶段一般使用的往往是泛关键词。
学习是个循序渐进的过程,意味着你有深入挖掘细分领域的需求。这就引申出另外一个概念叫精准关键词(或长尾关键词),不过多展开,需要强调的是,大家在使用搜索引擎的时候要有意识地去提炼自己的关键词,从不同的维度去获取你想要的信息。
举个粗暴栗子,黄片又叫爱情动作片,此外番号,番号封面,女优这些关键词也指向你想要获取的资源,是不是很有趣。
互联网再繁杂,只要多记对象名词,熟悉事物关键节点,借助搜索引擎就能提纲挈领,手到擒来。到这个当口,才有天下为我所用的掌握感。
四、搭建网站门类的记忆宫殿
浸淫互联网许久,俺在说个有意思的点。导航网站相信大家都很熟悉,像hao123,金山毒霸导航,360导航。
我想给大伙说的是,这些导航网站的布局一般都别有用心(用来做淘宝客导购,软件注册推广,广告等),而且聚合的站点也很平庸,满足普罗大众日常的消遣尚可,但是想让搜索引擎成为你的大学,就远远不够了。
你需要搭建属于自己的“网站导航”,在日常接触到的优秀网站,记得在浏览器点一下收藏,分门别类。经年累月的积累,这将是你电脑上最重要的一笔财富。我换电脑或装系统几乎东西不担心丢失,同步下收藏夹就好了。
分门别类的收藏夹是你搭建脑海记忆宫殿的基础,最终要达到有搜索需求的时,资源获取手到擒来。
至于怎么管理你的收藏夹,适合你自己的姿势才是最好的,一些管理原则,放个帖子:https://www.zhihu.com/question/21537488
五、网感
多泡网,见识各色各样的网站样式,在建立起自己的站点记忆宫殿之后,培养自己的网感,懂得各色资源的搭配调取应用。网感是个很大的命题,看似有些务虚,实则用处极大。此处提出这一概念,鉴于篇幅下次阐述。
资源篇
从学习获取资源的角度,看上面的东西就够用了。你要对搜索引擎真感兴趣,俺接着给大家推荐几本类似行业圣经的读物。
SEO艺术
国外译著,享有盛誉
《这就是搜索引擎:核心技术详解》
关于一些技术细节
《搜》
搜索引擎的由来,了解历史,偏文化经济层次
《SEO深度解析》和《seo实战密码:60天网站流量提高20倍(第3版)》都是站长SEO操作指南。
相关阅读
表格是经常会出现重复数据的情况,今天就来教大家如何快速查找重复值。下面是小编为大家精心整理的关于Excle如何查找重复值?希望能
需要删除重复的图片,所以上网找了几款软件。在这做下记录,以免以后忘记。 先在百度上找到这篇文章五款优秀重复文件查找工具推荐,于
文章最后发布于: 20
各位注意没,今年春晚前的那个短片,马云穿了件湖蓝的花笙记唐装,当时我就觉得,它已经封神了。 我对这个品牌含有相当复杂的情感:羡慕丶
在互联网发达的今天,每当我们遇到不懂的问题,首先问的就是百度,但是有时候度娘给出的并不是我们想要的答案或者更本搜不到答案,怎么办