必威体育Betway必威体育官网
当前位置:首页 > IT技术

搜索引擎学习笔记——数据处理和天网格式

时间:2019-06-11 18:41:04来源:IT技术作者:seo实验室小编阅读:63次「手机版」
 

北大天网

三、发送请求和接收数据

1.构造请求消息体并发送给服务端

搜集端与服务端建立连接后,前者按照HTTP的要求构造消息体发送给服务端。这段实现代码包含在函数 int CHttp::Fetch(string strUrl,char ** fileBuf,char **fileHeadBuf,char **location,int *nPSock)中。

HttpFetch 函数中部分代码参考了 http://fetch.sourceforge.net 中的 int http_fetch(const char *url_tmp,char **fileBuf)函数,但是它不能够返回请求URL的网页头信息,不能确定网页是否已经重定向,所以有针对性的做了改动。另外,由于该函数是用C写成的,为了保持原代码的完整,对于URL的解析需要单独做一次,而不是采用前面已经给出的URL类来实现(URL 类在TSE的其他部分会经常用到)。

2.获取网页头信息和体信息

四、网页信息存储的天网格式

顺序保存网页信息,没有索引文件。

存储格式应当设计为适合长期保存并易于处理,可以作为终端产品提供给用户使用。考虑到终端产品使用的便利性,要求原始网页库的存储格式具备简单性的特点。

存储介质是有寿命的,要考虑当存储介质损坏时,数据的可恢复性。例如,磁盘的某个扇区损坏,导致部分数据不能读出,如果剩下的数据仍然可以使用,就能将损失降到最少。对海量数据来说,在存储和传输的过程中,由于硬件软件问题导致数据错误是不可以避免的。所以存储格式要具备隔离错误的特点。

1、天网存储格式定义

2、当前存储格式版本描述

3、数据的可恢复性分析

4、其他问题:文件打开模式\FTP传输的两种模式:文本(text)模式和二进制(binary)模式

相关阅读

盛天网络董事长赖春临女士荣获“最佳女性创业者”称号

5月18日,猎云网在“万物生长——2018年武汉创业创新峰会暨首届楚馨奖颁奖盛典”上发布了「最佳女性创业者TOP

百度天网算法出台:严打盗取用户隐私的行为

之前一段时间,百度监察部门发现有用户利用推广网站非法截取访客的手机号、QQ号等重要信息,此行为严重的侵犯了网民的隐私信息,属于违

叔叔不约---匿名聊天网 聊天图片爬虫抓取

最新跟新:由于叔叔不约规则修改,图片接口在很短时间就无法访问。404结果,本文章介绍的爬虫失效        在一天无聊刷贴吧的时候

每天网赚10元 多年经验分享一下 方法简单易操作

在网络上面赚钱,现在是一个很普遍的现象了,大家不要小看现在的网络兼职。就像有些话说的,你一天赚一块,一个月下来多30块,你一天赚十块

每天网赚10元 动动手指就能赚钱的小技巧

在家里,我想每个人都想做的事情,就是不出门,就可以有钱赚,那么哪里有这样的好事儿呀,不过今天我就想跟你说,我这里就有的呀,而且是真的呦

分享到:

栏目导航

推荐阅读

热门阅读