北大天网
三、发送请求和接收数据
1.构造请求消息体并发送给服务端
搜集端与服务端建立连接后,前者按照HTTP的要求构造消息体发送给服务端。这段实现代码包含在函数 int CHttp::Fetch(string strUrl,char ** fileBuf,char **fileHeadBuf,char **location,int *nPSock)中。
HttpFetch 函数中部分代码参考了 http://fetch.sourceforge.net 中的 int http_fetch(const char *url_tmp,char **fileBuf)函数,但是它不能够返回请求URL的网页头信息,不能确定网页是否已经重定向,所以有针对性的做了改动。另外,由于该函数是用C写成的,为了保持原代码的完整,对于URL的解析需要单独做一次,而不是采用前面已经给出的URL类来实现(URL 类在TSE的其他部分会经常用到)。
2.获取网页头信息和体信息
四、网页信息存储的天网格式
顺序保存网页信息,没有索引文件。
存储格式应当设计为适合长期保存并易于处理,可以作为终端产品提供给用户使用。考虑到终端产品使用的便利性,要求原始网页库的存储格式具备简单性的特点。
存储介质是有寿命的,要考虑当存储介质损坏时,数据的可恢复性。例如,磁盘的某个扇区损坏,导致部分数据不能读出,如果剩下的数据仍然可以使用,就能将损失降到最少。对海量数据来说,在存储和传输的过程中,由于硬件和软件问题导致数据错误是不可以避免的。所以存储格式要具备隔离错误的特点。
1、天网存储格式定义
2、当前存储格式版本描述
3、数据的可恢复性分析
4、其他问题:文件打开模式\FTP传输的两种模式:文本(text)模式和二进制(binary)模式
相关阅读
5月18日,猎云网在“万物生长——2018年武汉创业创新峰会暨首届楚馨奖颁奖盛典”上发布了「最佳女性创业者TOP
之前一段时间,百度监察部门发现有用户利用推广网站非法截取访客的手机号、QQ号等重要信息,此行为严重的侵犯了网民的隐私信息,属于违
最新跟新:由于叔叔不约规则修改,图片接口在很短时间就无法访问。404结果,本文章介绍的爬虫失效 在一天无聊刷贴吧的时候
在网络上面赚钱,现在是一个很普遍的现象了,大家不要小看现在的网络兼职。就像有些话说的,你一天赚一块,一个月下来多30块,你一天赚十块
在家里,我想每个人都想做的事情,就是不出门,就可以有钱赚,那么哪里有这样的好事儿呀,不过今天我就想跟你说,我这里就有的呀,而且是真的呦