全国最大的成人网站
关键时刻,第一时间送达!
简介
项目爬的是PornHub.com,结构简单,速度飞快
爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络,所以相对慢一点。
10个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]
环境、架构
数据库: MongoDB
主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
并支持分页爬取数据,并加入到待爬队列。
使用说明
启动前配置
安装MongoDB,并启动,不需要配置
安装Python的依赖模块:Scrapy, pymongo, requests 或
pip install -r requirements.txt
根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置
启动
python PornHub/quickstart.py
运行截图
数据库说明
数据库中保存数据的表是 PhRes。以下是字段说明:
PhRes 表:
video_title:视频的标题,并作为唯一标识.
link_url:视频调转到PornHub的链接
image_url:视频的封面链接
video_duration:视频的时长,以 s 为单位
quality_480p: 视频480p的 mp4 下载地址
项目地址:https://github.com/xiyouMc/WebHubBot/
【点击成为安卓大神】
相关阅读
域名解析与IP地址 域名解析是把域名指向网站空间IP,让人们通过注册的域名可以方便地访问到网站的一种服务;IP地址是网络上标识站点
《 爬虫福利二 》 https://blog.csdn.net/PY0312 刚学爬虫花了4个小时写的,每一步备注的都很清楚,喜欢的朋友自己可以研究研究.
Python 3.6.5 国家政策网 http://www.gov.cn/zhengce/index.htm 看起来就很与众不同,但打开源代码之后发现也没什么不一样嘛,在下
前市面上常见的爬虫软件一般可以划分为云爬虫和采集器两种:所谓云爬虫就是无需下载安装软件,直接在网页上创建爬虫并在网站服务器运
声明:本项目旨在