必威体育Betway必威体育官网
当前位置:首页 > IT技术

爬取许嵩的所有微博并存入MongoDB

时间:2019-06-28 03:42:09来源:IT技术作者:seo实验室小编阅读:73次「手机版」
 

许嵩的微博

我很喜欢许嵩的音乐,我以前基本上他的每首歌都会唱,比如《素颜》、《灰色头像》、《玫瑰花的葬礼》、《清明雨上》、《庐州月》等等,打开播放器,基本上都是循环播放许嵩的歌,简直欲罢不能!

这次我就来爬取许嵩的所有新浪微博,我打算之后把许嵩音乐的网易云评论都爬取下来,现在水平还不够,暂时爬个微博玩玩。

分析网页:

先打开许嵩的微博首页:

3428666-e03d007c3dfe335a

现在微博的内容都是采用Ajax的加载方式,形象描述就是:我们不停的往下翻微博,它是动态加载出来的下一页,而页面URL没有改变。

鼠标右键—检查—选择network—选择XHR选项卡,这里面就是Ajax动态加载出来的内容。

我不停的下滑鼠标,看XHR选项卡的变化:

3428666-c040b67a91c503e6

点击其中一个包,查看它的headers信息:

3428666-5be86903849c9847

这个就是我们用来构造URL的参数,还好都没加密,我才能爬下来,否则我就不会了。多点开几个包查看这些参数,我们发现这几个参数都没有变,这就好办了。

接着查看返回的源代码:

3428666-b93970e6fad01a54

这里,每条微博信息都是在data标签下的cards标签下,每一页共有10条微博,total表示共有395条微博,page是当前页数,可以通过修改page达到翻页的效果。

点开mblog标签,attitudes_count是点赞数,comments_count是评论数,reposts_count是转发数,text是微博文本信息,id是每条微博携带的一个编号

3428666-78381e4d6a5cca70

image

分析到这里就可以写代码了。

完整代码

完整代码如下:

from urllib.parse import urlencode
import requests
from pyquery import PyQuery as pq    
from pymongo import MongoClient
import time


base_url = 'https://m.weibo.cn/api/container/getIndex"https://upload-images.jianshu.io/upload_images/3428666-3820ea71d2f2250a" alt="3428666-3820ea71d2f2250a" />

这里我使用的是mongodb的可视化工具:Robo 3T。利用它可以方便的查看mongodb数据库里的数据,

这里可以看到,许嵩的第一条微博是2011年8月25号发的,那个时候的许嵩正在疯狂写歌~

相关阅读

爬虫爬取快递100网查快递信息

这个是爬静态网页巩固练习的第二个小小小小小小项目,爬快递100网站查快递信息,这个其实很简单,本身这个网站就已经把该做的能做的都

爬取豆瓣TOP250书单

小白学习爬虫 爬取豆瓣TOP250的书,正好本人也喜欢看书 思路分析: https://book.douban.com/top250这是TOP250第一页的链接 https://

Python3爬取豆瓣短评——以好剧《白鹿原》为例

背景: 近期刚看完电视剧《白鹿原》。”自信平生无愧事,死后方敢对青天“的白嘉轩虽显执拗,但仍令人倾服,朱先生提到的“凡物之骤为之

分享到:

栏目导航

推荐阅读

热门阅读