「许嵩的微博」爬取许嵩的所有微博并存入MongoDB

许嵩的微博

我很喜欢许嵩的音乐，我以前基本上他的每首歌都会唱，比如《素颜》、《灰色头像》、《玫瑰花的葬礼》、《清明雨上》、《庐州月》等等，打开播放器，基本上都是循环播放许嵩的歌，简直欲罢不能！

这次我就来爬取许嵩的所有新浪微博，我打算之后把许嵩音乐的网易云评论都爬取下来，现在水平还不够，暂时爬个微博玩玩。

分析网页：

先打开许嵩的微博首页：

3428666-e03d007c3dfe335a

现在微博的内容都是采用Ajax的加载方式，形象描述就是：我们不停的往下翻微博，它是动态加载出来的下一页，而页面URL没有改变。

鼠标右键—检查—选择network—选择XHR选项卡，这里面就是Ajax动态加载出来的内容。

我不停的下滑鼠标，看XHR选项卡的变化：

3428666-c040b67a91c503e6

点击其中一个包，查看它的headers信息:

3428666-5be86903849c9847

这个就是我们用来构造URL的参数，还好都没加密，我才能爬下来，否则我就不会了。多点开几个包查看这些参数，我们发现这几个参数都没有变，这就好办了。

接着查看返回的源代码：

3428666-b93970e6fad01a54

这里，每条微博信息都是在data标签下的cards标签下，每一页共有10条微博，total表示共有395条微博，page是当前页数，可以通过修改page达到翻页的效果。

点开mblog标签，attitudes_count是点赞数，comments_count是评论数，reposts_count是转发数，text是微博文本信息，id是每条微博携带的一个编号

3428666-78381e4d6a5cca70

image

分析到这里就可以写代码了。

完整代码

完整代码如下：

from urllib.parse import urlencode
import requests
from pyquery import PyQuery as pq    
from pymongo import MongoClient
import time


base_url = 'https://m.weibo.cn/api/container/getIndex"https://upload-images.jianshu.io/upload_images/3428666-3820ea71d2f2250a" alt="3428666-3820ea71d2f2250a" />
这里我使用的是mongodb的可视化工具：Robo 3T。利用它可以方便的查看mongodb数据库里的数据，
这里可以看到，许嵩的第一条微博是2011年8月25号发的，那个时候的许嵩正在疯狂写歌~
          
        相关阅读
爬虫爬取快递100网查快递信息
这个是爬静态网页巩固练习的第二个小小小小小小项目，爬快递100网站查快递信息，这个其实很简单，本身这个网站就已经把该做的能做的都
爬取豆瓣TOP250书单
小白学习爬虫
爬取豆瓣TOP250的书，正好本人也喜欢看书
思路分析：
https://book.douban.com/top250这是TOP250第一页的链接
https://
Python3爬取豆瓣短评——以好剧《白鹿原》为例
背景：
近期刚看完电视剧《白鹿原》。”自信平生无愧事，死后方敢对青天“的白嘉轩虽显执拗，但仍令人倾服，朱先生提到的“凡物之骤为之

爬取许嵩的所有微博并存入MongoDB

许嵩的微博

相关阅读

栏目导航

推荐阅读

热门阅读