新浪微博有反爬取防护措施,所以不能像B站,百度贴吧一样直接通过网址进行数据采集。
所以我采用了selenium+Firefoxdriver人工模拟的方式来收集数据
(这个方法有点笨
,它相当于把人手动登录,以及手动点开每个页面的活交给浏览器自动完成)
所以这个方法比较吃网速,网速不好就非常慢。

这是测试程序时跑的11名成员近期微博数据,每个人采集了最新的44个微博。
所以我采用了selenium+Firefoxdriver人工模拟的方式来收集数据
(这个方法有点笨

所以这个方法比较吃网速,网速不好就非常慢。

这是测试程序时跑的11名成员近期微博数据,每个人采集了最新的44个微博。