大发幸运飞艇_大发幸运飞艇官网

python3 asyncio异步新浪微博爬虫WeiboSpider

时间:2020-01-11 13:41:28 出处:大发幸运飞艇_大发幸运飞艇官网

事先写的用python3+urllib写的多程序运行微博(传送门),后边发现登录账号频繁被403,统统避免登录问题报告 报告 迫在眉睫。否则python的“多程序运行”何必 这么多程序运行,最近可能刚需,能能稳定的微博爬虫,统统琢磨了一下使用selenium+aiohttp+redis写了一一两个多使用asyncio的新浪爬虫。

而weibo.com否则我输入验证码,而验证码能能通过yundama来验证,yundama否则贵,验证一次合适一分钱吧,登录成功后,在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

使用了aiohttp,毕竟python的协程比多程序运行更给力,爬虫否则个频繁io的过程,自然用协程比多程序运行快了不少。

talk is cheap, show you the code

否则把cookies保处于redis共享

通过weibo.com登录界面登录,可能weibo.cn登录可能能能验证搞笑的话是要例如于于解锁那样验证的,不好做。

这里太久废话,合适介绍一下为啥会 做的。大致是:

这里就不说具体为啥会 做和使用了,README.md上有使用不走,感兴趣的看源码去吧。

解析用的是bs4,解析后的数据放满去kafka上,想存哪存哪~

github:https://github.com/zhujiajunup/WeiboSpider

热门

热门标签