这篇文章给大家介绍Python怎样爬取新浪微博数据,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!我们使用到的是第三方作者开发的爬虫库weiboSpider(有工具当然要用工具啦)。这里默认大家已经装好了Python。1. 下载项目
进入下方的网址,点击Download ZIP下载项目文件
https://github.com/dataabc/weiboSpider或者你有git的话可以在cmd/terminal中输入以下命令安装gitclonehttps://github.com/dataabc/weiboSpider.git2.安装依赖
将该项目压缩包解压后,打开你的cmd/Termianl进入该项目目录,输入以下命令:
便会开始安装项目依赖,等待其安装完成即可。3.设置cookie
打开weibospider文件夹下的weibospider.py文件,将”your cookie”替换成爬虫微博的cookie,具体替换位置大约在weibospider.py文件的22行左右。cookie获取方法:3.1 登录微博
3.2 按F12键或者右键页面空白处—检查,打开开发者工具
3.3 选择network — 按F5刷新一下 — 选择第一个文件 — 在右边窗口找到cookie然后替换大约在weibospider.py文件的22行左右的cookie,如图所示:替换前:
替换后:
4.设置要爬的用户user_id4.1获取user_id点开你希望爬取的用户主页,然后查看此时的url:你会发现有一串数字在链 香港云主机接中,这个就是我们要用到的userID, 复制即可。4.2设置要爬取的user_id打开weibospider文件夹下的weibospider.py文件,将我们想要爬取的一个或多个微博的user_id赋值给user_id_list。user_id设置代码位于weibospider.py的main函数里,具体代码如下:或者
或者
这样我们的基本设置就完成了,当然大家如果有需要还可以设置Mysql数据库和MongoDB数据库写入,如果不设置的话就默认写入到txt和csv文件中。5. 运行爬虫打开cmd/terminal 进入该项目目录,输入:即可开始爬取数据了,怎么样,是不是超级方便?而且你还可以自定义爬取的信息,比如微博的起始时间、是否写入数据库,甚至能在它代码的基础上增加新的功能!(比如加个cookie池或者代理池之类的)关于Python怎样爬取新浪微博数据就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
本篇内容介绍了“Python的基本语法有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!作用:解释程序某些部分的功能和功能,提高程序的可读性。单行注释:#表示…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。