如何使用scrapy实现增量式爬取

本篇内容主要讲解“如何使用scrapy实现增量式爬取”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何使用scrapy实现增量式爬取”吧!在scrapy中，信息通过item来封装，这里我定义两个item，一个用于封装每本小说的信息，一个用于封装每个章节的信息这里我是用的是scrapy自带的通用爬虫模块，只需要指定信息解析方式，需要跟进的url就够了1.解析书籍信息方法(.*)
2.解析章节信息通过开启缓存，将每个请求缓存至本地，下次爬取时，scrapy会优先从本地缓存中获得response，这种模式下，再次请求已爬取的网页不用从网络中获得响应，所以不受带宽影响，对服务器也不会造成额外的压力，但是无法获取网页变化的内容，速度也没有第二种方式快，而且缓存的文件会占用比较大的内存，在setting.py的以下注释用于设置缓存这种方式比较适合内存比较大的主机使用，我的阿里云是最低配的，在爬取半个晚上接近27W个章节信息后，内存就用完了本文开头的第一种方式，实现方法是在pipelines.py中进行设置，即在持久化数据之前判断数据是否已经存在，这里我用的是mongodb持久化数据，逻辑如下两种方法判断mongodb中是否存在已有的数据，一是先查询后插入，二是先设置唯一索引或者主键再直接插入，由于mongodb的特点是插入块，查询慢，所以这里直接插入，需要将唯一信息设置为”_id”列，或者设置为唯一索引，在mongodb中设置方法如下需要用什么信息实现去重，就将什么信息设置为唯一索引即可（小说章节信息由于数据量比较大，用于查询的列最好设置索引，要不然会非常慢），这种方法对于服务器的压力太大，而且速度比较慢，我用的是第二种方法，即对已爬取的url进行去重对我而言，这种方法是最好的方法，因为速度快，对网站服务器的压力也比较小，不过网上的资料比较少，后来在文档中发现scrapy可以自定义下载中间件，才解决了这个问题文档原文如下class scrapy.downloadermiddlewares.DownloaderMiddlewareprocess_request(request, spider) 当每个request通过下载中间件时，该方法被调用。process_request() 必须返回其中之一: 返回 None 、返回一个 Response 对象、返回一个 Request对象或raise IgnoreRequest 。如果其返回 None ，Scrapy将继续处理该request，执行其他的中间件的相应方法，直到合适的下载器处理函数(downloadhandler)被调用，该request被执行(其response被下载)。如果其返回 Response 对象，Scrapy将不会调用任何其他的 process_request() 或process_exception() 方法，或相应地下载函数；其将返回该response。已安装的中间件的process_response() 方法则会在每个response返回时被调用。如果其返回 Request 对象，Scrapy则停止调用process_request方法并重新调度返回的request。当新返回的request被执行后，相应地中间件链将会根据下载的response被调用。如果其raise一个 IgnoreRequest 异常，则安装的下载中间件的 process_exception()方法会被调用。如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。所以只需要在process_request中实现去重的逻辑就可以了，代码如下但是又会有一个问题，就是有可能下次开启时，种子url已经被爬取过了，爬虫会直接关闭，后免费云主机域名来想到一个笨方法解决了这个问题，即在pipeline.py里的open_spider方法中再爬虫开启时删除对种子url的缓存到此，相信大家对“如何使用scrapy实现增量式爬取”有了更深的了解，不妨来实际操作一番吧！这里是百云主机网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

相关推荐: SpringBoot怎么整合Druid数据源

本篇内容主要讲解“SpringBoot怎么整合Druid数据源”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“SpringBoot怎么整合Druid数据源”吧!SprintBoot 默认使用的是 HikariData…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。