在阿里云 Centos7.6 上面部署基于 redis 的分布式爬虫 scrapy-redis

Scrapy 是一个比较好用的 Python 爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而 Scrapy-Redis 则是一个基于 Redis 的 Scrapy 分布式组件。它利用 Redis 对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi 重写了 scrapy 一些比较关键的代码，将 scrapy 变成一个可以在多个主机上同时运……