一日一技:轻松排雷,爬虫让 gzip 炸弹变成哑炮

谢乾坤|青南 at 
一日一技:轻松排雷,爬虫让gzip炸弹变成哑炮的配图
在昨天的文章《一日一技:反爬虫的极致手段,几行代码直接炸了爬虫服务器》中,我讲到了后端如何使用 gzip 返回极高压缩率的文件,从而瞬间卡死爬虫。大家都知道我的公众号风格,要得罪讨好就两边一起得罪讨好。昨天我帮了后端,今天我就帮帮爬虫。作为爬虫,如何避免踩中 gzip 炸弹?最直接的方法,就是把你的爬虫隐藏起来,因为 gzip 炸弹只能在发现了爬虫以后使用,否则就会影响到正常用户。只要你的爬虫让网站无法发现,那么自然就不会踩中炸弹。如果你没有把握隐藏爬虫,那么,请继续往下看。查看 gzip 炸弹的 URL 返回的 Headers,你会发现如下图所示的字段:你只需要判断 resp.headers……