你以为的万能爬虫方法,其实一行代码就能识别!

谢乾坤|青南 at 
你以为的万能爬虫方法,其实一行代码就能识别!的配图
在以前的公众号中,我提到 Selenium/Puppeteer/Pyppeteer 有很多特征可以被网站检测到。于是,有些同学想到了另一个方法,就是自己写一个 Chrome 插件,在网站打开的时候,注入到页面中,然后通过这个注入的 JavaScript 代码来操作页面,获取数据。这个方法理论上说是万能的,因为注入的 JavaScript 能够获取当前 Dom 树,任何接口签名都无法拦截到自己注入的 JavaScript 代码,如下图所示:而 Chrome 插件访问自己的服务器后端是没有跨域问题的,完全可以让插件获取到数据以后,发送给自己的服务器,这样就可以把数据收入囊中了。你还可以通过 Jav……