一日一技:不走常规路线,列表页 1 秒搞定

谢乾坤|青南 at 
最近遇到一个需求,需要抓取 Docusaurus 上面的全部文档。如下图所示:抓文档的正文非常简单,使用 GNE 高级版,只要有 URL 直接就能抓取下来,如下图所示:但现在的问题是,我怎么获取到每一篇文档的 URL?Docusaurus 是一个文档框架,它的页面和目录都是 JavaScript 实时渲染的。当我们没有展开它的目录时,XPath 只能提取到当前大标题的链接,如下图所示:当我们点开了某个大标题,让里面的小标题出现时,XPath 能够提取的数据会随之变化,如下图所示:在这种情况下,我们经常使用的爬虫方案,都会遇到阻碍:直接使用 Requests 获取源代码——源代码里面没有每条目录……