一日一技：不走常规路线，列表页 1 秒搞定

最近遇到一个需求，需要抓取 Docusaurus 上面的全部文档。如下图所示：抓文档的正文非常简单，使用 GNE 高级版，只要有 URL 直接就能抓取下来，如下图所示：但现在的问题是，我怎么获取到每一篇文档的 URL？Docusaurus 是一个文档框架，它的页面和目录都是 JavaScript 实时渲染的。当我们没有展开它的目录时，XPath 只能提取到当前大标题的链接，如下图所示：当我们点开了某个大标题，让里面的小标题出现时，XPath 能够提取的数据会随之变化，如下图所示：在这种情况下，我们经常使用的爬虫方案，都会遇到阻碍：直接使用 Requests 获取源代码——源代码里面没有每条目录……