拒绝想当然,不看文档导致 GNE 的隐秘 bug

谢乾坤|青南 at 
拒绝想当然,不看文档导致GNE 的隐秘 bug的配图
GNE 上线 4 天,已经有很多朋友通过它来编写自己的新闻类网页通用爬虫。今天有一个用户来跟我反馈,GNE 0.1.4 版本在提取澎湃新闻时,只能提取一小部分的内容。一开始我以为是提取算法有问题,Debug 了半天,最后才发现,是新闻正文在预处理的时候,就被提前删除了!为了解释这个问题,我们用一小段 HTML 代码来还原当时的场景:12345678910111213h = ''' 第一行 第二行 第三行 '''阅读过 GNE 源代码的朋友都知道,GNE 会在预处理阶段尽可能移……