GNE 版本升级,基于可视化信号自动化识别并提取新闻正文

谢乾坤|青南 at 
GNE 版本升级,基于可视化信号自动化识别并提取新闻正文的配图
GNE 是一个通用的新闻正文抽取器,自从开源以来,已经被很多人用来作为新闻正文通用爬虫的重要组件。GNE 的 Github 地址:https://github.com/GeneralNewsExtractor/GeneralNewsExtractor。算法来自于《基于文本及符号密度的网页正文提取方法》,这个算法是完全基于 HTML 里面的信息来寻找正文。因此,它有一些先天性缺陷:如果正文只有三五句话,但评论是长篇大论,提取就会失败如果正文里面 html 标签太多,也会导致正文找错位置经常提取到版权信息但如果让人来看网页,就不会搞错。因为正文的位置和评论的位置肯定不一样,版权信息一般在最下面…………