一日一技:自动提取任意信息的通用爬虫

谢乾坤|青南 at 
使用过 GNE 的同学都知道,GNE 虽然是通用爬虫,但只是文章类页面的通用爬虫。如果一个页面不是文章页,那么就无能为力了。随着 ChatGPT 引领的大语言模型时代到来,这个问题基本上已经不是问题了。我们先来看一个效果。首先打开 Linkedin,随便找一个招聘的岗位,如下图所示:然后,我们直接使用 GPT 从这里提取信息:对应的 Prompt 为:12345 你是一个数据提取小助手,能够从一大段招聘相关的文本中提取有用的信息并以 JSON 格式返回。{经过清洗的网页源代码或者文本}请从上面的文本中,提取招聘相关的信息,返回数据格式如下: {"title": "岗位名称", "full_ti……