一日一技:使用二分法排查正则表达式的异常

谢乾坤|青南 at 
一日一技:使用二分法排查正则表达式的异常的配图
现在我有 10 亿条微博正文,并从同事手上拿到了 15000 条需要过滤的垃圾信息正则表达式,只要微博正文符合任何一条正则表达式,就删除这条微博。正则表达式的格式为:123456789101112131415161718192021^你成功领取|^感谢您的积|^在第\d+次抽奖.|^只有帮主才|^目标有相应|^宝宝#G.|^提交失败,|^您已领取过|^破军争夺战|^首席大弟子|数第\d+个丫鬟|你的店铺|恭喜.*?投中了|<web|你将该物品拆解成|^你身上没有|欢迎参加微博抽奖|蔡徐坤|王一博|朱一龙...存放在一个名为 trash.txt 的文本文件中,每个正则表达式一行。一般情况下,我只……