一日一技:从 PDF 完美提取表格

谢乾坤|青南 at 
在之前很长一段时间,从 PDF 文件中提取表格都是一个老大难的问题。无论你使用的是 PyPDF2 还是其他什么第三方库,提取出来的表格都会变成纯文本,难以二次利用。但现在好消息来了,专业处理 PDF 的第三方库 PyMuPDF 升级到了 1.23.0,已经支持完美提取 PDF 中的表格了。还可以把表格转换为 Pandas 的 DataFrame 供你分析。PyMuPDF 的使用非常简单,首先我们来安装:1pip install pymupdf pandas openpyxl 其中安装 pandas 是为了能让它转成 DataFrame,安装 openpyxl 是为了能把结果导出为 Excel。……