Python 竟能解析 PDF 表格？Python果然是无所不能的编程言语！_时尚_资讯

pdfminer，拿手仅仅是文字的解析，本小白试过了，是把表格解析成一般的文本，还经常会随同一些莫名美妙的不认识的符号。这个计划pass掉

pdf2html，看例是把pdf解析成html，可是html的标签并没有规则，解析一个还行，可是本小白是许多的pdf文档下小标题的表格，这个计划直接pass掉

tabula，这个是我看过的长辈写的博客中运用最多的，自己用过了。关于简略的表格，也就是单元格中没有换行的，表头表尾方式不杂乱的，这个计划的值得引荐。电脑需求有Java的环境。

pdfplumber，这个是看了知乎上的一个大佬的发现，并且自己装置成功之后，发现最小众，可是最契合我的需求的处理计划。条件是是需求装置ImageMagick的

私信小编007即可获取数十套PDF哦！

代码如下：(有宝宝的百度AIP密钥哦！）

上面的模块装置起来应该问题不大，有问题的话能够留言哦。

调用函数的输出如下

key_words="危险管理状况"

page=find_page(path,key_words)

print(page)

会输出相应的页码（无耻的自豪一下下，看看宝宝的jupyter好看不？）

这样的话，咱们就现已完成了咱们的需求啦！后续的关于写入的Excel中中的话，鄙人就部多言啦！能够移步熊猫或许为pywin32哦！

尽管塔布拉是很便利，可是它的输出是真的不便利，并且还需求装的的的java的环境，JAVA的环境变量搞的本宝宝肾亏...

有时候还会输出杂乱无章的东西，比方有时候会输出繁体的中文，我就遇到过...

尽管为了展现比照的便利，这儿都是用了相同的一个表格，可是计划2的处理真的要比1好

别问我为啥知道2比1好，你试试用1去解析一些带有文字格局的表格，带有杂乱的表头的表格，你就知道啦！我在这儿并没有在瞎说，并且还得装的的java的，后者只装一个的的ImageMagick的就行，并且ImageMagick的的的很有用哒，嘻嘻嘻

计划一的辨认输出是心有余而肾缺乏，输出为无

计划二的辨认输出是行百步者半九十，输出为一个不太像样的表格，还需求手艺的调整....

好啦本次共享就到这儿啦，同时感谢学习过的如来神掌武功秘籍的大佬们的博客！