Python 竟能解析 PDF 表格?Python果然是无所不能的编程言语!

繁华落尽and曲终人散 / 2018年08月26日 17:50

时尚

pdfminer,拿手仅仅是文字的解析,本小白试过了,是把表格解析成一般的文本,还经常会随同一些莫名美妙的不认识的符号。这个计划pass掉

pdf2html,看例是把pdf解析成html,可是html的标签并没有规则,解析一个还行,可是本小白是许多的pdf文档下小标题的表格,这个计划直接pass掉

tabula,这个是我看过的长辈写的博客中运用最多的,自己用过了。关于简略的表格,也就是单元格中没有换行的,表头表尾方式不杂乱的,这个计划的值得引荐。电脑需求有Java的环境。

pdfplumber,这个是看了知乎上的一个大佬的发现,并且自己装置成功之后,发现最小众,可是最契合我的需求的处理计划。条件是是需求装置ImageMagick的

私信小编007即可获取数十套PDF哦!

代码如下:(有宝宝的百度AIP密钥哦!)

上面的模块装置起来应该问题不大,有问题的话能够留言哦。

调用函数的输出如下

key_words="危险管理状况"

page=find_page(path,key_words)

print(page)

会输出相应的页码(无耻的自豪一下下,看看宝宝的jupyter好看不?)

这样的话,咱们就现已完成了咱们的需求啦!后续的关于写入的Excel中中的话,鄙人就部多言啦!能够移步熊猫或许为pywin32哦!

尽管塔布拉是很便利,可是它的输出是真的不便利,并且还需求装的的的java的环境,JAVA的环境变量搞的本宝宝肾亏...

有时候还会输出杂乱无章的东西,比方有时候会输出繁体的中文,我就遇到过...

尽管为了展现比照的便利,这儿都是用了相同的一个表格,可是计划2的处理真的要比1好

别问我为啥知道2比1好,你试试用1去解析一些带有文字格局的表格,带有杂乱的表头的表格,你就知道啦!我在这儿并没有在瞎说,并且还得装的的java的,后者只装一个的的ImageMagick的就行,并且ImageMagick的的的很有用哒,嘻嘻嘻

计划一的辨认输出是心有余而肾缺乏,输出为无

计划二的辨认输出是行百步者半九十,输出为一个不太像样的表格,还需求手艺的调整....

好啦本次共享就到这儿啦,同时感谢学习过的如来神掌武功秘籍的大佬们的博客!

1. 中国品牌新闻网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2. 中国品牌新闻网的原创文章,请转载时务必注明文章作者和"来源: 中国品牌新闻网",不尊重原创的行为 中国品牌新闻网或将追究责任;3.作者投稿可能会经 中国品牌新闻网编辑修改或补充。