pdfminer,拿手仅仅是文字的解析,本小白试过了,是把表格解析成一般的文本,还经常会随同一些莫名美妙的不认识的符号。这个计划pass掉
pdf2html,看例是把pdf解析成html,可是html的标签并没有规则,解析一个还行,可是本小白是许多的pdf文档下小标题的表格,这个计划直接pass掉
tabula,这个是我看过的长辈写的博客中运用最多的,自己用过了。关于简略的表格,也就是单元格中没有换行的,表头表尾方式不杂乱的,这个计划的值得引荐。电脑需求有Java的环境。
pdfplumber,这个是看了知乎上的一个大佬的发现,并且自己装置成功之后,发现最小众,可是最契合我的需求的处理计划。条件是是需求装置ImageMagick的
私信小编007即可获取数十套PDF哦!
代码如下:(有宝宝的百度AIP密钥哦!)
上面的模块装置起来应该问题不大,有问题的话能够留言哦。
调用函数的输出如下
key_words="危险管理状况"
page=find_page(path,key_words)
print(page)
会输出相应的页码(无耻的自豪一下下,看看宝宝的jupyter好看不?)
这样的话,咱们就现已完成了咱们的需求啦!后续的关于写入的Excel中中的话,鄙人就部多言啦!能够移步熊猫或许为pywin32哦!
尽管塔布拉是很便利,可是它的输出是真的不便利,并且还需求装的的的java的环境,JAVA的环境变量搞的本宝宝肾亏...
有时候还会输出杂乱无章的东西,比方有时候会输出繁体的中文,我就遇到过...
尽管为了展现比照的便利,这儿都是用了相同的一个表格,可是计划2的处理真的要比1好
别问我为啥知道2比1好,你试试用1去解析一些带有文字格局的表格,带有杂乱的表头的表格,你就知道啦!我在这儿并没有在瞎说,并且还得装的的java的,后者只装一个的的ImageMagick的就行,并且ImageMagick的的的很有用哒,嘻嘻嘻
计划一的辨认输出是心有余而肾缺乏,输出为无
计划二的辨认输出是行百步者半九十,输出为一个不太像样的表格,还需求手艺的调整....
好啦本次共享就到这儿啦,同时感谢学习过的如来神掌武功秘籍的大佬们的博客!