DocParse

我们是直接将doc转化pdf，随后将gptpdf和PDF-Extract-kit融合到一起，得到相对不错的效果。对应的结果在/output/文件夹

步骤

我们首先对当前很多pdf解析在线服务做测试，观察方法的优缺点，记录在 data/third_party_test_result/result_analyse.md
确定了使用PDF-Extract-Kit作为信息提取框架，加上GPT对信息做矫正的思路
完成相对简单的第一页和第三页
对第二页出现的“长文本” 以及 “长表”设计信息验证增强（就是把OCR数据也放上去） + 使用关键词代替对应的长文本，从而降低了输入GPT的数据长度

复现

安装PDF-Extract-Kit，这里有几个版本冲突的地方：
- pillow的版本冲突，需要卸载后安装8.4.0的，安装之前需要安装对应的依赖：
```
sudo apt-get install libjpeg-dev zlib1g-dev
pip install pillow==8.4.0
```
- paddle版本问题
```
pip install paddle==3.0.0b1
```
- tex转图片的pillow版本问题，因为版本比较低，所以只能用默认输入法
```
fontText = ImageFont.load_default()
```
将pdf-steps.ipynb拷贝到PDF-Extract-Kit/中，只需要运行到 def process_ocr_result(ocr_reuslt):，后面的是OPENAI测试程序
得到对应的doc_llm.json，并保存到data/

 python docparse/main/py --doc_llm_path ./data/doc_llm.json --save_folder_path ./output/

问题

`Page_0.md`

开头和结尾都被LLM添加了一些不存在的词

`Page_0.md`

对文本添加了新的内容，尤其是对开头，添加了新单词还有一个格式
Table 4中的图表没有识别到 * ** ***
Table 5中有数据错误：P value列：0.037 0.003 0.02 0.089 0.047 0.006，全都是多添加了一个 0

`Page_2.md`

Simple Uniform Table 中的蓝色link 被识别成了：blueA link example
Table with Merged Cells中d下面的格没有合并起来

改进

表格的提取里面存在数据错误，LLM去做这类内容检测还是容易出现错误，最好是可以有更新的方法
开源的TexLive做的表格识别效果非常强，可以参考一下应该如何实现的link
这里我们没有做公式检测，这里也是可以添加进去的
目前都是for循环，可以批量优化一下，加快速度
优化prompt，减少LLM添加的信息和文本结构

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data		data
docparse		docparse
output		output
.gitignore		.gitignore
README.md		README.md
pdf-steps.ipynb		pdf-steps.ipynb
recording.md		recording.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DocParse

步骤

复现

问题

`Page_0.md`

`Page_0.md`

`Page_2.md`

改进

About

Releases

Packages

Languages

TheCutestCat/DocParse

Folders and files

Latest commit

History

Repository files navigation

DocParse

步骤

复现

问题

Page_0.md

Page_0.md

Page_2.md

改进

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

`Page_0.md`

`Page_0.md`

`Page_2.md`

Packages