GPTPDF,用大语言模型如GPT-4o将PDF解析为 Markdown.

只有293行代码,但几乎可以完美地解析排版、数学公式、表格、图片、图表等。每页平均价格:0.013 美元。

处理流程:

1,使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记,比如:

GPTPDF,用大语言模型如GPT-4o将PDF解析为 Markdown插图

2,使用视觉大模型(如 GPT-4o)进行解析,得到 markdown 文件。

开源项目地址:https://github.com/CosmosShadow/gptpdf

成功解析的PDF文件演示:https://github.com/CosmosShadow/gptpdf/blob/main/examples/attention_is_all_you_need/output.md



微信扫描下方的二维码阅读本文

GPTPDF,用大语言模型如GPT-4o将PDF解析为 Markdown插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。