PyMuPDF PDF Parser Clawdbot Skill
2026-03-28
新闻来源:网淘吧
围观:14
电脑广告
手机广告
PyMuPDF PDF
概述
使用PyMuPDF在本地解析PDF,默认快速、轻量地提取为Markdown格式,并可选择在按文档划分的目录中输出JSON以及图像/表格。
前提条件 / 何时阅读参考资料
如果您遇到导入错误(PyMuPDF未安装)或Nixlibstdc++相关问题,请阅读:
references/pymupdf-notes.md
快速开始(单个PDF)
# Run from the skill directory
./scripts/pymupdf_parse.py /path/to/file.pdf \
--format md \
--outroot ./pymupdf-output
选项
--format md|json|both(默认:md)--images以提取图像--tables以提取简单的基于行的表格JSON(快速/粗略)--outroot DIR以更改输出根目录--lang向JSON输出元数据中添加语言提示
输出约定
- 默认创建
./pymupdf-output/<pdf-文件名>/目录。 - Markdown输出:
output.md - JSON输出:
output.json(包含语言信息) - 图片:
images/子目录 - 表格:
tables.json(基于大致行结构)
注意
- PyMuPDF速度很快,但在处理复杂PDF时鲁棒性较差。
- 如需更稳健的解析,请使用重型OCR解析器(如已安装,可使用MinerU)。
文章底部电脑广告
手机广告位-内容正文底部
上一篇:TechMeme News
下一篇:Python Dataviz


微信扫一扫,打赏作者吧~