PyMuPDF PDF Parser Clawdbot Skill技能使用说明

subsun 4周前 (03-28) openclaw小龙虾 45 0

PyMuPDF PDF

概述

使用PyMuPDF在本地解析PDF,默认快速、轻量地提取为Markdown格式,并可选择在按文档划分的目录中输出JSON以及图像/表格。

前提条件 / 何时阅读参考资料

如果您遇到导入错误(PyMuPDF未安装)或Nixlibstdc++相关问题,请阅读:

  • references/pymupdf-notes.md

快速开始(单个PDF)

# Run from the skill directory
./scripts/pymupdf_parse.py /path/to/file.pdf \
  --format md \
  --outroot ./pymupdf-output

选项

  • --format md|json|both(默认:md
  • --images以提取图像
  • --tables以提取简单的基于行的表格JSON(快速/粗略)
  • --outroot DIR以更改输出根目录
  • --lang向JSON输出元数据中添加语言提示

输出约定

  • 默认创建./pymupdf-output/<pdf-文件名>/目录。
  • Markdown输出:output.md
  • JSON输出:output.json(包含语言信息)
  • 图片:images/子目录
  • 表格:tables.json(基于大致行结构)

注意

  • PyMuPDF速度很快,但在处理复杂PDF时鲁棒性较差。
  • 如需更稳健的解析,请使用重型OCR解析器(如已安装,可使用MinerU)。
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏

相关推荐

网友评论

  • (*)

最新评论

用户管理

您好,欢迎到访网站!
    用户注册

上网淘巴领天猫淘宝优惠券,一年省好几千。

广告  ×

您是本站第820677名访客 今日有0篇新文章/评论