网淘吧来吧,欢迎您!

返回首页 微信
微信
手机版
手机版

PyMuPDF PDF Parser Clawdbot Skill

2026-03-28 新闻来源:网淘吧 围观:14
电脑广告
手机广告

PyMuPDF PDF

概述

使用PyMuPDF在本地解析PDF,默认快速、轻量地提取为Markdown格式,并可选择在按文档划分的目录中输出JSON以及图像/表格。

前提条件 / 何时阅读参考资料

如果您遇到导入错误(PyMuPDF未安装)或Nixlibstdc++相关问题,请阅读:

  • references/pymupdf-notes.md

快速开始(单个PDF)

# Run from the skill directory
./scripts/pymupdf_parse.py /path/to/file.pdf \
  --format md \
  --outroot ./pymupdf-output

选项

  • --format md|json|both(默认:md
  • --images以提取图像
  • --tables以提取简单的基于行的表格JSON(快速/粗略)
  • --outroot DIR以更改输出根目录
  • --lang向JSON输出元数据中添加语言提示

输出约定

  • 默认创建./pymupdf-output/<pdf-文件名>/目录。
  • Markdown输出:output.md
  • JSON输出:output.json(包含语言信息)
  • 图片:images/子目录
  • 表格:tables.json(基于大致行结构)

注意

  • PyMuPDF速度很快,但在处理复杂PDF时鲁棒性较差。
  • 如需更稳健的解析,请使用重型OCR解析器(如已安装,可使用MinerU)。
免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部
上一篇:TechMeme News 下一篇:Python Dataviz

相关文章

您是本站第293819名访客 今日有323篇新文章/评论