PDF Tools
2026-03-29
新闻来源:网淘吧
围观:9
电脑广告
手机广告
PDF 工具
使用 Python 库(pdfplumber 和 PyPDF2)查看、提取和编辑 PDF 文件的工具。
快速开始
所有脚本都需要依赖项:
pip3 install pdfplumber PyPDF2
核心操作
提取文本
从 PDF 中提取文本(所有页面或特定页面):
scripts/extract_text.py document.pdf
scripts/extract_text.py document.pdf -p 1 3 5
scripts/extract_text.py document.pdf -o output.txt
获取 PDF 信息
查看元数据和结构:
scripts/pdf_info.py document.pdf
scripts/pdf_info.py document.pdf -f json
合并 PDF
将多个 PDF 合并为一个:
scripts/merge_pdfs.py file1.pdf file2.pdf file3.pdf -o merged.pdf
拆分 PDF
拆分为单页:
scripts/split_pdf.py document.pdf -o output_dir/
按页面范围拆分:
scripts/split_pdf.py document.pdf -o output_dir/ -m ranges -r "1-3,5-7,10-12"
旋转页面
旋转所有页面或特定页面:
scripts/rotate_pdf.py document.pdf -o rotated.pdf -r 90
scripts/rotate_pdf.py document.pdf -o rotated.pdf -r 180 -p 1 3 5
编辑文本
在页面上添加文本覆盖层:
scripts/edit_text.py document.pdf -o edited.pdf --overlay "New Text" --page 1 --x 100 --y 700
scripts/edit_text.py document.pdf -o edited.pdf --overlay "Watermark" --page 1 --x 200 --y 400 --font-size 20
替换文本(功能有限,在简单情况下效果最佳):
scripts/edit_text.py document.pdf -o edited.pdf --replace "Old Text" "New Text"
注意:由于 PDF 格式的原因,其文本编辑很复杂。覆盖方法比替换方法更可靠。
工作流模式
查看PDF内容
- 获取基本信息:
scripts/pdf_info.py 文件.pdf - 提取文本进行预览:
scripts/extract_text.py 文件.pdf -p 1 - 如需要,提取完整文本:
scripts/extract_text.py 文件.pdf -o 内容.txt
重组PDF文件
- 按页拆分:
scripts/split_pdf.py 输入.pdf -o 页面目录/ - 合并选定页面:
scripts/merge_pdfs.py 页面目录/页面_1.pdf 页面目录/页面_3.pdf -o 重新排序.pdf
提取章节
- 获取页数:
scripts/pdf_info.py 文档.pdf - 按范围拆分:
scripts/split_pdf.py 文档.pdf -o 章节目录/ -m 范围 -r "1-5,10-15"
高级用法
详细库文档及高级模式,请参阅参考资料/库文档.md.
说明
- 页码在所有脚本中均采用1-起始索引(第1页 = 第一页)
- 文本提取功能在基于文本的PDF(非扫描图像)上效果最佳
- 旋转角度:90、180、270 或 -90(逆时针方向)
- 所有脚本在处理前都会验证文件是否存在
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Testing Patterns
下一篇:Git Summary


微信扫一扫,打赏作者吧~