| 功能 | PyMuPDF | pikepdf | PyPDF2 | pdfrw | pdfplumber / pdfminer |
|---|---|---|---|---|---|
| 支持多种文档格式 |
PDF XPS EPUB MOBI FB2 CBZ SVG TXT 图片 DOCX XLSX PPTX HWPX 参见 注意 |
||||
| 实现 | Python 和 C | Python 和 C++ | Python | Python | Python |
| 渲染文档页面 | 所有文档类型 | 不渲染 | 不渲染 | 不渲染 | 不渲染 |
| 将文本写入 PDF 页面 |
参见: Page.insert_htmlbox 或 Page.insert_textbox 或 TextWriter |
||||
| 支持 CJK 字符 | |||||
| 提取文本 | 所有文档类型 | PDF 仅支持 | PDF 仅支持 | ||
| 将文本提取为 Markdown (.md) | 所有文档类型 | ||||
| 提取表格 | 所有文档类型 | PDF 仅支持 | |||
| 提取矢量图形 | 所有文档类型 | 有限 | |||
| 绘制矢量图形 (PDF) | |||||
| 基于现有成熟库 | MuPDF | QPDF | |||
| 自动修复损坏的 PDF | |||||
| 加密的 PDF | 有限 | 有限 | |||
| 线性化的 PDF | |||||
| 增量更新 | |||||
| 与 Jupyter 和 IPython Notebook 集成 | |||||
| 合并 PDF 与其他文档类型 | 所有文档类型 | PDF 仅支持 | PDF 仅支持 | PDF 仅支持 | PDF 仅支持 |
| 用于与 Tesseract 无缝集成的 OCR API | 所有文档类型 | ||||
| 集成的检查点 / 重启功能 (PDF) | |||||
| PDF 可选内容 | |||||
| PDF 嵌入文件 | 有限 | 有限 | |||
| PDF 密文处理 | |||||
| PDF 注解 | 完整 | 有限 | |||
| PDF 表单域 | 创建、读取、更新 | 有限,不可创建 | |||
| PDF 页面标签 | 只读 | ||||
| 支持字体子集化 |