功能 | PyMuPDF | pikepdf | PyPDF2 | pdfrw | pdfplumber / pdfminer |
---|---|---|---|---|---|
支持多种文档格式 |
PDF XPS EPUB MOBI FB2 CBZ SVG TXT 图片 DOCX XLSX PPTX HWPX 参见 注意 |
||||
实现 | Python 和 C | Python 和 C++ | Python | Python | Python |
渲染文档页面 | 所有文档类型 | 不渲染 | 不渲染 | 不渲染 | 不渲染 |
将文本写入 PDF 页面 |
参见: Page.insert_htmlbox 或 Page.insert_textbox 或 TextWriter |
||||
支持 CJK 字符 | |||||
提取文本 | 所有文档类型 | PDF 仅支持 | PDF 仅支持 | ||
将文本提取为 Markdown (.md) | 所有文档类型 | ||||
提取表格 | 所有文档类型 | PDF 仅支持 | |||
提取矢量图形 | 所有文档类型 | 有限 | |||
绘制矢量图形 (PDF) | |||||
基于现有成熟库 | MuPDF | QPDF | |||
自动修复损坏的 PDF | |||||
加密的 PDF | 有限 | 有限 | |||
线性化的 PDF | |||||
增量更新 | |||||
与 Jupyter 和 IPython Notebook 集成 | |||||
合并 PDF 与其他文档类型 | 所有文档类型 | PDF 仅支持 | PDF 仅支持 | PDF 仅支持 | PDF 仅支持 |
用于与 Tesseract 无缝集成的 OCR API | 所有文档类型 | ||||
集成的检查点 / 重启功能 (PDF) | |||||
PDF 可选内容 | |||||
PDF 嵌入文件 | 有限 | 有限 | |||
PDF 密文处理 | |||||
PDF 注解 | 完整 | 有限 | |||
PDF 表单域 | 创建、读取、更新 | 有限,不可创建 | |||
PDF 页面标签 | 只读 | ||||
支持字体子集化 |