_images/icon-pdf.svg _images/icon-svg.svg _images/icon-xps.svg _images/icon-cbz.svg _images/icon-mobi.svg _images/icon-epub.svg _images/icon-image.svg _images/icon-fb2.svg _images/icon-txt.svg _images/icon-docx.svg _images/icon-pptx.svg _images/icon-xlsx.svg _images/icon-hangul.svg
功能 PyMuPDF pikepdf PyPDF2 pdfrw pdfplumber / pdfminer
支持多种文档格式 PDF XPS EPUB MOBI FB2 CBZ SVG TXT 图片
DOCX XLSX PPTX HWPX 参见 注意
PDF PDF PDF PDF
实现 Python C Python C++ Python Python Python
渲染文档页面 所有文档类型 不渲染 不渲染 不渲染 不渲染
将文本写入 PDF 页面
参见: Page.insert_htmlbox

Page.insert_textbox

TextWriter
支持 CJK 字符
提取文本 所有文档类型 PDF 仅支持 PDF 仅支持
将文本提取为 Markdown (.md) 所有文档类型
提取表格 所有文档类型 PDF 仅支持
提取矢量图形 所有文档类型 有限
绘制矢量图形 (PDF)
基于现有成熟库 MuPDF QPDF
自动修复损坏的 PDF
加密的 PDF 有限 有限
线性化的 PDF
增量更新
与 Jupyter 和 IPython Notebook 集成
合并 PDF 与其他文档类型 所有文档类型 PDF 仅支持 PDF 仅支持 PDF 仅支持 PDF 仅支持
用于与 Tesseract 无缝集成的 OCR API 所有文档类型
集成的检查点 / 重启功能 (PDF)
PDF 可选内容
PDF 嵌入文件 有限 有限
PDF 密文处理
PDF 注解 完整 有限
PDF 表单域 创建、读取、更新 有限,不可创建
PDF 页面标签 只读
支持字体子集化