英语日本語 在 Discord 上找到 #pymupdf 欢迎来到 PyMuPDF# PyMuPDF 是一个用于对 PDF(及其他)文档进行数据提取、分析、转换和操作的高性能 Python 库。 PyMuPDF 托管在 GitHub 并注册在 PyPI。 本文档涵盖所有版本直至 1.26.0。 关于 功能比较 性能 许可证和版权 PyMuPDF4LLM PyMuPDF Pro 用户指南 安装 基础知识 教程 PyMuPDF, LLM 与& RAG 资源 操作指南 打开文件 支持的文件类型 如何打开文件 文件识别:使用错误的文件扩展名打开 打开远程文件 从云服务打开文件 打开 Django 文件 将文件作为文本打开 示例 文本 如何提取所有文档文本 如何将文本提取为 Markdown 如何从页面中提取键值对 如何从矩形区域内提取文本 如何按自然阅读顺序提取文本 如何从文档中提取表格内容 如何标记提取的文本 如何标记搜索到的文本 如何标记非水平文本 如何分析字体特征 如何插入文本 如何写入文本行 如何填充文本框 如何使用 HTML 文本填充框 如何提取带颜色的文本 图像 如何从文档页面制作图像 如何提高图像分辨率 如何创建部分 Pixmap(剪辑) 如何将剪辑放大到 GUI 窗口 如何创建或抑制注释图像 如何提取图像:非 PDF 文档 如何提取图像:PDF 文档 如何处理图像遮罩 如何将所有图片(或文件)制作成一个 PDF 如何创建矢量图像 如何转换图像 如何使用 Pixmap:拼接图像 如何使用 Pixmap:生成分形图像 如何与 NumPy 交互 如何向 PDF 页面添加图像 如何使用 Pixmap:检查文本可见性 注释 如何添加和修改注释 如何使用 FreeText 如何使用墨迹注释 绘图和图形 如何提取绘图 如何删除绘图 如何绘制图形 Stories 如何添加带格式的文本行 如何使用图像 如何为 Story 读取外部 HTML 和 CSS 如何使用 Story 模板输出数据库内容 如何与现有 PDF 集成 如何制作多列布局并访问来自 pymupdf-fonts 包的字体 如何制作围绕预定义“禁行区域”布局的布局 如何输出 HTML 表格 如何创建简单的网格布局 如何生成目录 如何显示 JSON 数据列表 使用替代的 Story.write*() 函数 如何使用 Story.write() 进行基本布局 如何使用 Story.write_stabilized() 为目录进行迭代布局 如何使用 Story.write_stabilized_links() 进行迭代布局并创建 PDF 链接 Journalling 示例会话 1 示例会话 2 多进程 OCR - 光学字符识别 如何对图像进行 OCR 如何对文档页面进行 OCR 可选内容支持 介绍:可选内容概念 PyMuPDF 对 PDF 可选内容的支持 如何添加可选内容 如何定义复杂的可选内容条件 低级接口 如何遍历 xref 表 如何处理对象流 如何处理页面内容 如何访问 PDF 目录 如何访问 PDF 文件尾部 如何访问 XML 元数据 如何扩展 PDF 元数据 如何读取和更新 PDF 对象 常见问题及其解决方案 如何动态清理损坏的 PDF 如何将任何文档转换为 PDF 更改注释:意外行为 问题 原因 解决方案 缺少或不可读的提取文本 问题:未提取到文本 原因 解决方案 问题:文本不可读 原因 解决方案 API 参考 命令行界面 调用 清理和复制 提取字体和图像 合并 PDF 文档 低级信息 嵌入文件命令 文本提取 类 Annot Archive Colorspace DisplayList Document DocumentWriter Font Identity IRect Link linkDest Matrix Outline Page Pixmap Point Quad Rect Shape Story TextPage TextWriter Tools Widget Xml 几何对象的算子代数 一般说明 一元操作 二元操作 一些示例 低级函数和类 函数 Device 协同工作:DisplayList 和 TextPage 术语表 coordinate matrix_like rect_like irect_like point_like quad_like inheritable MediaBox CropBox catalog trailer contents resources dictionary page pagetree object stream unitvector xref fontsize resolution OCPD OCCD OCG OCMD ligature 常量和枚举 常量 文档权限 PDF 可选内容代码 PDF 加密方法代码 字体文件扩展名 文本对齐 字体属性 文本提取标志 链接目标类型 链接目标标志 注释相关常量 小部件常量 PDF 标准混合模式 图章注释图标 颜色数据库 函数 getColor() 打印颜色数据库 其他 附录 1:文本提取详情 TextPage 的总体结构 纯文本 BLOCKS WORDS HTML 控制 HTML 输出质量 DICT(或 JSON) RAWDICT(或 RAWJSON) XML XHTML 文本提取标志默认值 性能 附录 2:关于嵌入文件的注意事项 通用 MuPDF 支持 PyMuPDF 支持 附录 3:各种技术信息 图像变换矩阵 PDF Base 14 字体 Adobe PDF 参考资料 在 PyMuPDF 中使用 Python 序列作为参数 确保 PyMuPDF 中重要对象的一致性 方法 Page.show_pdf_page() 的设计 诊断 坐标 附录 4:性能比较方法论 使用的文件 使用的工具 复制 / 合并 / 融合 文本提取 页面渲染 变更日志 废弃名称 本软件按原样提供,不附带任何明示或暗示的担保。本软件根据许可分发,除许可条款明确授权外,不得复制、修改或分发。有关详细信息,请参阅 artifex.com 的许可信息或联系 Artifex Software Inc., 39 Mesa Street, Suite 108A, San Francisco CA 94129, United States。 本文档涵盖所有版本直至 1.26.0。