PyMuPDF Pro#

PyMuPDF Pro 是一组 PyMuPDF商业扩展

通过支持 Office 文档和 RAG/LLM 集成来增强 PyMuPDF 的功能。

  • 支持处理 Office 文档,包括 doc, docx, hwp, hwpx, ppt, pptx, xls, xlsx 等。

  • 支持文本和表格提取、文档转换等。

  • 包含 PyMuPDF4LLM 的商业版本。

要咨询如何获取商业许可,请使用此联系页面

注意

PyMuPDF Pro 的许可版本也为您提供了 PyMuPDF4LLM 的许可版本。如果您有兴趣使用 PyMuPDF4LLM 包,应单独安装它。

平台支持#

仅适用于以下平台

  • Windows x86_64。

  • Linux x86_64 (glibc)。

  • MacOS x86_64。

  • MacOS arm64。

Office 文件支持#

除了 PyMuPDF 支持的标准文件类型外,PyMuPDF Pro 还支持

DOC/DOCX

XLS/XLSX

PPT/PPTX

HWP/HWPX

_images/icon-docx.svg _images/icon-xlsx.svg _images/icon-pptx.svg _images/icon-hangul.svg

用法#

安装#

通过 pip 安装

pip install pymupdfpro

加载 Office 文档#

导入 PyMuPDF Pro,然后可以直接引用 Office 文档,例如:

import pymupdf.pro
pymupdf.pro.unlock()
# PyMuPDF has now been extended with PyMuPDF Pro features, with some restrictions.
doc = pymupdf.open("my-office-doc.xls")

注意

所有标准 PyMuPDF 功能都按预期公开 - PyMuPDF Pro 处理扩展的 Office 文件类型

从那时起,您可以像通常一样处理文档页面,但需遵守限制

Office 文档转换为 PDF#

以下代码片段可以将您的 Office 文档转换为 PDF 格式

import pymupdf.pro
pymupdf.pro.unlock()

doc = pymupdf.open("my-office-doc.xlsx")

pdfdata = doc.convert_to_pdf()
with open('output.pdf', 'wb') as f:
    f.write(pdfdata)

限制#

PyMuPDF Pro 的功能在没有许可证密钥的情况下受到如下限制

任何文档都只能使用前 3 页。

要解锁全部功能,应获取一个试用密钥

试用密钥#

要获取许可证密钥,请填写此页面上的表格。试用密钥将通过电子邮件发送到您提交的地址。

使用密钥#

使用密钥初始化 PyMuPDF Pro 如下

import pymupdf.pro
pymupdf.pro.unlock(my_key)
# PyMuPDF has now been extended with PyMuPDF Pro features.

这将允许您在有限时间内评估产品。如果在此之后想继续使用 PyMuPDF Pro,则应咨询如何获取商业许可

字体#

默认情况下,pymupdf.pro.unlock() 会搜索所有已安装的字体目录。

这可以通过仅限关键字参数来控制

  • fontpath: 指定的字体目录,可以是列表/元组或由 os.sep 分隔的字符串。如果为 None(默认值),则在使用前检查 os.environ['PYMUPDFPRO_FONT_PATH'] 是否已设置。

  • fontpath_auto: 是否追加系统字体目录。如果为 None(默认值),则在 os.environ['PYMUPDFPRO_FONT_PATH_AUTO'] 为 '1' 时使用 True。如果为 True,则追加所有系统字体目录。

函数 pymupdf.pro.get_fontpath() 返回 unlock() 使用的所有字体目录的元组。


本软件按“原样”提供,不提供任何明示或暗示的保证。本软件根据许可分发,除非获得该许可条款明确授权,否则不得复制、修改或分发。有关许可信息,请参阅 artifex.com 或联系 Artifex Software Inc.,地址:39 Mesa Street, Suite 108A, San Francisco CA 94129, United States,了解更多信息。