PyMuPDF Pro#
PyMuPDF Pro 是一组 PyMuPDF 的 商业扩展。
通过支持 Office 文档和 RAG/LLM 集成来增强 PyMuPDF 的功能。
支持处理 Office 文档,包括
doc
,docx
,hwp
,hwpx
,ppt
,pptx
,xls
,xlsx
等。支持文本和表格提取、文档转换等。
包含 PyMuPDF4LLM 的商业版本。
要咨询如何获取商业许可,请使用此联系页面。
注意
PyMuPDF Pro 的许可版本也为您提供了 PyMuPDF4LLM 的许可版本。如果您有兴趣使用 PyMuPDF4LLM 包,应单独安装它。
平台支持#
仅适用于以下平台
Windows x86_64。
Linux x86_64 (glibc)。
MacOS x86_64。
MacOS arm64。
Office 文件支持#
除了 PyMuPDF 支持的标准文件类型外,PyMuPDF Pro 还支持
用法#
安装#
通过 pip 安装
pip install pymupdfpro
加载 Office 文档#
导入 PyMuPDF Pro,然后可以直接引用 Office 文档,例如:
import pymupdf.pro
pymupdf.pro.unlock()
# PyMuPDF has now been extended with PyMuPDF Pro features, with some restrictions.
doc = pymupdf.open("my-office-doc.xls")
注意
所有标准 PyMuPDF 功能都按预期公开 - PyMuPDF Pro 处理扩展的 Office 文件类型
从那时起,您可以像通常一样处理文档页面,但需遵守限制。
将 Office 文档转换为 PDF#
以下代码片段可以将您的 Office 文档转换为 PDF 格式
import pymupdf.pro
pymupdf.pro.unlock()
doc = pymupdf.open("my-office-doc.xlsx")
pdfdata = doc.convert_to_pdf()
with open('output.pdf', 'wb') as f:
f.write(pdfdata)
限制#
PyMuPDF Pro 的功能在没有许可证密钥的情况下受到如下限制
任何文档都只能使用前 3 页。
要解锁全部功能,应获取一个试用密钥。
试用密钥#
要获取许可证密钥,请填写此页面上的表格。试用密钥将通过电子邮件发送到您提交的地址。
使用密钥#
使用密钥初始化 PyMuPDF Pro 如下
import pymupdf.pro
pymupdf.pro.unlock(my_key)
# PyMuPDF has now been extended with PyMuPDF Pro features.
这将允许您在有限时间内评估产品。如果在此之后想继续使用 PyMuPDF Pro,则应咨询如何获取商业许可。
字体#
默认情况下,pymupdf.pro.unlock()
会搜索所有已安装的字体目录。
这可以通过仅限关键字参数来控制
fontpath
: 指定的字体目录,可以是列表/元组或由os.sep
分隔的字符串。如果为 None(默认值),则在使用前检查os.environ['PYMUPDFPRO_FONT_PATH']
是否已设置。fontpath_auto
: 是否追加系统字体目录。如果为 None(默认值),则在os.environ['PYMUPDFPRO_FONT_PATH_AUTO']
为 '1' 时使用 True。如果为 True,则追加所有系统字体目录。
函数 pymupdf.pro.get_fontpath()
返回 unlock()
使用的所有字体目录的元组。