PyMuPDF Pro#
PyMuPDF Pro 是一组 PyMuPDF 的 商业扩展。
通过 Office 文档支持和 RAG/LLM 集成增强 PyMuPDF 功能。
支持 Office 文档处理,包括
doc
、docx
、hwp
、hwpx
、ppt
、pptx
、xls
、xlsx
等。支持文本和表格提取、 文档转换等。
包括 PyMuPDF4LLM 的商业版本。
要咨询如何获得商业许可,请使用 此联系页面。
备注
PyMuPDF Pro 的许可版本还为您提供了 PyMuPDF4LLM 的许可版本。如果您有兴趣使用 PyMuPDF4LLM 包,您应该单独安装它。
PyMuPDF Pro is a set of commercial extensions for PyMuPDF.
Enhance PyMuPDF capability with Office document support & RAG/LLM integrations.
Enables Office document handling, including
doc
,docx
,hwp
,hwpx
,ppt
,pptx
,xls
,xlsx
, and others.Supports text and table extraction, document conversion and more.
Includes the commercial version of PyMuPDF4LLM.
To enquire about obtaining a commercial license, then use this contact page.
备注
A licensed version of PyMuPDF Pro also gives you a licensed version of PyMuPDF4LLM. If you are interested in using the PyMuPDF4LLM package you should install it separately.
平台支持#
Platform support
仅适用于以下平台:
Windows x86_64.
Linux x86_64 (glibc).
MacOS x86_64.
MacOS arm64.
Available for these platforms only:
Windows x86_64.
Linux x86_64 (glibc).
MacOS x86_64.
MacOS arm64.
官方文件支持#
Office file support
除了 PyMuPDF 支持的标准文件类型 之外, PyMuPDF Pro 支持:
In addition to the standard file types supported by PyMuPDF, PyMuPDF Pro supports:
使用#
安装#
Installation
使用pip安装:
pip install pymupdfpro
Install via pip with:
pip install pymupdfpro
加载 Office 文档#
Loading an Office document
导入 PyMuPDF Pro 后,您可以直接引用 Office 文档,例如:
import pymupdf.pro
pymupdf.pro.unlock()
# PyMuPDF 现在已扩展为包含 PyMuPDF Pro 功能,但带有一些限制。
doc = pymupdf.open("my-office-doc.xls")
备注
所有标准的 PyMuPDF 功能都会按预期提供, PyMuPDF Pro 处理扩展的 Office 文件类型。
从此,您可以像通常一样处理文档页面,但需遵守 限制。
Import PyMuPDF Pro and you can then reference Office documents directly, e.g.:
import pymupdf.pro
pymupdf.pro.unlock()
# PyMuPDF has now been extended with PyMuPDF Pro features, with some restrictions.
doc = pymupdf.open("my-office-doc.xls")
备注
All standard PyMuPDF functionality is exposed as expected - PyMuPDF Pro handles the extended Office file types
From then on you can work with document pages just as you would do normally, but with respect to the restrictions.
将 Office 文档转换为 PDF#
Converting an Office document to PDF
以下代码片段可以将您的 Office 文档转换为 PDF 格式:
The following code snippet can convert your Office document to PDF format:
import pymupdf.pro
pymupdf.pro.unlock()
doc = pymupdf.open("my-office-doc.xlsx")
pdfdata = doc.convert_to_pdf()
with open('output.pdf', 'wb') as f:
f.write(pdfdata)
限制#
Restrictions
PyMuPDF Pro functionality is restricted without a license key as follows:
Only the first 3 pages of any document will be available.
To unlock full functionality you should obtain a trial key.
试用密钥#
Trial keys
要获取许可证密钥, 请填写此页面 上的表格。然后,试用密钥将通过电子邮件发送到您提交的地址。
To obtain a license key please fill out the form on this page. You will then have the trial key emailled to the address you submitted.
使用密钥#
Using a key
使用如下密钥初始化 PyMuPDF Pro :
import pymupdf.pro
pymupdf.pro.unlock(my_key)
# PyMuPDF 现在已经扩展了 PyMuPDF Pro 的功能。
这将允许您在有限的时间内评估产品。如果您想在此时间之后使用 PyMuPDF Pro,则应 咨询如何获得商业许可证 。
Initialize PyMuPDF Pro with a key as follows:
import pymupdf.pro
pymupdf.pro.unlock(my_key)
# PyMuPDF has now been extended with PyMuPDF Pro features.
This will allow you to evaluate the product for a limited time. If you want to use PyMuPDF Pro after this time you should then enquire about obtaining a commercial license.
字体#
Fonts
默认情况下, pymupdf.pro.unlock()
会搜索所有已安装的字体目录。
可以使用仅限关键字参数来控制此行为:
fontpath
:指定的字体目录,可以是列表/元组或os.sep
分隔的字符串。 如果为 None(默认值),则使用os.environ['PYMUPDFPRO_FONT_PATH']
(如果已设置)。fontpath_auto
:是否追加系统字体目录。 如果为 None(默认值),则当os.environ['PYMUPDFPRO_FONT_PATH_AUTO']
为 ‘1’ 时默认为 True。 如果为 True,则会追加所有系统字体目录。
函数 pymupdf.pro.get_fontpath()
返回 unlock()
使用的所有字体目录的元组。
By default pymupdf.pro.unlock()
searches for all installed font directories.
This can be controlled with keyword-only args:
fontpath
: specific font directories, either as a list/tuple oros.sep
-separated string. If None (the default), we useos.environ['PYMUPDFPRO_FONT_PATH']
if set.fontpath_auto
: Whether to append system font directories. If None (the default) we use true ifos.environ['PYMUPDFPRO_FONT_PATH_AUTO']
is ‘1’. If true we append all system font directories.
Function pymupdf.pro.get_fontpath()
returns a tuple of all font directories used by unlock()
.