将带标签的 PDF 结构树提取为 XML

本项目开发了一个新工具,用于从带标签的 PDF 文件中提取结构树为 XML。这是一个 Lua 脚本,仅需要随所有主要 TeX 发行版分发的 texlua

还提供了 RelaxNG 模式来验证生成的 XML。

在项目的 tagging-project 仓库中,可以找到包含完整详细信息的讨论页面

要查看该工具的实际应用,验证项目的一个示例 WTPDF 文件,您可以使用以下表单:

https://texlive.net/showtags?doc=mathml-AF-ex2-se