论文解读|创建管理古意大利语文本的科学工作流-开发者社区

论文解读：创建管理古意大利语文本的科学工作流

学术严谨表达自然流畅

论文基本信息

标题：Creating a scientific workflow to manage Old Italian texts（创建管理古意大利语文本的科学工作流）

作者：Emiliano Degl’Innocenti, Francesco Pinna, Alessia Spadi, Federica Spinelli

机构：Opera del Vocabolario Italiano（意大利语词汇表研究所）

发表信息：

发表日期：2025年6月12日
接受日期：2025年4月14日
提交日期：2024年11月15日
期刊：Transformations: A DARIAH Journal
卷号：第1卷工作流专辑
DOI：10.46298/transformations.14779
数据：86次浏览，95次下载

关键词：文本语料库管理、古意大利语文本、数字人文、科学工作流、学术数字版本

摘要翻译

英文摘要翻译

大规模文本集合（语料库）的管理与分析是一项复杂任务，涉及技术和学术两方面的考量。从事文本研究的学者（包括但不限于文献学家、古文字学家和抄本学家）不仅从文本中提取信息，还要考察视觉元素——如版面设计和页面编排——以及书写材料（如印刷书籍和手稿）的物理特征。他们的分析包括文本结构、使用的材料、页面上的文字布局以及任何批注或笔记。开发高效的科学工作流来处理这些多样化的方面，是数字人文领域的重大挑战。本文描述了一个支持古意大利语文本管理的科学工作流，提供了语义技术与文献学方法的创新整合，以增强学术数字版本的质量。

意大利语摘要翻译

大规模文本集合（语料库）的管理与分析构成了一项复杂任务，包含技术和科学两方面的考量。从事文本研究的研究者（包括但不限于：文献学家、古文字学家和抄本学家）不仅仅提取文本中的信息，还要考察书写材料（即印刷书籍和手稿）的视觉特征（即版面设计和页面编排）和物质特征（即物理性），包括文本结构、使用的材料、页面上文字的排列以及任何批注或笔记。开发高效的科学工作流来管理这些不同方面，是数字人文领域的重大挑战。本文描述了一个支持古意大利语文本管理的科学工作流，提供了语义技术与文献学方法的创新整合，以改进数字学术版本。

深度解读

研究背景与问题域的精确定位

这篇发表于2025年6月的论文来自Opera del Vocabolario Italiano（OVI，意大利语词汇表研究所），这一机构本身就承载着意大利语言史研究的核心使命。OVI成立于1965年，隶属于意大利国家研究委员会（CNR），其主要任务是编纂历史性的意大利语大词典，追溯从最早的意大利语文献（约10世纪）到现代的词汇演变。这一机构背景决定了论文的研究视角：不是从纯粹的技术创新出发，而是从具体的文献学实践需求出发，探索数字技术如何服务于历史语言学和文献学的核心问题。

论文聚焦于"科学工作流"（scientific workflow）这一概念，这在数字人文领域具有特殊意义。工作流不仅是技术流程的描述，更是研究方法的形式化表达。在传统文献学中，学者的研究过程高度个人化：如何选择版本、如何校勘异文、如何标注语言特征，这些决策往往基于多年积累的默会知识和个人判断。将这一过程转化为可描述、可重复、可共享的工作流，本质上是将隐性知识显性化的认识论转变。这种转变既带来研究透明度和可验证性的提升，也引发了关于人文研究本质的深层讨论：文献学的核心能力是否可以被程序化？专家判断的独特价值如何在标准化流程中得到保留？

论文摘要中特别强调了文本研究的多维性。文献学家不仅关注文本的语言内容，还要考察"视觉元素"（layout和mise-en-page）和"物理特征"（materiality）。这种多维视角反映了近几十年文献学理论的重要转向。传统的文本批评（textual criticism）主要关注文本的语言层面，试图通过比较不同抄本重建作者的原始意图。但"新文献学"（New Philology）和"书籍史"（book history）等理论流派指出，文本的物质形态本身就是意义的载体：羊皮纸还是纸张、手写还是印刷、页边批注的位置和笔迹，都承载着历史信息。数字化工作流必须能够捕捉和表达这种多层次的复杂性。

古意大利语文本的特殊挑战

古意大利语（Old Italian，意大利语称为italiano antico或volgare italiano）指的是从最早的意大利语文献出现（约10世纪）到文艺复兴晚期（约16世纪）这一时期的语言。这一时期的语言特征与现代标准意大利语存在显著差异，给数字化处理带来多重挑战。

首先是语言的内在异质性。在这一时期，意大利半岛上并不存在统一的"意大利语"，而是存在多种地方方言（威尼斯语、托斯卡纳语、那不勒斯语等），加上拉丁语的持续影响和各地书写传统的差异。即使是同一地区的文本，不同时期、不同文体、不同作者的语言特征也可能大相径庭。Dante的《神曲》、Boccaccio的《十日谈》、Petrarca的《歌集》虽然都用托斯卡纳方言写成，但语言风格和词汇选择差异显著。商业文书、法律文件、私人信件中使用的语言更加口语化和地方化。这种异质性意味着不可能建立单一的语言模型或标注标准，工作流必须具有足够的灵活性来适应不同类型文本的特殊需求。

其次是拼写的非标准化。在印刷术普及之前，文本主要通过手抄传播，每个抄写员都有自己的拼写习惯。同一个词在不同抄本中可能有多种拼写形式，甚至在同一抄本的不同位置也可能拼写不一致。例如，“essere”（是）这个动词可能被写成"essere"、“esser”、“esere”、"eser"等多种形式。这种拼写变异不仅是噪音，也是历史语言学的重要信息：它反映了当时的语音特征、方言影响和书写传统。数字化工作流需要在保留原始拼写（用于历史语言学研究）和提供标准化形式（用于检索和统计分析）之间找到平衡。

第三是文本传承的复杂性。许多古意大利语文本没有作者的原稿（autograph）保存下来，我们今天看到的是经过多次抄写的副本。不同抄本之间存在大量变异（variants），包括词汇替换、语序调整、段落增删等。这些变异可能源于抄写错误、有意改动或不同版本的混合。文献学家的核心任务之一就是通过比较不同抄本，重建文本的传承历史（stemma codicum）。数字工作流需要能够记录和可视化这种复杂的文本关系，支持多版本的并行呈现和比较分析。

第四是物质性的重要性。古意大利语文本的物质载体——羊皮纸或纸张手稿、早期印刷书——本身就是历史文物。纸张的质地、墨水的颜色、装订的方式、页边的批注，都可能提供关于文本生产、流通和使用的信息。例如，页边批注可能揭示早期读者的理解和反应，装订方式可能暗示书籍的原始用途（私人收藏还是公共图书馆），纸张的水印可能帮助确定制作的时间和地点。数字化不应仅仅捕捉文本内容，还应记录这些物质特征。高分辨率图像、多光谱成像、3D扫描等技术可以捕捉物质信息，但如何将这些信息整合到文本工作流中，如何建立物质特征与文本内容的关联，仍是技术挑战。

语义技术与文献学方法的整合

论文摘要强调"语义技术与文献学方法的创新整合"，这一表述指向数字人文中的核心议题：如何将计算机科学的形式化方法与人文学科的阐释性方法有机结合。

语义技术（semantic technologies）主要指语义网（Semantic Web）相关的技术栈，包括RDF（资源描述框架）、OWL（网络本体语言）、SPARQL（语义查询语言）等。这些技术的核心理念是用形式化的方式表达知识：每个概念和实体用唯一的URI标识，它们之间的关系用三元组（主语-谓语-宾语）表达，从而构建可机读、可推理的知识图谱。在文本研究中，语义技术可以用来表达文本之间的关系（如"X是Y的抄本"）、文本与人物的关系（如"X由Y抄写"）、文本与地点的关系（如"X在Y制作"）等。

但语义技术的形式化特征与文献学的阐释性传统之间存在张力。文献学判断往往是概率性的、语境依赖的、可争议的。例如，判断两个抄本是否源自同一原本，需要综合考虑语言特征、抄写错误模式、物质证据等多方面因素，结论往往是"很可能"而非"确定"。如何在形式化的语义模型中表达这种不确定性？如何允许不同学者提出不同的阐释而不导致知识图谱的混乱？这需要在本体设计中引入不确定性和多视角的机制。

CIDOC CRM（国际博物馆文献委员会概念参考模型）是文化遗产领域最成熟的本体，已被ISO采纳为国际标准（ISO 21127）。CIDOC CRM采用事件中心（event-centric）的建模方式：不是直接说"X由Y抄写"，而是说"存在一个抄写事件E，E的行为者是Y，E的产物是X"。这种建模方式的优势在于可以为事件附加丰富的语境信息：时间、地点、使用的工具、参与的其他人员等。更重要的是，可以为事件附加证据和确定性级别：这个判断基于什么证据？可信度如何？是否有争议？

FRBRoo（FRBR面向对象版本）是CIDOC CRM在书目领域的扩展，专门用于表达文本的复杂性。FRBRoo区分了作品（Work，抽象的智力创造）、表达（Expression，作品的特定实现）、载体（Manifestation，表达的物理形式）和单件（Item，载体的具体实例）四个层次。例如，Dante的《神曲》是一个作品，托斯卡纳方言版本是一个表达，1472年在佛罗伦萨印刷的版本是一个载体，佛罗伦萨国家图书馆收藏的那本是一个单件。这种多层次建模能够精确表达文本研究中的复杂关系：不同抄本可能是同一表达的不同载体，也可能是不同表达（因为包含不同的变异）的不同载体。

但CIDOC CRM和FRBRoo的复杂性也是挑战。这些本体包含数百个类和属性，学习曲线陡峭。更重要的是，它们是通用本体，需要针对具体研究需求进行扩展和定制。OVI的工作流必然涉及对这些本体的本地化改造：增加特定于古意大利语研究的类和属性，定义符合文献学传统的推理规则，开发便于人文学者使用的界面和工具。这种改造过程本身就是跨学科协作的实践：文献学家需要将自己的专业知识形式化为本体概念，计算机科学家需要理解文献学的逻辑和需求。

学术数字版本的理论与实践

论文的目标是"增强学术数字版本"（enhance scholarly digital editions），这涉及数字人文中一个成熟但仍在演化的研究领域。学术版本（scholarly edition）是文献学的核心成果形式：通过比较不同版本、校勘文本、提供注释，为读者提供可靠的文本和丰富的学术信息。数字技术为学术版本带来了新的可能性，但也引发了关于版本本质的反思。

Patrick Sahle在其权威性的研究中提出，数字学术版本不应仅仅是纸质版本的电子复制，而应充分利用数字媒介的特性：超文本链接、多媒体整合、动态可视化、用户交互等。真正的数字版本应该是"不能被印刷的"（cannot be printed without significant loss of content or functionality）。这一定义虽然有些极端，但指出了数字版本的核心特征：它不是静态的文本产品，而是动态的研究环境。

数字版本的优势在于能够同时呈现多个层次的信息。在纸质版本中，编辑必须在正文和注释之间做出选择：是采用"清读本"（reading text）提供流畅的阅读体验，还是采用"校勘本"（critical apparatus）详细记录所有变异？数字版本可以同时提供两者，甚至更多：外交转录（diplomatic transcription，忠实保留原始拼写和版面）、标准化转录（normalized transcription，便于阅读和检索）、语言学标注（词性、句法等）、历史注释、图像对照等。用户可以根据自己的需求选择查看哪些层次，甚至可以自定义显示方式。

但这种多层次呈现也带来认知负荷的问题。如果界面过于复杂，用户可能迷失在信息的海洋中，反而降低了可用性。数字版本的设计需要在信息丰富性和用户友好性之间找到平衡。这不仅是界面设计的问题，更是编辑哲学的问题：数字版本的目标受众是谁？是专业研究者还是普通读者？是提供研究工具还是提供阅读体验？不同的目标需要不同的设计策略。

TEI（文本编码倡议）是数字学术版本的事实标准。TEI提供了一套基于XML的标记方案，用于编码文本的结构（章节、段落、诗行等）、语言特征（人名、地名、日期等）、编辑干预（补充、删除、不确定等）、物质特征（页码、行数、批注等）等多方面信息。TEI的优势在于其灵活性和可扩展性：它提供了数百个预定义的标签，但也允许用户根据需要定义新标签。TEI的劣势在于其复杂性：完整的TEI指南有数千页，即使经验丰富的编辑也很难掌握所有细节。

OVI的工作流必然涉及TEI编码的实践。但TEI主要关注文本的编码，而论文强调的"语义技术整合"意味着需要将TEI编码的文本与语义网的知识图谱连接起来。这种连接可以通过多种方式实现：在TEI标签中嵌入URI引用外部本体中的概念，将TEI文档转换为RDF三元组，或者建立TEI和RDF之间的映射关系。每种方式都有其技术复杂性和语义考量。关键是确保文本的语言学信息和历史语境信息能够被机器理解和推理，从而支持跨文本、跨语料库的复杂查询和分析。

工作流的可持续性与FAIR原则

论文发表在DARIAH（欧洲数字研究基础设施）支持的期刊上，且属于"工作流"专辑，这暗示了研究与欧洲数字人文基础设施建设的密切关联。DARIAH的核心使命之一是促进数字人文资源和工具的共享与重用，这要求研究成果符合FAIR原则（可发现、可访问、可互操作、可重用）。

对于工作流而言，FAIR原则的实施有特殊含义。可发现性要求工作流有详细的元数据描述：它处理什么类型的数据？使用什么工具和方法？适用于什么研究问题？这些元数据应该发布在可检索的注册表中，如SSH开放市场。可访问性要求工作流的每个组件都可以被获取和使用，这涉及软件的开源、数据的开放、文档的完整。可互操作性要求工作流使用标准化的格式和协议，能够与其他工作流和工具组合使用。可重用性要求工作流有清晰的许可证，详细的使用说明，以及足够的灵活性以适应不同的研究场景。

但FAIR原则在人文学科的实施面临特殊挑战。许多古意大利语文本的数字图像受版权保护，不能自由分享。即使文本本身已进入公有领域，高质量的数字化图像和学术标注仍然是机构和学者的知识产权。如何在保护知识产权和促进学术共享之间找到平衡？一些机构采用分层许可的策略：低分辨率图像和基本元数据开放获取，高分辨率图像和详细标注需要注册或付费。但这种策略可能导致数字鸿沟，使资源匮乏的研究者和机构处于不利地位。

工作流的可持续性是更深层的挑战。开发一个复杂的数字工作流需要多年的投入和跨学科团队的协作，但学术资助通常是短期的（3-5年）。项目结束后，谁来维护工作流？谁来更新软件以适应新的技术平台？谁来提供用户支持和培训？许多数字人文项目在资助结束后逐渐衰败，最终变成"数字废墟"。避免这种命运需要长期的机构承诺和可持续的资金机制。

OVI作为国家研究机构，在可持续性方面具有优势。它有稳定的资金来源和长期的使命，不依赖于短期项目资助。但即使是稳定的机构，也面临技术演进和人员流动的挑战。工作流的设计需要考虑长期维护的成本：使用成熟稳定的技术而非最新潮的工具，采用模块化架构便于局部更新，编写详细的文档以降低知识转移的成本，培养年轻学者掌握相关技能以确保代际传承。

跨学科协作的组织与文化

论文的四位作者都来自OVI，这种单一机构的团队构成在数字人文中并不常见。许多数字人文项目涉及多个机构、多个学科的协作。单一机构团队的优势在于沟通成本低、目标一致、文化同质，但也可能缺乏外部视角和技术多样性。OVI团队可能包含文献学家、语言学家、计算机科学家等不同背景的成员，但他们长期在同一机构工作，已经形成了共同的学术语言和工作习惯。

这种团队构成反映了数字人文协作的一种模式：在传统人文机构内部培养技术能力，而非依赖外部技术合作者。这种模式的优势在于技术开发与学术需求的紧密结合，技术人员深入理解文献学问题，文献学家也掌握基本的技术概念。但这种模式也有挑战：人文机构能否提供有竞争力的薪酬吸引优秀的技术人才？技术人员在人文机构中的职业发展路径如何？他们的贡献如何得到学术评价体系的认可？

数字人文中的劳动分工和署名问题值得关注。在传统人文学术中，著作权归属相对清晰：作者是智力创造的主体，其他贡献者（如助理、翻译、编辑）通常在致谢中提及而非作为合著者。但在数字人文项目中，技术开发、数据处理、界面设计等工作都是项目成功的关键，这些贡献者应该得到什么样的认可？论文的四位作者署名平等，没有标注各自的具体贡献，这可能反映了团队协作的平等性，但也可能掩盖了实际的劳动分工。

一些数字人文项目开始采用CRediT（贡献者角色分类法）等标准，明确列出每位作者的具体贡献：概念化、方法论、软件开发、数据管理、写作等。这种透明化有助于公正地认可不同类型的贡献，也有助于读者理解项目的协作结构。但在实践中，贡献的边界往往是模糊的：技术开发过程中可能产生方法论创新，数据处理过程中可能发现学术问题，如何精确划分？过度的形式化可能导致协作的官僚化，损害团队的创造性和灵活性。

意大利数字人文的学术传统

OVI的工作植根于意大利深厚的文献学传统。意大利是现代文献学的发源地之一，从文艺复兴时期的人文主义学者到19-20世纪的Pasquali、Contini等大师，意大利文献学形成了独特的理论和方法。Contini提出的"变异语言学"（linguistica delle varianti）强调文本变异不是需要消除的噪音，而是理解作者创作过程和文本传承历史的宝贵资源。这种理论视角对数字版本的设计有深刻影响：数字版本不应仅仅呈现编辑重建的"最佳文本"，而应呈现变异的全貌，让用户看到文本的动态演化。

意大利的数字人文发展既受益于这一传统，也受其制约。深厚的文献学传统意味着学者对文本细节的敏感和对学术严谨性的坚持，这保证了数字项目的学术质量。但传统也可能导致保守：对新方法的怀疑，对形式化的抵触，对计算方法的不信任。意大利数字人文的发展相对于英美国家较为缓慢，部分原因在于学术文化的差异：意大利学术体系更加等级化，年轻学者更难获得资源和话语权，跨学科冒险的风险更大。

但近年来意大利数字人文呈现加速发展的趋势。AIUCD（意大利数字人文协会）的成立、多个数字人文中心的建立、国家和欧盟层面的资助项目，都推动了这一领域的发展。OVI的工作流项目正是这一趋势的体现：将传统的文献学优势与现代的数字技术结合，为国际数字人文社群贡献意大利的经验和视角。

从工作流到研究范式的转变

工作流的形式化不仅是技术问题，更是研究范式的转变。传统的人文研究是高度个人化的：学者独自阅读文本、形成阐释、撰写论文。这种研究模式强调个人的博学和洞察，成果以专著和论文的形式呈现。数字人文推动的是协作化、数据驱动的研究模式：团队协作开发工具和数据集，使用计算方法发现模式，以数字平台和数据库的形式呈现成果。

这种范式转变引发了关于人文学科本质的争论。批评者认为，数字人文过度强调量化和形式化，忽视了人文学科的核心价值：对意义的深度阐释、对复杂性的敏感、对确定性的质疑。支持者则认为，数字方法扩展了人文研究的可能性：能够处理更大规模的材料，发现传统方法难以察觉的模式，以更透明和可验证的方式进行研究。

OVI的工作流项目试图在两种范式之间架桥。它不是用计算方法取代文献学判断，而是用数字工具增强文献学能力。工作流处理大规模的文本转录、标注和管理，但关键的文献学决策——如何解读模糊的笔迹、如何判断抄本关系、如何阐释语言现象——仍然依赖人类专家。数字工作流的价值在于将重复性的劳动自动化，将研究过程透明化，将学术成果可共享化,从而让学者能够将更多精力投入到需要创造性思维的核心学术任务上。

面向未来的开放问题

尽管论文描述了一个创新的工作流，但许多根本性问题仍然开放。在技术层面，如何开发适用于古意大利语的自然语言处理工具？现有的NLP工具主要针对现代语言训练，在历史语言上表现不佳。迁移学习、少样本学习等新技术提供了可能性,但需要大量的标注数据和计算资源。如何在有限的资源下最大化NLP工具的效用？

在方法论层面，如何评价数字学术版本的质量？传统的学术版本有成熟的评价标准：校勘的准确性、注释的深度、理论的创新性等。但数字版本增加了新的维度：技术的稳定性、界面的可用性、数据的互操作性等。这些维度如何整合到学术评价中？谁有资格评价数字版本的技术质量？纯粹的文献学家可能缺乏技术判断力，纯粹的技术专家可能缺乏学术判断力。

在组织层面，如何建立可持续的数字人文基础设施？单个项目的成果如何整合成为长期可用的资源？欧洲的DARIAH、CLARIN等基础设施项目提供了框架，但基础设施的维护需要持续的资金投入和机构承诺。在财政紧缩和研究重点转移的情况下，如何确保数字人文基础设施不会成为"数字废墟"？

在文化层面，如何培养新一代既懂人文又懂技术的学者？现有的学科体制和培养模式难以产生这种复合型人才。数字人文是否应该成为独立学科，还是应该作为方法论融入各个人文学科？不同的选择有不同的利弊，但都需要教育体系的深刻变革。

结语：工作流作为知识基础设施

OVI的古意大利语文本管理工作流不仅是一个技术系统，更是一种知识基础设施。它承载着意大利语言史研究的学术传统，体现着数字时代文献学的方法论创新，也面临着数字人文共同的挑战和机遇。工作流的成功不仅取决于技术的先进性，更取决于它能否真正服务于学术研究的核心需求，能否得到学术社群的认可和使用，能否在长期维护中保持活力和相关性。

从更宏观的视角看，这一工作流是欧洲数字人文基础设施建设的一部分，是全球数字人文运动的一个节点。它的经验和教训将为其他语言、其他时期、其他类型的文本数字化提供参考。数字人文的未来不在于单个项目的辉煌，而在于能否建立起可持续、可互操作、可共享的知识基础设施，让数字技术真正成为人文研究的有机组成部分，而非外在的工具或时髦的装饰。

OVI团队的工作提醒我们，数字人文的核心不是技术本身，而是技术如何服务于人文学科的根本使命：理解人类的文化创造，阐释历史的复杂性，传承文明的记忆。古意大利语文本承载着中世纪和文艺复兴时期意大利人的思想、情感、日常生活和社会关系，它们是理解欧洲文明史的宝贵资源。数字工作流使这些文本能够被更广泛地访问、更深入地研究、更长久地保存，这本身就是对人类文化遗产的重要贡献。在技术快速变革的时代，保持对人文价值的坚守，在创新与传统之间找到平衡，这正是数字人文学者的使命和挑战。