news 2026/4/15 18:14:01

28、密集对应与古代文本分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
28、密集对应与古代文本分析

密集对应与古代文本分析

1. 引言

近年来,大规模的数字化和保护工作产生了大量历史手稿图像。以欧洲历史为例,近百万本手稿书籍和无数档案文件从一千多年前留存至今。这些手稿是历史、文学、哲学、科学、医学以及艺术史的宝贵资料,也反映了抄写和修道院文化、书写系统的发展、语言演变等。虽然数字化存储为保护和获取这些信息提供了新途径,但搜索这些手稿图像档案仍是一项挑战。

与印刷文本图像不同,手稿图像除了特定脚本或语言的专家外,其他人很难阅读。它们通常使用古老语言书写,训练计算机系统识别或处理这些手稿面临训练数据有限的问题。此外,缩写、抄写符号、手稿质量下降、墨水渗透等问题,使得历史文献的光学字符识别(OCR)变得极为困难。

一些著名的手稿收藏,如死海古卷、希腊纸莎草纸、西奈抄本等,都面临着上述挑战。我们的目标是提出一个系统,确定转录文本与扫描手稿中匹配图像区域之间的逐字母映射,从而在字符层面上访问这些手稿图像。据我们所知,此前还没有完全自动的方法来完成这项任务。

在之前的应用中,密集对应用于从参考示例向查询图像传递语义信息。在这里,我们使用相同的方法将字符标签从合成参考图像传递到手稿图像。我们的系统不尝试学习识别手稿中的字形,通过直接匹配历史图像和从文本生成的合成图像的像素,避免了字母分割的问题。通过将参考图像中已知的像素字符标签传递到历史文档图像,我们可以获得每个字母的范围(即分割)。

我们的系统在多种脚本、书写方向、书写风格和语言的手稿图像上进行了测试。此外,我们还讨论了如何通过手动纠正错误对应关系来提高从一行到下一行的对应估计质量。

2. 相关工作

虽然之前有关于文本与相同文本图像匹配的工作,但与自动文本

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 9:38:56

如何用2行代码为网站注入全球化基因:translate.js实战全解析

如何用2行代码为网站注入全球化基因:translate.js实战全解析 【免费下载链接】translate Two lines of js realize automatic html translation. No need to change the page, no language configuration file, no API key, SEO friendly! 项目地址: https://gitc…

作者头像 李华
网站建设 2026/4/15 0:07:29

29、密集对应与古代文本的转录对齐技术探索

密集对应与古代文本的转录对齐技术探索 在处理古代文本图像时,转录对齐是一项关键任务,它有助于准确解读和分析这些珍贵的历史资料。本文将介绍一种基于密集对应关系的转录对齐方法,该方法在处理不同字体、语言和书写特征的文本图像时展现出了良好的效果。 FPLBP特征表示的…

作者头像 李华
网站建设 2026/4/2 14:32:35

Qwen3-VL-8B镜像部署指南:轻松实现图像理解与视觉问答

Qwen3-VL-8B镜像部署实战:让AI看懂图像并智能作答 在电商客服后台,一个用户上传了一张模糊的家电安装图,附言:“这玩意儿怎么装?”传统流程中,这张图需要人工查看、理解、再翻手册回复,耗时动辄…

作者头像 李华
网站建设 2026/4/6 16:09:51

图像转3D模型神器:ImageToSTL深度使用指南

图像转3D模型神器:ImageToSTL深度使用指南 【免费下载链接】ImageToSTL This tool allows you to easily convert any image into a 3D print-ready STL model. The surface of the model will display the image when illuminated from the left side. 项目地址:…

作者头像 李华
网站建设 2026/4/15 8:25:44

VirtualMonitor工作流革命:三步实现生产力倍增的虚拟工作空间构建

VirtualMonitor工作流革命:三步实现生产力倍增的虚拟工作空间构建 【免费下载链接】VirtualMonitor 项目地址: https://gitcode.com/gh_mirrors/vi/VirtualMonitor 效率瓶颈诊断矩阵:识别您的数字工作空间痛点 在数字化转型加速的今天&#xff…

作者头像 李华