概述

核电工程企业在日常运营中会处理大量具有复杂版式和专业术语的业务文件(如合同、流程图、技术图纸、审批表单、技术报告等)。传统上,这些文件的数字化处理依赖OCR(Optical Character Recognition,光学字符识别)提取文字,再结合规则或NLP模型进行分析。然而,此类传统方案存在OCR错误传播、难以理解版面结构、多语言适应性差等局限 。近年来,基于深度学习的视觉模型在文档理解领域取得突破,一系列开源模型(如 Donut, LayoutLMv3, Pix2Struct, DocFormer, TrOCR, BLIP 等)能够将图像中的文字和视觉布局信息融合,从而端到端地“理解”文件内容。在GPT-5 Research 的帮助下,本文聚焦上述模型在准确率处理速度可扩展性使用成本等方面进行评估,并探讨它们在核电工程企业典型场景中的应用潜力,以及与传统OCR+NLP流水线的对比。

开源视觉文档理解模型综述

以下分别介绍当前常用的几种开源视觉文档理解模型,包括其架构特点、文档视觉-语言信息处理方式,以及优势与局限。

Donut (Document Understanding Transformer)

Donut模型架构示意:采用视觉Transformer编码器提取图像特征,结合任务提示,通过文本解码器输出结构化结果(例如JSON格式) 。

模型简介

Donut 是由 NAVER Clova 团队提出的OCR无关(end-to-end OCR-free)文档理解Transformer模型 。它采用Transformer编码-解码架构:视觉编码器使用如 Swin Transformer 的网络将文档图像编码为视觉特征嵌入,文本解码器基于BART结构,将视觉特征解码生成文本序列 。与传统方法不同,Donut不依赖独立的OCR引擎获取中间文字,而是直接从图像生成目标文本/标签。这种端到端方式避免了OCR错误传播,并具有多语言、复杂版面适应能力 。官方提供了多种下游任务的微调模型,如文档分类、信息抽取和文档问答等。

文档处理方式

Donut通过在预训练阶段学习“阅读”图像中文字(预测下一个词),结合大规模合成文档数据(SynthDoG)来获得文字识别能力 ;然后在微调阶段,通过为不同任务设计输出格式(例如序列标注为JSON字段)来学习文档理解。模型以JSON字符串形式输出结构化信息,使之方便地映射回字段提取结果 。

性能与适用性

Donut在多项视觉文档理解任务上达到领先性能。例如,在票据信息提取数据集CORD上,微调后的Donut-base模型F1达到约91%,优于以OCR为基础的传统方法 ;在RVL-CDIP文档分类任务上准确率约95% ;在DocVQA文档问答任务上也取得当时最佳的67.5分 。不仅准确率高,推理速度也较快——处理单页文档图像约需0.6~0.8秒(GPU环境下) 。这些结果证明了Donut在合同、发票等结构化业务文档的分类与字段提取上效果卓越 。由于其不依赖OCR引擎,Donut对中文等复杂字符语言有更好的灵活性,能够通过合成预训练扩展到多语言文档 。在流程图、技术图纸等含有图形符号的文件中,Donut主要能提取文字内容,对于图形的理解则相对有限,需要结合其他技术。

应用优势

Donut的主要优势在于端到端训练使得误差不会在OCR阶段累积,并且利用Transformer全球特征能够更好地理解版面语义(例如表格结构、字段对应关系) 。它在训练时通过合成数据增强,降低了对昂贵标注数据的依赖,可扩展到不同语言和版面域 。同时,一个模型即可完成分类、信息抽取等多种任务,只需调整输出格式,具有一体化的便利。然而,Donut模型参数较大(数亿级别)且需要GPU支持才能高效推理;相较于传统OCR,其训练和部署成本更高。此外,对于高度图形化的文档内容(如复杂工程示意图),Donut仅凭文本线索可能无法充分理解,需要引入额外的图形分析方法。

开源情况

Donut已开源,提供预训练模型和示例代码(GitHub: clovaai/donut )。模型以MIT许可发布,便于在工业场景中部署使用。

LayoutLMv3

模型简介

LayoutLMv3是微软Asia研究院提出的第三代版面理解模型,相比前代,它首次实现了视觉与文本的统一Transformer架构预训练 。LayoutLMv3采用单一Transformer编码器,同时接收文本和图像两种模态的输入:文本以OCR识别的字词序列嵌入并加入二维坐标位置编码,图像则划分为固定尺寸的像素网格并线性投影为向量,不再依赖额外的CNN或检测器提取视觉特征 。这种设计避免了以往LayoutLMv2需要预先检测文字框并提取区域特征的繁琐过程,实现了真正端到端的多模态融合。

预训练与输入处理

LayoutLMv3针对多模态预训练引入了统一的遮盖策略 和多任务目标 :在大量文档数据上同时进行30%文字Mask的语言模型训练(MLM),40%图像Patch Mask的图像重建(MIM) ,以及词-图块对齐 (WPA) 任务(预测某文字对应的图像区域是否被遮挡) 。通过这些任务,模型学习跨模态的对齐和推理能力。在预训练中使用了约1100万页的文档图像数据集(如IIT-CDIP)和大规模合成数据,模型Base版有12层Transformer(约133M参数),Large版24层 。OCR提供的每个文字token附带其在页面中的二维坐标位置,LayoutLMv3将文本和图像Patch序列拼接后输入Transformer,全局自注意力机制使文字和对应视觉区域直接交互 。

性能与适用性

得益于统一的跨模态表示,LayoutLMv3在多项文档AI基准上取得当前开源模型中的领先性能 。例如,在表单理解(FUNSD)、收据关键信息提取(CORD)以及文档问答(DocVQA)等文本为主的任务上刷新了准确率记录;同时在文档图像分类(RVL-CDIP)、版面结构检测(PubLayNet)等图像为主的任务上也达到新高 。据报道,LayoutLMv3在文档分类数据集RVL-CDIP上准确率达95.93%,显著优于以往模型 。它还能通过级联检测器用于复杂版面分析(如表格、版面元素的检测),显示出强大的视觉理解能力 。对于核电企业的合同、报告等长文本文件,LayoutLMv3擅长结合文字内容和布局样式进行分类、关键字段抽取和问答;对于审批表单等结构化文档,它能利用布局坐标准确关联标签与值。在含丰富图像或示意图的文档中,LayoutLMv3可结合图像线索进行版面分析,但对真正的工程图纸(非OCR文字而是图形符号)仍主要依赖文字说明部分,对图形本身的理解有限。

速度与效率

由于LayoutLMv3需要先通过OCR获取文本,其运行流程包括OCR时间和Transformer推理时间两部分。在GPU上Base模型处理单页文件通常在亚秒级到几秒内,具体取决于文本数量和图像分辨率。与完全OCR-free的模型相比,LayoutLMv3在OCR步骤上耗时,但其Transformer推理与同规模的BERT类似。值得注意的是,LayoutLMv3支持批量处理,对于大批量文档的分析可以通过流水线并行OCR和模型推理来提高吞吐量。模型最大支持512个文本+图像token,足以覆盖一般业务文件的一页内容;超长文本需分页或截断处理。

可扩展性与成本

LayoutLMv3可以适配多种类型文档,从简单票据到复杂报告,因为它同时考虑了视觉和文本布局信号。然而依赖OCR意味着对极端版面(如手写图纸)仍受限于OCR性能。多语言支持方面,微软也发布了中文版LayoutLMv3并在中文表单上取得SOTA成绩 ;因此,通过适当的预训练,模型可扩展到中文等。在部署成本上,LayoutLMv3 Base模型参数约130M,可以在单张高端GPU上实时运行;Large模型参数近350M,对GPU显存要求较高。模型开源代码提供于microsoft/unilm仓库 并集成在HuggingFace Transformers中,研究者可免费使用预训练模型。训练这样规模的多模态模型代价不菲(需要上百万文档数据和多GPU集群),但使用开源预训练权重进行微调成本相对可控,一般在单机多卡几小时内即可在特定企业文档数据上完成fine-tuning。

优势与局限

LayoutLMv3的优势在于高度融合的多模态表示:文字、版面和图像信息在同一Transformer中交互,因而对复杂版式(如表格嵌套、图文混排)的理解深刻,远超简单OCR+规则方式 。其预训练任务设计(MLM+MIM+WPA)使模型具备强大的跨模态对齐能力,能胜任既需要读懂内容又需要看懂布局的任务 。在核电领域,这意味着模型有潜力同时识别技术术语和版面结构(例如安全审批表单上的签字位置和签名人名的对应)。局限性方面,LayoutLMv3仍依赖OCR作为前提,这对OCR难以正确识别的场景(如手写批注、模糊扫描件)造成瓶颈。此外模型较大,在资源受限设备上部署有困难;同时对于包含非文本图形的信息(例如纯工程示意图、流程图中的符号),模型只能将其视作背景图像特征,理解力有限。

Pix2Struct

模型简介

Pix2Struct是Google Research提出的通用视觉语言模型,可将任意UI界面或文档截图直接解析为文本形式,被称为“Screenshot Parsing”预训练方法 。它采用端到端的图像到文本的Transformer架构:以视觉Transformer(ViT)为编码器,将输入图像编码为视觉特征序列,之后通过自回归文本解码器输出描述图像内容的序列 。Pix2Struct的独特之处在于预训练任务不是简单的读文字,而是要求模型将网页截图解析回对应的HTML代码 。通过这种方式,模型学习到图像中GUI元素、文本和布局的对应关系,从而具备对任意“视觉化语言”(如图表、UI界面、复杂文档)的理解能力 。

预训练与创新

Pix2Struct在约8000万张网页截图上进行了预训练 。训练中,模型随机遮挡部分截图区域,然后预测简化后的HTML标签序列来重建页面结构 。网页的DOM结构天然提供了丰富的标注信号(文字内容、图像说明、版式层次),相比纯OCR文本序列包含更多视觉层级信息。模型还引入可变分辨率输入机制,保持图像长宽比,避免拉伸变形 ;并通过在图像上直接渲染问题文本的方式,实现灵活的“图像+文本”单模态输入(例如在VQA任务中,将问题文字画在图像上,模型直接看图回答) 。这些策略简化了多模态融合——Pix2Struct可以把任何附加信息都视为图像的一部分,从而在一个Transformer中处理 。

性能与适用性

Pix2Struct在文档理解、图表问答、UI描述等多个领域展示出极强的通用性。据论文报道,一个预训练好的单一Pix2Struct模型在文档、插图、用户界面、自然图像四大领域的9项任务中,有6项达到当前最优性能 。它相比之前最佳的OCR-free模型Donut,在一些任务上准确率高出9到53个百分点 。例如,在DocVQA文档问答任务上,Pix2Struct大幅超越Donut等端到端模型;在描述UI界面(Screen2Words)任务上,也取得了前所未有的成绩 。值得注意的是,对于高资源的传统文档任务(已有大量训练数据和成熟Pipeline的方法,如标准表单抽取、自然图像问答),Pix2Struct虽不及专门模型(OCR+NLP或LayoutLM等)的最佳水平,但在低资源的新颖任务(如示意图问答、软件界面理解)中取得了显著优势,准确率比现有方法高出1到44个百分点 。这体现了Pix2Struct作为通用视觉语言模型的价值:尤其适合核电行业中缺乏专门训练数据的领域,如复杂流程图/仪表盘的自动解读等。

在核电工程企业场景中,Pix2Struct有潜在应用于:1) 技术流程图/系统架构图的解析——直接将控制系统流程图“读”出文字描述或关系表;2) 工程图纸的标注识别——模型可尝试将带文字说明的工程图转换为结构化描述(虽然对于纯工程图形,可能需要结合传统CV方法);3) 操作界面(UI)理解——例如核电站监控界面的截图,Pix2Struct可生成界面元素描述或回答界面状态相关的问题。这些都是传统OCR+规则方法难以胜任的任务,而Pix2Struct提供了端到端解决这些“视觉+文本”混合任务的新途径。

运行效率与成本

Pix2Struct提供Base(约2.82亿参数)和Large(约13亿参数)两个版本 。大型模型在推理时速度相对较慢,尤其对于高分辨率图像,需要处理大量patch序列。一般Base模型在单张高端GPU上推理一页文档级图像可能需1秒以上,Large模型可能数秒。不過,由于其Transformer编码器可以一次性处理整页图像,不需要逐行OCR,所以在处理复杂版面时,Pix2Struct相对传统流水线仍有优势。可扩展性方面,模型输入可以灵活调整分辨率以覆盖不同尺寸的图(不会强制缩放到固定尺寸,这点优于一些需要定尺输入的模型)。但更高分辨率意味着更多patch,推理开销线性增加。由于预训练数据主要基于英文网页,Pix2Struct对英文以外语言符号的识别可能有限,需额外训练来覆盖中文等(不过其方法理论上适用于任何语言的文字,因为不显式依赖语言模型预训练)。使用成本上,预训练Pix2Struct耗费巨大算力(谷歌在论文中使用TPU大规模训练80M图像);好在开源提供了预训练模型检查点(Apache 2.0许可 ),用户可直接fine-tune。微调需要较高的GPU内存(特别Large版),在部署时Large版也仅适合服务器GPU环境。Base版在消费级GPU上勉强可运行但速度和效果略低。

优势与局限

Pix2Struct最大的优势在于其跨领域的通用性:无论是文档、图表还是软件界面,只要任务能表示成“给定图像输出文本”,它就能通过适当的fine-tune来胜任。这对核电企业来说,意味着一个模型框架可能同时用于审批文档解析、流程图问答、监控画面解读等,减少开发多套专用系统的成本。另外,Pix2Struct完全端到端,不需OCR或其他外部工具,避免了多步骤误差。但与此同时,它的通用也带来针对特定任务的劣势:相较专用模型,它在传统表单键值提取等任务上准确率可能稍逊,需要更多数据或结合提示调整才能赶超专用方案 。此外,由于输出是自然语言序列,如何将其转化为严格结构化的信息需要设计(例如解析模型生成的描述句)。模型庞大的规模和运行成本也限制了其在设备端的应用,更多适合于云端服务形式。最后,对于纯视觉的几何关系(如工程图中没有文字的部分),Pix2Struct和其他OCR-free模型一样存在理解困难 ,仍需要结合传统CV方法做辅助。

开源情况

Pix2Struct开源代码与模型已发布在GitHub (google-research/pix2struct ),并在HuggingFace提供转换后的模型权重。其采用Apache-2.0许可,非常开放,便于企业内部定制开发。

DocFormer

模型简介

DocFormer是亚马逊AWS于2021年提出的端到端文档理解Transformer模型 。它与LayoutLM系列不同,采取了多分支融合的编码器架构:DocFormer包含一个CNN视觉主干和Transformer编码器,Transformer每一层通过特殊的多模态自注意机制融合来自文本、图像和几何三方面的特征 。与LayoutLMv2需要先提取图像中每个OCR框的视觉特征不同,DocFormer让视觉和文本特征在每个Transformer层中深度交互 。其核心思想是在Transformer层内引入共享空间位置嵌入,令视觉token和文本token通过统一的空间坐标建立对应关系 。简单来说,DocFormer会“告诉”模型某文本位于图像某区域,使模型自注意力可以同时注意文字语义和对应局部图像。

架构细节

文本方面,DocFormer使用OCR识别出文档中的所有单词,采用与LayoutLM类似的WordPiece分词获取token序列,并引入每个token在页面中的坐标位置编码(包括字框的左上/右下坐标、宽高、相对距离等) 。视觉方面,文档图像输入ResNet-50 CNN提取特征图(降采样至1/32尺寸),再经1×1卷积和线性投影压缩成$d=768$维特征,flatten为固定数量$N=512$的视觉token序列 。这样无论原图大小如何,均得到512个视觉位置的embedding。Transformer编码器每层会分别对视觉token序列和文本token序列执行自注意力计算,但在计算注意力权重时融合位置嵌入,使其更关注局部邻域 。经过这样处理,得到更新的视觉特征$\hat V$和文本特征$\hat T$,再将两者相加作为该层的输出多模态特征$M$ 。层与层之间,视觉和文本特征通过共享的位置信息不断交换讯息。DocFormer最终输出每个文本token富含视觉上下文的信息向量,可进一步用于序列标注(如实体抽取)或分类等任务。

预训练与微调

为了训练这种多模态Transformer,作者设计了三种无监督预训练任务 :(1)多模态遮盖语言模型(MM-MLM):随机遮盖一定比例文本token,要求模型在结合未遮盖文字和对应图像区域的情况下重建原始文本序列(强化视觉特征补全文字信息的能力);(2)重构视觉特征(LTR):给定融合后的多模态特征,加入一个图像重建loss,让模型在有文本辅佐的情况下重构原图(促进视觉和文字的协同表示);(3)文本描述图像判别(TDI):随机打乱一部分图文配对,让模型判断当前文本描述是否与图像匹配(训练跨模态判别能力)。通过这些任务,DocFormer学会在不同模态之间交换信息。随后在下游需监督的数据集(如表单抽取FUNSD、收据CORD、长文档Kleister-NDA、文档分类RVL-CDIP)上微调并验证性能 。

性能表现

DocFormer在提出时实现了多项任务的新最佳成绩。例如,在Receipts收据字段提取任务(CORD数据集)上,DocFormer-base模型F1达到96.33%,超过当时同规模的LayoutLMv2-base模型0.58个百分点 ;在复杂长文档信息抽取任务Kleister-NDA上,同样取得领先 。总体而言,DocFormer-base在多数据集上都优于以往的base模型,有时甚至逼近或超越体量大4倍的模型 。这证明了其高效融合多模态架构的有效性。在实际业务文件应用中,DocFormer擅长处理定型表单票据等半结构化文档的字段抽取,以及档案文档的分类和关键信息定位。例如,核电工程常见的设备清单表、规范表单,DocFormer有能力准确识别各字段并提取内容;对多页的技术说明文档,它也可结合段落文字和版面特征进行类别判断或重要条款提取。值得注意的是,DocFormer由于预训练未大规模涉及问答类任务,因此直接用于复杂问答(如DocVQA)可能不如含生成解码器的模型,需要额外微调才能发挥作用。

效率与部署

DocFormer-base模型约有1.7亿参数(12层Transformer,768隐层),可以在单GPU上较快速地推理。每页文档的处理耗时由两部分组成:ResNet CNN提取图像特征(这一部分相当于OCR中的检测阶段,但输出512区域特征固定耗时),以及Transformer编码(长度约文本token数+512)。整体来说,其推理速度与LayoutLMv2相当,通常在数百毫秒到1秒级别处理一页(GPU)。因为采用固定512个视觉token,DocFormer对超大尺寸图像有一定的下采样,会牺牲部分细节精准度换取速度稳定。不需要独立OCR识别逐字输出,也省去文本拼接过程。可扩展性上,DocFormer目前主要针对英文学术/商业文档进行了训练,如果要支持中文等需要额外预训练或微调(可以将LayoutLMv1的中文权重用于初始化)。由于其架构本质上是编码器,所以无法直接生成文字描述,适合分类和序列标注类任务,不适用于开放式生成任务(这和有解码器的Donut、Pix2Struct不同)。不过在绝大多数业务场景,如表单提取、分类,这已经足够用。DocFormer没有显式模块限制处理多页,但实际上处理多页需分页分别输入,再通过序列标签或分类结果整合。

优势与局限

DocFormer的优势在于有效且轻量的多模态融合:通过共享空间位置的Transformer注意力机制,它实现了文本和视觉特征在每一层深度互动,提升了对局部细节的把握和对齐,如将文字内容与对应的表格单元、线条框等视觉上下文关联 。相对于只在最后融合的双流模型或简单拼接的单流模型,它巧妙地避免了跨模态不匹配问题,训练更加稳定 。凭借这一架构,DocFormer在参数量不增加太多的情况下取得高精度,被证明比一些更大的模型更有效 。对于核电行业大量存在的固定格式表单(安全检查表、部件清单等),DocFormer无需额外OCR步骤就能端到端地输出所需字段值,减少了系统复杂度。

DocFormer的局限主要在两个方面:首先,由于架构是编码器型,输出仍需借助任务相关的预测头来解释(如分类层或序列标注层),不适合开放问答等需要自然语言生成的场景。如果要让DocFormer回答问题,需要结合一个额外生成模块或转用生成模型。其次,它仍然依赖OCR结果作为输入文本(虽然不需要视觉特征的OCR,但需要提供正确的文字token)。如果OCR结果错误(例如核电图纸上的手写标注OCR识别不出),DocFormer也无能为力。另外DocFormer对图片内容本身的理解有限,因为CNN特征主要提供文字周边的视觉线索,对非文字图像(插图等)的意义并不能像BLIP那样深度解读。因此它适合文本主导的文档,对于纯视觉型文档(几何示意图)帮助不大。

开源与使用

亚马逊论文发布时未直接给出官方代码实现,但开源社区已有复现(如HuggingFace上提供了DocFormer的模型实现和部分权重,GitHub上有第三方代码如shabie/docformer)。使用者可以参考这些开源实现,将DocFormer应用于自有数据集进行微调。DocFormer模型结构与训练细节公开在论文中 ,无版权限制,可在商业项目中使用。

TrOCR

TrOCR模型架构:以ViT视觉Transformer编码器提取图像特征,经Transformer解码器逐步生成文字序列 。这种端到端架构可同时胜任印刷体与手写体文字识别。

模型简介

TrOCR(Transformer OCR)是微软Asia研究院提出的基于Transformer的端到端OCR模型 。它打破了传统OCR管线(CNN提特征+RNN逐字符解码)的模式,将Transformer应用于图像理解和文字生成两个阶段:使用预训练的视觉Transformer(如ViT/DeiT)作为编码器,将文本行图像编码成高层次视觉特征;然后用预训练的自回归文本Transformer(如GPT-2或BART的解码部分)作为解码器,直接输出识别的文字序列 。整个过程端到端地从图像像素到文本,无需独立的语言模型后处理。这一架构使模型能够利用Transformer强大的全局建模能力,同时避免CNN+LSTM+语言模型多模块组合带来的复杂度。

预训练与训练数据

TrOCR分两阶段预训练 。第一阶段,使用大规模合成数据预训练视觉编码器和文本解码器:通常以数亿合成的印刷体文字图像-文本对训练,使编码器学会提取字符形状,解码器学会拼写单词 。第二阶段,在少量人工标注数据(如真实场景文字图片及其转写)上微调,使模型适应真实分布 。这种先大规模合成预训练、再小规模微调的策略,与OCR领域经典的“Tesseract+语言模型”不同:TrOCR让Transformer自身通过海量数据掌握语言拼写知识(如常见单词拼写、笔迹变形等),因而解码时不需要额外挂接辞典或语言模型也能取得高准确率 。

性能表现

TrOCR在印刷体手写体识别上都达到了当时的最佳水平 。根据报告,TrOCR在标准印刷OCR任务(如ICDAR打印文本、SROIE收据)上整体准确率超过原有SOTA模型,在手写体识别(IAM手写字库数据集)上也取得领先 。一项对比显示,在SROIE收据数据集中TrOCR的单词识别准确率达96%以上 ;在英文手写体数据集IAM上,TrOCR大幅优于传统CNN-LSTM方法。微软官方的基准也验证了TrOCR对中英文混合场景、场景文本(如街景招牌)都有良好表现 。值得强调的是,TrOCR没有借助语言模型就能达到高准确率,表明其解码器在预训练中已经学习了语言的上下文。这对于核电行业一些格式严格的文本(如设备编号、参数表格)识别很有帮助——模型可依靠上下文拼写出看不清的字符(例如容错地纠正OCR错漏)。

TrOCR对多语言也有支持,微软提供了不同语言的预训练权重。例如有专门针对中英文训练的模型,可用于中文报表、日文文档等的文字识别,在开源社区测试中表现也优于Tesseract等传统OCR。

适用性

TrOCR主要聚焦纯文字识别任务,对于各类文档中的印刷文字、表单打印字以及手写签名、批注,都可以直接视为图像输入TrOCR模型获取文字输出。因此在核电企业中,TrOCR可作为通用OCR引擎,应用于:扫描合同/报告的全文数字化,表格字段OCR识别,历史手写记录的录入等。与其他文档理解模型不同,TrOCR不直接理解布局或语义,它输出的只是文本串,但这恰恰使它可以作为基础模块,为后续NLP处理提供高质量的文本输入。在需要非常精细文字识别的场合(如图纸上的小字、或现场照片上的仪表读数),TrOCR往往比通用的视觉语言模型更精确,因为它专注于优化字符和单词准确率。事实上,一些研究将TrOCR与版面分析模型结合,用于DocVQA任务,即先用TrOCR读出文本,再用NLP模型回答问题,也取得了很高的效果 。

效率与部署

TrOCR模型Base版本约有95M参数(使用ViT-Base和RoBERTa-base解码器架构),Large版约330M参数(ViT-L + RoBERTa-large)。由于其设计面向单行或单段文本识别,输入图像一般尺寸较小(比如裁剪后的文本行或字块),因此在GPU上推理非常快,通常毫秒级即可完成单行处理;即使对整页文档图片,TrOCR也可以通过逐行切分并行识别的方式高效完成。对比Tesseract等CPU OCR,TrOCR在GPU有数量级提速,同时准确率更高;但在CPU上运行TrOCR则较慢(因为Transformer计算量大),因此实际部署中常使用GPU或者将TrOCR封装为服务。对于长篇幅文本(例如整页连续的段落),TrOCR的生成解码器需要逐字输出,会有一定延迟,但通过Beam Search等策略仍可以在可接受时间内完成。而且TrOCR输出为Unicode文本,方便后续处理,无需像传统OCR那样再做版面重建。

优劣分析

作为专注OCR的模型,TrOCR的突出优势识别精度高,尤其在困难场景(手写、倾斜、噪声)下表现出色 。它利用Transformer强大的序列建模能力,在没有手工特征和复杂后处理的情况下达到领先效果 。同时,它支持端到端训练,可针对企业特定票据格式或字符集进行微调,获得定制化的OCR模型。TrOCR简化了OCR流程:不需要独立的字符分割、语言模型矫正模块,架构简单统一 。对于核电行业而言,这意味着可以用一个模型同时处理打印报告和手写记录,只需提供相应数据进行训练。不足之处是,TrOCR不了解文本的版面位置——输出是一串字,需要另行保存位置信息才能还原文档布局。因此TrOCR往往结合版面分析算法一起使用:先用版面分析(如版块分割)确定文本块,再对每个块用TrOCR识别内容。这使得它本身不是一个完整的“文档理解”方案,而更适合作为OCR模块嵌入到复杂系统中。相比多模态模型,TrOCR无法利用视觉背景信息:例如同样是数字“10”,在不同表格单元中意义不同,而TrOCR只认识“10”这个字符串,不能像LayoutLM那样将其与单元格标签关联。不过,在实践中可以将TrOCR结果交由NLP模型处理结构关系,仍然比传统方案精度有显著提升 。

开源情况

TrOCR已由微软开源集成到HuggingFace Transformers中,模型权重(如microsoft/trocr-base-handwritten手写模型,trocr-base-stage1预训练模型等)可自由下载使用 。原始实现和训练代码在微软的UniLM库中提供 。模型采用MIT许可证,非常开放。开发者可以很方便地基于预训练权重在自己数据上进行fine-tune,例如针对核电领域术语做微调以提高识别特定术语/缩写的准确率。

BLIP (Bootstrapping Language-Image Pre-training)

模型简介

BLIP是Salesforce在2022年推出的通用视觉-语言预训练框架,旨在统一支持视觉语言理解生成任务 。与前述专门用于文档的模型不同,BLIP面向通用场景,包括自然图像和图文混排。其模型架构巧妙地融合了双流编码单流解码:BLIP包含独立的图像编码器(Vision Transformer)和文本编码器(BERT模型)用于理解任务,以及一个跨模态的文本生成解码器用于生成任务 。具体来说,预训练时BLIP设置了三种子模型 :(1)单模态编码:图像编码器和文本编码器分别编码,学习图文对齐的对比目标;(2)图像引导的文本编码:在文本Transformer中插入跨模态注意力,使其在编码文本时参考图像特征,用于图文匹配等任务;(3)图像引导的文本解码:将文本Transformer改为自回归模式,通过跨注意力生成描述或回答 。通过这种混合架构,BLIP能“一体多用”,既能做检索、匹配等理解类任务,又能做图像描述、问答等生成类任务。

预训练策略

BLIP采用多任务联合预训练 :包括图文对比学习(ITC) 、图文匹配分类(ITM) 以及图像条件下的语言模型(LM) 。ITC让独立编码器对同一图文对得到相似向量,对不匹配对拉开距离,从而学到全局对齐表示 ;ITM通过判断图文是否匹配,促进多模态融合编码器提取联合特征 ;LM则驱动解码器生成图像描述文本 。此外,BLIP最大创新在于自举(Bootstrapping)策略来利用网络抓取的海量噪声图文数据 :引入一个Captioner模型从图像生成高质量“伪描述”,以及一个Filter模型过滤掉不相关的原始描述 。通过在训练中动态替换不准确的网络描述为模型生成的更精准描述,BLIP大幅提升了预训练数据的质量 。这种方法对于网页爬取数据常见的图文不符问题非常有效 。

性能与适用性

BLIP预训练后,在多项视觉语言任务上均取得领先表现 。例如,在COCO等图文检索任务上,比之前SOTA模型(如ALBEF)平均R@1提升2.7% ;在VQA和图像描述等任务上也全面刷新成绩 。作为一个通用模型,BLIP可以方便地微调到特定领域的多模态任务:在文档领域,如果我们有文档图像和相应问题对,BLIP可微调做文档VQA;如有图像及对应文本摘要,也可微调做文档自动摘要。在核电企业场景,BLIP的潜在应用包括:复杂图文报告的自动摘要(输入报告截图,输出要点概述),跨模态信息检索(根据文本描述在海量图纸中找出匹配的那张),以及开放式问答(用户就一张图表截图提问,模型生成回答)。由于BLIP具备生成自然语言的能力,它可以给出解释性答案,例如“这份安全报告的结论是……”,这在安全审查中有辅助价值。

需要注意的是,BLIP并非专门针对OCR或文档训练,它对图像中细小文字的识别能力可能不如上述专用OCR模型。例如,把一页合同直接喂给BLIP问“合同签约日期是什么”,BLIP若未经特殊训练,可能无法可靠地读出日期。但如果经过包含文档的VQA微调,BLIP有潜力学会结合OCR内容和上下文回答问题(BLIP的ViT编码器本身具有一定OCR能力,但未专门优化)。因此,在核电文档应用中,BLIP更适合作为高层理解组件,例如让模型读完OCR文字后进行总结或问答,而非直接代替OCR步骤。

效率与部署成本

BLIP-base模型使用ViT-B和BERT-base,大约有2.5亿参数;BLIP-large则用ViT-L和BERT-large,总参数近10亿。推理时,如果执行编码器双流(用于检索或匹配),速度与各自的Transformer类似(几十毫秒级);如果执行生成解码,速度取决于输出长度(一般描述一句话在百毫秒到1秒内)。在GPU上BLIP足以实时应用于单张图像的描述或问答;在CPU上则较慢,通常需要GPU部署以满足交互式需求。可扩展性方面,BLIP框架统一,因而可以针对不同任务加载不同部分:比如做检索只需用编码器部分,做问答用编码+解码全模型。它可以处理任意图像输入(包括自然场景和文档扫描件),但对于高分辨率文字密集的文档图像,可能需要切分或缩放策略以适应ViT的输入尺寸。BLIP在对中文等语言的支持上取决于预训练语料(主要是英文网络图文),但由于使用BERT字片嵌入,理论上多语言的微调是可行的。训练成本方面,BLIP的预训练使用了14亿图文对数据,耗费巨大算力。不过Salesforce已开源模型权重和代码(GitHub: Salesforce/BLIP ),用户可以直接使用预训练模型进行下游任务finetune。微调成本视数据大小而定,一般几万对图文数据在一两块GPU上训练数小时即可。部署BLIP需要考虑模型大小,base版可以在24GB GPU上运行,large版需要更高显存。若用于实时服务,还需考虑生成的并发开销。

优势与局限

BLIP的优势在于通用性与任务灵活性:一个预训练模型通过不同头的切换即可支持多种任务 ,对于企业来说减少了训练多个专用模型的负担。此外,BLIP输出自然语言,适合需要生成解释、报告场景,能提供比结构化提取更友好的结果(例如自动生成安全报告摘要供工程师快速浏览)。BLIP引入的自举训练策略使其能更好地从海量互联网数据中学习,因而具有很强的开放域知识。局限在于,BLIP并非专门针对文档优化:在细节精度上(如字段值、数字精确读取)不如专用OCR/NLP组合;同时大模型部署成本较高,不适用于在边缘设备或移动设备上运行。另外,BLIP生成的自由文本需要进一步解析才能用于某些严格流程(例如生成的答案需要经过人工确认或规则校验,避免错误信息传播)。总的来说,BLIP更像一个多面手,在需要综合图像理解与语言表达的任务中大有用武之地,但在需要严苛准确性的结构化提取任务上,尚不能完全取代专门模型。

开源情况

BLIP代码和模型由Salesforce Research开源(GitHub: Salesforce/BLIP),使用BSD许可。HuggingFace上提供了BLIP模型接口,支持图像Caption、VQA等应用。近期该系列的扩展BLIP-2等也发布了,能够结合更大的语言模型进一步提升多模态性能,但BLIP-2超出本文讨论范围。对于核电企业而言,可以直接利用BLIP开源模型,在自有的图像-说明数据上进行微调,构建如“智能图纸助手”等应用。

核电工程企业典型应用场景分析

基于以上模型能力,我们探讨在核电工程企业的常见业务场景中,视觉文档理解模型可能发挥的作用和价值:

  • 技术文档审查: 核电技术审查需要阅读大量设计说明、规范、报告。传统人工审查耗时且易遗漏。通过LayoutLMv3、DocFormer等模型,可以自动抽取报告中的关键参数、设计变更说明等字段,并与标准要求比对,辅助审查人员发现不符合项。例如,用LayoutLMv3提取安全分析报告中的“最大堆芯温度”“安全裕度”数值,再由规则检查是否在许可范围内。此外,可利用BLIP对整份报告生成摘要或回答审查人员提出的问题(如“该报告的结论是什么?”),提升审查效率。这些模型可保障准确率,因为它们经过预训练能识别专业术语和版式,一些研究表明基于Transformer的模型在文档信息提取上准确率远超手工规则 。
  • 工程图纸理解: 核电站工程图包含大量设备接线图、系统流程图,通常由图形符号和文字标签构成。对于图纸中的文字部分,TrOCR等OCR模型可将设备标签、注释读取为文本,高准确率地获取设备代号等 。进一步地,可借助Pix2Struct这类模型,对流程图进行问答:例如输入一张冷却水系统流程图,问“水流经过哪几个阀门?”,模型有望结合图中文字和布局给出回答 。尽管纯图形符号识别仍需要专业CV算法(如通过形状匹配识别阀门符号含义),但是视觉语言模型可以把图形和文字的关系表述出来——例如Pix2Struct生成类似“阀门XV101位于泵P202之后关闭”的描述。在没有专用解析工具的情况下,这为工程图自动解说提供了可能。BLIP也可用于图纸概要生成,如给一张复杂管线图,让模型生成一段文字概括其功能目的。这些应用可以帮助新进工程师快速理解老旧图纸,或在设计变更评估时自动比对新旧图的差异(通过模型生成的描述进行比对)。
  • 安全审批流程: 在核电安全管理中,大量表单(工作票、巡视检查表等)需要填写和审批。传统做法是人工录入系统或逐项检查。借助文档理解模型,可以实现审批表单自动处理。例如,用Donut或LayoutLMv3对安全工作票拍照图片直接解析出表单字段JSON(包括工作内容、审批人、日期等) 。实际测试表明,Donut在定型文档(如火车票、收据)字段提取F1可达90%以上 ,对格式统一的核电表单也能达到类似高准确率。有了这些结构化数据,可进一步用业务规则自动判定表单是否填写完整、关键项是否满足要求,减少人工审核压力。对于流程审批环节,还可以结合BLIP这样的生成模型:比如让BLIP阅读整份审查意见表并生成关键意见摘要,提供给审批者快速浏览。一些核电安全审查文件篇幅较长,这种摘要有助于聚焦重点。此外,在需要多个人员签字的流程中,模型还能通过OCR提取签名和日期,自动检查签字是否齐全、顺序是否正确。如果结合区块链或数字签名验证,还能保证签批文件的真实性和完整性。
  • 档案数字化与检索: 核电领域存有大量历史档案(设计手册、监测记录等)。通过TrOCR等OCR模型,这些档案可批量数字化成可检索文本 。TrOCR对模糊扫描件和手写标注都有较强鲁棒性,可最大限度保留原文信息,准确率超过传统OCR 。然后利用LayoutLMv3这类模型提取档案元数据(如标题、日期、类别),存入文档管理系统,实现后续的快速检索和分类归档。用户查询时,可以使用BLIP或Pix2Struct做图文搜索:输入一段文字描述,模型通过图文对比找出最相关的图纸或报告页面 。例如,工程人员想找到“包含主泵密封改造说明的文件”,传统关键词搜索可能因措辞不同漏掉,而BLIP的图文匹配可根据语义找到图纸中相关的文字说明段落 。这显著提升了知识检索效率,对于事故回溯、经验教训分析非常有价值。

总的来说,这些视觉文档理解模型在核电行业的应用,核心价值在于减轻人工阅读和录入负担提高信息提取准确率以及加速知识获取。在安全如此关键的领域,高准确率尤其重要。幸运的是,研究表明这些模型在结构化信息提取上的准确率普遍优于人工手工或传统规则系统 。当然,在落地应用时,也需结合核电领域的规范对模型结果进行验证和校正,以确保符合行业的严格要求。

新模型 vs 传统OCR+NLP方案对比

在核电企业的信息化建设中,传统上采用OCR结合NLP/规则的方法处理文档:先用OCR引擎(如开源Tesseract或商业OCR)识别出纯文本,然后通过预先编写的正则/脚本或训练简单分类器从文本中提取所需信息。这种方案的优点是实现简单、运行速度快(OCR引擎用C++实现、可在CPU上高效运行) ;对版面规整、内容简单的文档也能达到一定准确率。然而,与新兴的视觉Transformer模型相比,其局限性越来越明显:

  • 准确率和鲁棒性: 传统OCR+规则方式在复杂版面和多样字体下错误率很高。OCR阶段的误识别会直接导致后续信息提取失败,而且缺乏纠错机制 。例如核电报告中常见的专有名词、缩写,一旦OCR拼错,基于关键字的规则就无法匹配。而深度学习模型如LayoutLMv3、DocFormer通过端到端训练,可以利用上下文和布局信息容错:即使某字符稍有偏差,模型仍可能正确抽取字段 。研究表明,在票据、表单等任务上,Transformer模型的关键字段F1往往比规则法高出数个百分点到几十个百分点 。特别是在非英文、手写等OCR困难场景,新模型的优势更明显 。
  • 对版面语义的理解: 传统方案对空间布局几乎没有理解,往往只能依赖人为配置坐标区域或关键词邻近关系来提取信息。这在模板变动时非常脆弱 。视觉Transformer通过视觉位置编码图像特征,能够自动学到版面结构。例如,LayoutLMv3可以“看出”某个数值位于表格的“总计”行,从而推断其意义,而不用显式编程指定哪个格子是总计 。对于核电审批表单,假如表格列顺序调整,传统规则需要修改代码,而LayoutLMv3模型由于理解了表头文本和单元格对齐关系,仍可正确抽取。这体现出可扩展性上的巨大差异:新模型适应不同版面模板、更改时无需大量人工维护规则。
  • 多任务统一处理: 传统OCR+NLP通常为每个任务开发独立流程(分类一套正则,信息抽取一套规则…),缺乏通用性。而像Donut、BLIP这样的大模型可以通过统一架构处理不同任务,只需更改输出格式或微调过程 。这意味着核电企业的信息处理系统可以用单一模型框架应对多种文档需求,降低整体系统复杂度,也方便引入新的任务。而传统方案新增任务往往意味着重新开发新的模块。
  • 速度与并发: 在速度方面,小型OCR引擎在CPU上确实较Transformer模型快,但随着硬件的发展和并行能力,新模型在GPU上已达到接近实时。例如Donut处理单页仅0.7秒 ;TrOCR在GPU上每秒可识别数十行以上文本,完全能满足批量文档处理要求。而且OCR+NLP流水线的瓶颈也可能不在OCR本身,而在后续逐条规则检查上,规则越复杂速度越慢,难以并行。而Transformer推理可以轻易批处理很多页并行,扩展性更好 。当然,在纯CPU环境下,传统OCR依然更省资源,但核电企业通常可以部署服务器GPU以换取更高智能。
  • 维护成本: 规则系统在上线后需持续人工维护:新式表单出现要写新规则,规则错误需要排查debug。这对核电这种流程复杂、文档格式众多的领域是一项不小的长期开销。深度学习模型则更多地将模式学习交给数据,本质上用训练数据维护模型。只要收集足够的标注或采用增量训练,模型可以适应新格式,而维护成本主要是收集和标注数据,往往比编写规则更可扩展。当文档种类不断增长时,新模型的优势愈发突出。
  • 边缘情况处理: 核电文件里可能有一些特殊内容(如公式、图表)。传统OCR对公式、复杂表格非常吃力,需要特定插件。视觉模型虽然也未必直接读取公式但可以整体处理:比如BLIP可以生成图表的描述性总结,帮助理解图表内容,即使没逐字读取每个数值,也提供了对人更友好的解释 。传统方案无法提供这样的高级功能。

综合来看,视觉Transformer模型在效果上相对传统方案有明显提升,但代价是模型复杂度和算力需求提高。对核电企业而言,是否值得采用,取决于应用场景对准确率和自动化程度的要求。如果只是录入少量标准表单,传统OCR方案已够用且成本低;但如果要大规模智能化审查、安全信息抽取,新模型能提供前所未有的深度洞察和效率提升,长远看能降低人为失误和运营成本。这也是为什么许多组织开始将文档处理从规则系统升级为AI模型驱动的智能文档处理(IDP)系统的原因。

下面以一个对比表格总结各模型在准确率、速度、可扩展性、使用成本等方面的优劣:

模型 准确率表现 🚀 速度 ⚡ 可扩展性 🔄 部署与训练成本 💰 主要优势与局限
Donut 在票据/表单等结构化文档提取中达到SOTA精度(如CORD票据F1≈91% );分类准确率高(RVL-CDIP≈95% )。多语言、多版式下仍有高鲁棒性 。 单页推理~0.6-0.8秒(GPU) 。无OCR耗时,总体延迟低;CPU上推理较慢不适合实时。 端到端OCR-free,对新版式/新语言适应性强 ;支持单页图像输入,长文档需分页处理;对复杂图形内容理解有限。 模型≈200M参数,需GPU部署;预训练耗费巨大(需要海量合成数据),但微调成本中等。MIT许可开源,易于使用。 优势:无OCR误差传递,格式理解强;局限:模型大依赖GPU,对非文字图形无能为力。
LayoutLMv3 文档分类、信息抽取、问答均为当前开源最优之一 (如分类准确率95.9% )。能准确关联文本与版面,实现表单键值对高精度匹配。 OCR耗时+模型推理,单页几秒内(GPU)。OCR并行可提升整体吞吐。Base版较快,Large版稍慢。 通用于各种业务文档;需OCR输入,对OCR难识别内容有限制。支持中英文等多语言(有相应预训练) 。单页模型,多页处理需逐页运行。 Base模型≈133M参数,可在单GPU实时推理;Large模型更大需多GPU。训练需千万级数据,多GPU集群。开源代码和模型可直接使用。 优势:跨模态融合深,版面理解佳,多任务通用 ;局限:依赖OCR,模型较大,部署成本高。
Pix2Struct 通用视觉-语言理解强,在UI理解、图表问答等低资源任务远超以往方法(准确率高出数十点) ;文档问答优于Donut等端到端模型 。传统高资源任务略逊于特化模型。 大模型推理较慢(1-3秒/页GPU),Base版适中(<1秒/页)。图像越大越慢。支持批处理但受限于显存和patch数量。 适应各类视觉+文本混合任务,能处理UI界面、流程图等其他模型不擅长的文档类型。无需OCR,对版面/语言无假设。可变输入尺寸,支持超高分辨率图像。 Base版≈2.8亿参、Large版13亿参,显存占用大,需GPU。预训练80M图,训练成本极高(TPU集群)。Inference免费但耗算力,不适合终端设备。Apache2许可开源。 优势:通用性最强,可一模型多用 ;端到端无OCR,能解析图形界面。局限:模型庞大耗时长,高精提取任务上不及专用模型精细;生成输出需进一步结构化处理。
DocFormer 各项指标居前;在票据提取F1≈96%领先同类模型 ;对表单、合同等字段抽取精度极高,超过尺寸更大的模型 。 单页推理约0.5-1秒(GPU);含CNN特征提取但固定512视觉token控制了计算量。批量推理效率佳。 针对定型文档效果卓越,对格式变动也较健壮(共享空间位置编码) 。需OCR文字输入,多语言需另训练(目前偏重英文)。仅编码器输出标签,不生成文本。 Base版≈1.7亿参,比同代模型小,对硬件要求低(单GPU可运行)。预训练耗时适中(在合成数据上训几天)。无官方代码但有复现,可使用HuggingFace实现。 优势:多模态注意力融合,高效小模型却有SOTA性能 ;对表单域理解深刻。局限:需OCR文字,不能直接生成自然语言;不擅长纯视觉内容理解。
TrOCR OCR识别准确率业界领先 。印刷体单词准确率>96% ;手写体识别显著优于传统引擎 。适合专业术语/代号识别,无需后处理纠错。 单行文字在GPU上毫秒级。整页多行顺序识别在0.5-2秒内。CPU上速度较慢。可多线程或GPU batch提升吞吐。 专注字符级识别,能适应多语言(有不同语言模型)和各种字体。对版面结构不敏感(需配合版面分析使用)。可识别任意长度文本,但输出不含位置信息。 Base版~95M参数,可轻松部署在消费级GPU;Large版需更多资源。预训练用海量合成数据,但微软已开放权重。推理消耗相对较低(相比多模态模型)。MIT许可。 优势:识别精度高,对手写模糊等场景有韧性 ;使用方便,可微调多语言。局限:不了解布局,无法提取结构关系;本质非“理解”模型,只做OCR。
BLIP 通用多模态性能顶尖 :COCO检索R@1提升+2.7% ;开放问答、图像描述等任务均SOTA。对文档,如经微调,可产生合理摘要和答案,但细节精度取决于训练数据。 编码器双流推理<1秒/图(GPU);带生成解码时1-2秒一条描述。大型模型稍慢。支持批处理但生成任务受限于序列生成速度。 极高弹性:同一模型适用检索、匹配、描述、QA等多任务 。可处理任何图像输入,但对文字密集图像需OCR辅助以提高细节准确性。多语言能力取决于训练语料(主要英文)。 Base版≈2.5亿参,Large近10亿参。部署需GPU,Large推理需高端GPU。预训练耗费上亿图文对数据和计算,所幸模型已开源可直接使用。微调成本中等(几万样本、几小时)。BSD许可。 优势:一模多用,既能理解又能生成 ;擅长语义层面总结和QA,提供人性化结果。局限:对OCR级精度任务不够精细,模型大需专门硬件;生成内容需校验避免错误。

表:各模型在准确率、速度、可扩展性和成本等方面的比较与优劣说明。 🚀表示精度,⚡表示速度,🔄表示可扩展性,💰表示成本。

结论

综上所述,面向核电工程企业海量复杂文档的自动内容理解,基于视觉模型的方案展现出巨大的潜力。诸如Donut、LayoutLMv3、DocFormer等开源模型在结构化信息提取方面的准确率已大幅超过传统OCR+规则方法,能够胜任合同、审批表单等业务文件的解析任务,在减轻人工、降低错误率方面意义重大 。Pix2Struct、BLIP这样的通用多模态模型更是打开了图文一体分析的新局面,有望处理以往无法自动化的流程图、工程界面等信息,为核电安全管理提供智能问答和辅助决策支持 。当然,这些模型的应用也伴随着新的挑战:包括模型部署所需的算力投入、对敏感错误的容忍度、以及在高安全领域引入AI决策的审核机制等。

在实际落地时,建议根据具体应用需求选取合适的模型或模型组合:例如,需要高精度字段提取的表单类任务,可优先考虑LayoutLMv3或DocFormer;需要多模态问答、摘要的场景,可引入BLIP等生成模型作为辅助,同时用TrOCR确保文字读取无误。在保证安全和合规的前提下,通过少量标注数据对模型进行本地化微调,让模型掌握核电领域的专有名词和格式习惯,这将进一步提升其实用效果。

总而言之,新一代视觉Transformer模型为传统文档处理注入了智能化能力。在核电工程这样严谨而信息密集的行业,引入这些技术有望大幅提升信息管理与审核效率,降低人为失误,辅助专家将精力聚焦于更高层次的决策与分析。同时,我们也需要持续关注模型的可靠性和可解释性,逐步积累应用经验,制定相应标准,确保AI在核电领域的应用既高效安全可信。今后,随着模型架构和预训练数据的进一步发展(例如更大的多模态预训练、结合语言大模型的方法等),核电企业将能够拥抱更加全面的智能文档分析解决方案,推动管理与运营的数字化升级。

参考文献

  1. Modal Blog,《8 Top Open-Source OCR Models Compared: A Complete Guide》,2025
  2. GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut)
  3. arXiv 2111.15664, OCR-free Document Understanding Transformer (Donut)
  4. arXiv 2204.08387, LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
  5. Medium@Bytesay,《LayoutLMv3: Unified Text and Image Masking for Document AI》,2024
  6. Amazon Science,《DocFormer: End-to-end transformer for document understanding》,2021
  7. DAIR.AI Medium,《DocFormer Conceptual Overview》,2023
  8. arXiv 2106.11539, DocFormer: End-to-End Transformer for Document Understanding
  9. HuggingFace Docs, TrOCR model card
  10. Microsoft Research, TrOCR: Transformer-based OCR with Pre-trained Models, 2021
  11. NHSJS, Evaluation of TrOCR with Varying Image Effects, 2022
  12. arXiv 2210.03347, Pix2Struct: Screenshot Parsing as Pretraining for VLU, 2022
  13. Medium@AshokPoudel,《Document Processing with Pix2Struct and TrOCR》,2023
  14. Salesforce Blog,《BLIP: Bootstrapping Language-Image Pre-training》,2022
  15. Labellerr Blog,《BLIP Explained: VQA & Captioning》,2025