上海AI实验室突破:零参数增长实现文档解析性能提升2.71分突破
作者:1223890 来源:西藏 浏览: 【大中小】 发布时间:2026-04-17评论数:
![]()
这项由上海人工智能实验室联合北京大学、上海交通大学等机构开展的研究于2026年4月发表在arXiv预印本平台,论文编号为arXiv:2604.04771v1。这项研究挑战了当前AI领域的一个主流观念:要提升模型性能,就必须设计更复杂的架构或增加更多参数。
想象一下,你有一个聪明的助手,它能够读懂各种文档,比如学术论文、报告、表格等,并把这些内容完美地转换成计算机能理解的格式。这就是文档解析技术要做的事情。就像人类阅读文档时需要识别标题、正文、表格、公式一样,AI模型也需要具备这种能力。
在AI研究领域,大多数团队都在忙着设计更复杂的模型架构,就像不断给一台机器添加更多零件来提升性能。然而,上海人工智能实验室的研究团队却选择了一条截然不同的道路。他们发现,当前文档解析技术的性能瓶颈并不在于模型架构本身,而在于训练数据的质量问题。
这个发现来源于一次有趣的观察。研究团队对多个顶级文档解析模型进行了深入分析,这些模型虽然采用了不同的架构设计和参数规模,但在处理同一批困难样本时,竟然表现出了惊人相似的失败模式。这就好比几位不同专业背景的医生在诊断同一种罕见疾病时都束手无策,问题显然不在于某个医生的专业能力,而在于他们都缺乏足够的相关病例训练。
基于这一洞察,研究团队提出了MinerU2.5-Pro,这是一个完全基于数据工程优化的文档解析系统。令人惊讶的是,他们保持了原有MinerU2.5模型的1.2B参数架构完全不变,仅仅通过重新设计数据收集、标注和训练策略,就在权威评测基准OmniDocBench v1.6上实现了从92.98分到95.69分的显著提升,增幅达到2.71分。
这项研究的核心创新在于构建了一个名为"数据引擎"的系统性框架。如果把传统的数据处理方式比作随意采摘蔬菜制作大锅饭,那么这个数据引擎就像是一位经验丰富的主厨,精心挑选食材、合理搭配营养、精细调味烹饪。整个数据引擎围绕三个核心维度展开:覆盖度、信息量和标注准确性。
一、突破传统思维:为什么数据比架构更重要
当前的AI研究就像一场军备竞赛,各个团队都在比拼谁能设计出更复杂、参数更多的模型。在文档解析领域,这种趋势同样明显。端到端的视觉语言模型正在逐步取代传统的流水线系统,研究重点主要集中在架构创新和推理效率优化上。
然而,上海人工智能实验室的研究团队却注意到了一个被普遍忽视的现象。他们对多个最先进的文档解析模型进行了大规模交叉分析,这些模型包括不同架构类型和参数规模的系统。分析结果令人震惊:尽管这些模型在设计理念上截然不同,但它们在处理相同的困难样本时表现出了高度一致的失败模式。
这种现象就像是几位来自不同医学院的医生,虽然接受了不同的教育体系和专业训练,但在面对同一种罕见疾病时都无法准确诊断。这种一致性的失败暗示问题的根源并不在于某种特定的架构缺陷,而在于所有模型都存在的共同短板。
深入分析后,研究团队发现了两个关键问题。第一个问题是覆盖度不足。以MinerU2.5为例,其训练数据总量还不到1000万页,而且数据分布严重偏向于高频类别。就像医学院的学生只见过感冒发烧这类常见病例,却很少接触到复杂的罕见病案例一样,模型在处理复杂嵌套表格、密集公式布局等长尾场景时表现不佳。
第二个问题更加微妙,研究团队称之为"标注质量悖论"。那些对模型能力提升贡献最大的困难样本,恰恰是自动标注最不可靠的样本。这就产生了一个恶性循环:模型最需要学习的内容,却是训练数据中质量最差的部分。复杂表格的结构化标注和密集公式的LaTeX转录都极易出错,而这些标注错误会直接传播到模型的行为中,形成系统性偏差。
研究团队还发现了现有评估体系的盲点。OmniDocBench v1.5虽然是当前最权威的评估基准,但其中的困难样本占比相对较少,而且元素匹配逻辑存在系统性偏好。这导致表面上的模型性能趋于饱和,但实际上是评估标准掩盖了真正的性能差距。
基于这些深刻洞察,研究团队得出了一个颠覆性结论:在模型架构日趋成熟的当下,系统性的数据工程已经成为推动文档解析性能突破的主要杠杆。这不仅仅是一个技术判断,更是对整个研究方向的重新思考。
二、数据引擎的精密设计:四大核心组件协同工作
MinerU2.5-Pro的核心创新是构建了一个高度集成的数据引擎系统。这个系统就像一座现代化的汽车制造工厂,每个环节都经过精心设计,各个组件协同工作,最终生产出高质量的训练数据。
多样性与难度感知采样是数据引擎的第一个核心组件。传统的数据采样方式就像在菜市场随意挑选食材,往往会导致某些常见食材过多,而稀有但营养价值高的食材却严重不足。这个新的采样策略则像一位经验丰富的营养师,既要保证食材种类的多样性,又要根据营养需求合理分配比例。
这个采样过程分为两个层次。在页面级别,系统首先使用视觉特征提取器对所有文档页面进行编码,生成512维的特征向量,然后通过聚类算法将相似的页面归为一组。这就像把海量的文档按照版面风格进行分类,确保每种风格都有足够的代表性。接着,系统会对每个聚类内的样本进行难度评估,优先选择那些具有挑战性但又不是完全无法处理的样本。
在元素级别,采样策略变得更加精细。系统会从选定的页面中提取文本块、公式块、表格块等不同类型的元素,对每种元素类型独立进行聚类和难度评估。这确保了最终的训练数据在四个核心任务——布局检测、文本识别、公式识别、表格识别——上都达到了多样性与难度的平衡。
跨模型一致性验证是第二个核心组件,负责对采样得到的数据进行难度分层。这个过程就像邀请几位不同专业背景的专家对同一道题目进行评分,通过专家意见的一致性来判断题目的难度水平。
具体来说,系统会使用三个异构的最先进模型(MinerU2.5、PaddleOCR-VL、Qwen3-VL-30B)分别对同一个样本进行解析,然后计算它们输出结果的一致性。对于文本,使用编辑距离;对于表格,使用TEDS指标;对于公式,使用CDM指标。基于一致性模式,系统将每个样本归类为三个难度等级。
简单样本指的是MinerU2.5的输出与至少一个外部模型高度一致的情况。这表明模型共识度高,解析结果可靠,但由于模型已经基本掌握了这类场景,其边际训练价值有限。中等样本是指两个外部模型彼此一致,但MinerU2.5的结果与它们差异较大的情况。这类数据最有训练价值,因为它精确指出了MinerU2.5相对于同行的能力缺口。困难样本则是所有三个模型的输出都存在显著差异的情况,表明这些样本确实具有挑战性,但其标注不可靠,需要进一步处理。
判断与精炼标注流水线是第三个核心组件,专门处理那些困难样本的标注质量问题。传统的方法往往简单地丢弃这些困难样本,但研究团队意识到这些样本恰恰是突破性能瓶颈的关键。他们设计了一个创新的渲染验证机制来解决这个问题。
这个机制的核心思想是打破文档解析中的认知偏差。当模型被要求检查自己的输出时,往往会陷入确认偏差,倾向于接受自己的结果而忽略潜在错误。根本原因在于跨模态映射的不对称性:模型善于从文档图像生成结构化序列,但难以从结构化序列反推视觉外观。
为了解决这个问题,系统引入了渲染环节。对于LaTeX公式,系统会将其编译成图像;对于HTML表格,系统会将其渲染成表格图像。然后,模型同时接收原始文档图像和渲染图像作为配对输入,进行视觉比较驱动的判断和精炼。这种设计有两个优势:首先,它补全了从结构化文本到视觉布局的缺失映射,降低了模型在跨模态对齐过程中的认知负担;其次,渲染的错误放大效应能将细微的文本域结构缺陷转化为明显的视觉异常,让模型能够像人类校对员一样直观地定位问题。
目标专家标注是第四个核心组件,负责处理那些即使经过判断与精炼流水线仍然无法自动纠正的极端复杂样本。与传统的随机抽样人工标注不同,这个组件采用了高度针对性的预算分配策略。
标注优先级的分配遵循两个原则。首先,那些判断环节置信度高但精炼环节纠正不确定的样本获得最高优先级,因为错误位置已经被自动识别,标注人员只需要进行局部纠正,标注效率最高。其次,优先投入到当前模型最薄弱的子任务类别,通过跨模型一致性验证的分歧模式确定,最大化有限标注预算对整体性能的边际贡献。
人工标注采用AI预标注加专家审阅纠正的工作流。预标注环节使用Gemini 3 Pro,选择这个模型是因为其强大的多模态推理能力以及与跨模型一致性验证模型池的独立性,避免了数据泄露。自动化质量保证工具进一步确保标注一致性。相比MinerU2.5的随机抽样人工标注过程,标注目标从随机样本转向了通过三阶段过滤精确识别的子集,显著提高了标注资源利用率。
整个数据引擎最终产生了分层数据集:约6550万简单和中等样本通过跨模型一致性验证自动标注,用于第一阶段预训练;19.2万专家标注的困难样本用于第二阶段微调和第三阶段强化学习对齐。
三、渐进式训练策略:数据质量分层利用
有了高质量的分层数据,如何充分发挥这些数据的价值就成为了关键问题。MinerU2.5-Pro采用了一个三阶段渐进式训练策略,就像培养一名医生的完整过程:先是医学院的基础教育,然后是临床实习的专业训练,最后是专科进修的精深提升。
第一阶段是大规模文档解析预训练,这相当于为模型打下坚实的基础。在这个阶段,系统使用数据引擎产生的简单和中等样本,总计约6550万个样本。这些数据覆盖了四个核心子任务:文本识别2100万样本、布局分析1400万样本、公式识别1300万样本、表格识别1150万样本,另外还有600万图像分析样本。
各子任务之间的比例调整基于它们在OmniDocBench整体评分中的权重以及基线模型的性能差距。所有参数都参与训练,语言模型的学习率设置为1×10??,视觉编码器使用1×10??,批量大小为256,训练一个轮次。相比MinerU2.5的第一阶段预训练(690万样本/轮次×2轮次),这个阶段将数据规模扩大了近一个数量级(690万→6550万),同时通过多样性与难度感知采样和跨模型一致性验证标注过滤,数据质量也得到了系统性改善。
第二阶段是高质量监督微调,针对困难场景进行精准强化。虽然第一阶段构建了全面的基础能力,但在困难样本上的性能差距依然存在。这个阶段使用专家标注流水线产生的高质量困难样本进行精确微调,同时通过混合第一阶段训练集的回放数据来防止灾难性遗忘。
训练集包含两个部分:19.2万高质量困难样本和按比例采样的第一阶段训练集回放数据。混合比例(困难:回放)根据子任务差异化设置:布局分析6:1、文本识别1:50、公式识别1:25、表格识别1:10、图像分析1:4。这种非均匀混合策略反映了不同子任务在困难样本数量和第一阶段基础表现上的差异。布局分析困难样本较多且第一阶段基础扎实,需要较少回放;文本识别困难样本稀缺且需要更多回放数据维持泛化能力。
训练配置在第一阶段模型基础上,采用更低的学习率5×10??,批量大小128,训练一个轮次。较低的学习率保护第一阶段获得的基础能力,同时在困难场景上微调决策边界。
第三阶段是基于GRPO的强化学习对齐,弥补训练目标与评估指标之间的差距。前两个阶段通过监督学习优化内容识别准确性,但交叉熵损失独立优化每个token预测且平等权衡所有token,无法直接反映序列级别或结构级别的评估指标(编辑距离、CDM、TEDS、IoU)。
系统使用群组相对策略优化算法进行对齐。对每个输入采样G组候选输出,直接使用任务特定的自动评估指标计算奖励,通过组内相对优势指导策略更新,无需独立的奖励模型。奖励函数针对四个子任务分别设计,直接采用评估中使用的相同指标作为奖励信号:文本识别用编辑距离,公式识别用CDM,表格识别用TEDS,布局检测用类别IoU。这种设计直接对齐训练优化目标与最终评估指标。
训练数据从第二阶段模型推理生成,并基于奖励分布过滤:过高奖励的样本(模型饱和,无效学习信号)和过低奖励的样本(过难或标注错误)被移除,保留中等奖励范围以最大化有效策略梯度信号。所有训练数据来自高质量专家标注集,确保奖励信号可靠性。
训练配置在第二阶段模型基础上,学习率1×10??,批量大小512,训练一个轮次,每样本G=16次推理。遵循DAPO方法,应用clip-higher稳定优势估计和动态采样丢弃零方差推理组。
整个三阶段策略的核心理念是数据规模到数据质量的渐进过渡,依次利用数据引擎在不同质量层级产生的数据,实现从广覆盖基础能力到针对性难点突破再到指标级别精准对齐的完整训练路径。
四、评估体系升级:OmniDocBench v1.6的公平性改进
在推进模型性能的同时,研究团队也发现了现有评估体系的局限性。随着顶级文档解析模型在OmniDocBench v1.5上的得分趋于收敛,两个基础问题限制了评估的有效性:匹配策略偏差和困难样本覆盖不足。
匹配策略偏差是一个容易被忽视但影响深远的问题。v1.5采用固定粒度的一对一元素匹配,这种方式会暗中惩罚那些输出分割策略与标准答案不同的系统,即使解析的内容完全正确。比如一个多行公式被标注为跨越k行的单个块,如果某个模型产生了相同的LaTeX内容但将其分割为k-1个或k个独立块,v1.5的评分就会从满分骤降至接近零分,尽管语义上输出完全正确。
类似的问题也出现在密集文本区域:一个被标注为单个块的区域可能被模型逐行预测,甚至识别为表格形式。在后一种情况下,v1.5会给零分,因为没有文本元素可以匹配,但实际上表格形式的输出可能包含了完全相同的文字内容。这些粒度依赖的评分偏差使得跨系统比较变得不可靠。
为了解决这个问题,研究团队提出了多粒度自适应匹配机制。其核心原则是保持标准答案不变,只在预测端搜索最优分割粒度。给定标准答案元素集合G和预测元素集合P,MGAM通过三个阶段生成候选匹配方案并选择全局最优解。
第一阶段是直接二分图匹配,在原始粒度上直接求解最优二分图匹配。使用成本矩阵作为输入,匈牙利算法求解最小成本匹配,产生第一个候选匹配和聚合评分。
第二阶段是预测分割加二分图匹配,将每个预测元素在LaTeX换行分隔符处分割,产生细粒度预测集合。没有可分割分隔符的预测元素保持不变。在细粒度预测集合和标准答案上重新求解二分图匹配,产生第二个候选匹配和聚合评分。
第三阶段是分区枚举加二分图匹配,因为第二阶段的分割可能过于细致,而标注粒度不一定是逐行而可能是1到k行之间的任意中间粒度。为了涵盖所有可能的合并方案,系统枚举细粒度预测元素的所有有效有序分区。具体而言,对n'个细粒度预测元素,相邻元素间有n'-1个间隙,每个间隙可以是"分割"或"合并",产生2^(n'-1)种分区方案。每个分区将细粒度预测集合划分为K个连续块,第k个块通过按原序连接得到。对每个分区,在合并块集合和标准答案间执行二分图匹配,选择最佳匹配分数的分区作为第三个候选匹配和聚合评分。
全局最优选择阶段从三个阶段中选择聚合评分最高的匹配作为最终匹配,基于最终匹配计算任务特定指标。
密集文本匹配的处理类似,因为粒度不匹配问题不仅限于公式。对密集文本区域,预测端和标注端同样会在是否将多个文本段合并为一个大文本框或分割为多个小文本框上存在差异。系统对文本元素重用MGAM算法,以编辑距离作为相似性指标。此外,如果模型将文本区域识别为表格(对密集结构化文本来说并不少见),系统会将表格转换回纯文本并纳入相同匹配流水线,避免由于格式偏好差异导致的不公平惩罚。
通过MGAM,评估变得对输出粒度和格式偏好中性,消除了跨系统评分差异的系统性来源。
困难样本覆盖不足是另一个关键问题。通过数据引擎提供的大规模难度分层,研究团队发现被标记为困难的样本在v1.5评估集中几乎不存在。基准主要测量低到中等难度文档上的性能,导致顶级模型紧密聚类,判别力递减。
为了填补困难场景的覆盖缺口,研究团队构建了一个包含296页的困难子集,从数据引擎难度分层过程中标记为困难的数据池中选取。样本选择覆盖文档解析中最具挑战性的场景类别,包括复杂嵌套表格、密集数学公式布局和非常规版面结构。所有困难子集样本都从MinerU2.5-Pro的每个训练阶段(包括判断与精炼训练数据)中排除,由专业团队标注并进行标注者间交叉验证以确保标准答案质量。
OmniDocBench v1.6建立了基础/困难/完整三层评估协议。基础子集保持原始v1.5评估集以维持与历史结果的可比性。困难子集提供对顶级模型饱和的标准评估的更敏感测量。完整子集是两者的完整联合,提供综合性能评估。
五、突破性实验结果与深度分析
MinerU2.5-Pro的实验结果证实了数据工程优化的巨大潜力。在OmniDocBench v1.6完整集上,MinerU2.5-Pro达到95.69分,相比相同架构的MinerU2.5基线(92.98分)提升2.71分,确认所有性能增益都来自数据层面改进。
更细致的分析显示了三层评估协议的不同表现特征。在基础子集上,前三名模型(GLM-OCR 96.19、MinerU2.5-Pro 96.12、PaddleOCR-VL-1.5 95.72)分数紧密分布在0.5分范围内,表明标准场景接近性能饱和。然而在困难子集上,MinerU2.5-Pro以94.08分领先,超过第二名PaddleOCR-VL和第三名GLM-OCR(均为92.01分)2.07分,展现了数据引擎在困难场景鲁棒性上的优势,验证了困难子集的判别力。
不同子指标的表现也反映了各组件的贡献。MinerU2.5-Pro在公式识别(CDM 97.29)、表格识别(TEDS 93.42,TEDS-S 95.92)和阅读顺序(0.120)上达到最佳分数。值得注意的是,Gemini 3 Pro/Flash在OmniDocBench v1.6修正匹配策略后受益显著(完整集92.85/92.58),缩小了与专门化模型的差距,但0.9B-1.2B参数的专门化模型仍保持整体领先。
训练阶段消融实验揭示了各个组件的增量贡献。第一阶段(大规模监督微调)贡献最大的单阶段增益(+1.31),表明数据引擎在数据覆盖度和标注质量上的优化是性能改善的主要驱动力。第二阶段(困难样本微调)增加+0.96,在表格识别上贡献最为显著(TEDS 90.37→92.87,+2.50)。第三阶段(GRPO)贡献+0.45,主要体现在公式CDM改善上(96.48→97.29,+0.81),由强化学习对任务级别指标的直接优化驱动。困难子集上的累积改善(91.65→94.08,+2.43)与基础子集相当(93.23→96.12,+2.89),表明渐进式训练策略在困难和标准场景上实现了平衡的能力改善。
元素特定解析的结果进一步验证了各个组件的有效性。在文本识别上,MinerU2.5-Pro在完整集上达到0.019的编辑距离,相比MinerU2.5基线(0.028)减少30.5%。百亿级别通用VLM(Qwen3.5-397B、Qwen3-VL-235B)展现了与专门化模型相当的文本识别性能,而端到端模型(DeepSeek-OCR 2、FireRed-OCR)在没有类别先验的情况下出现显著退化。
在公式识别上,MinerU2.5-Pro在9个基准测试中的5个维度取得最佳分数,在其余4个维度排名第二。在OmniDocBench基础集上,CDM达到99.20(满分100),接近公式识别的性能上限。虽然Qwen3.5-397B在手写公式上表现优异(95.38 vs 97.59),在中文公式上却显露出明显弱点(中文78.24)。
在表格识别上,MinerU2.5-Pro在整体TEDS(91.10)和TEDS-S(94.48)上均排名第一,相比MinerU2.5分别提升3.16和2.31个百分点。优势在困难子集上最为突出(TEDS 92.46 vs MinerU2.5的88.28,+4.18),表明数据引擎的困难样本挖掘和专家标注对表格识别贡献最大。GLM-OCR在OmniDocBench基础集(96.14)和CCOCR(89.17)上略胜一筹,但在各基准测试上的稳定性不如MinerU2.5-Pro。PaddleOCR-VL-1.5在CCOCR(TEDS 76.34)和内部测试(TEDS 72.66)上出现显著性能下降,暗示表格识别泛化能力有限。
六、技术细节深度剖析:提示设计与扩展能力
除了核心的数据引擎创新,MinerU2.5-Pro在技术实现上也体现了精细化设计理念。系统采用统一的提示接口,所有任务共享相同的格式:单个图像token后跟纯文本任务后缀,无需少样本示例或结构化元数据。
布局检测作为文档解析流水线的入口点,负责定位所有内容区域并分配语义类别。模型接收下采样的页面图像,产生结构化区域描述符序列。输出是换行分隔的区域描述符序列,每个区域遵循规范格式,包含归一化边界框坐标、语义类别标签和文本方向标记。区域按自然阅读顺序排列。
文本识别将裁剪的文本区域转录为纯文本。每个区域是第一阶段布局检测产生的原始分辨率裁剪。输出是对应裁剪文本区域内容的纯文本字符串,无特殊token或标记,模型生成原样文本,包括空格、标点和任何内联符号。
公式识别将裁剪的公式区域转换为LaTeX标记。模型支持内联和显示风格公式,以及多行方程环境。输出是LaTeX数学字符串,显示风格块公式用分隔符包围,方程编号通过tag命令保留。模型生成标准LaTeX数学命令和环境,确保输出直接可编译。
多行公式通过布局检测和公式识别的协作处理。布局检测首先识别包含整个多行组的方程块区域,在其中单独定位各行单行公式。每行然后由公式识别独立裁剪和识别。最终多行输出通过按阅读顺序连接各行LaTeX结果产生,忠实再现原始方程组,无需模型在单次传递中生成多行环境。
表格识别将裁剪的表格区域转换为基于优化表格结构语言的结构化token序列。单元格内容转录为纯文本,内联公式在出现时用LaTeX表示。输出是表示逐行表格结构的平面token序列,单元格用特定分隔符界定,行用换行分隔符分离。单元格内容可能包含纯文本、LaTeX内联数学或两者混合。表示紧凑且无歧义,支持规则网格以及复杂内容的单元格。生成后,序列被程序化转换为HTML用于渲染和下游集成。
图像感知解析对裁剪的图像区域分类并提取嵌入内容。与目标单一模态的其他识别任务不同,图像分析首先确定图像的语义类型,然后相应提取结构化内容。输出包含四个结构化字段:类别、子类别、标题和内容。类别是主图像类别,子类别提供更细粒度标签,标题捕获任何关联标题文本,内容包含从图像内提取的文字或结构化内容。
除了识别精度改进,MinerU2.5-Pro还扩展了MinerU2.5在若干实际维度的解析能力。这些特性针对真实世界部署场景,其中文档是多页的、丰富插图的和结构复杂的。
图像感知解析解决了MinerU2.5裁剪所有图像区域而不进一步处理的问题,丢弃了图表数据、嵌入文本和图表内容等潜在有价值信息。MinerU2.5-Pro引入图像感知解析,首先将每个图像区域分类为细粒度子类型,然后应用差异化提取策略:图表解析为结构化表格,文本图像经过OCR,类表图像识别为表格。这个框架易于扩展到额外图像类型。
截断段落合并处理布局检测将每个空间区分的文本块分割为独立区域的倾向,这可能将语义连续的段落分成多个片段。常见原因包括多栏布局中的栏边界、中断段落的图形或表格以及异常宽的行间距。MinerU2.5-Pro作为布局检测任务的一部分执行截断段落合并。由于布局检测已经建立了阅读顺序,截断必须发生在该顺序中的连续区域之间,问题简化为每个相邻区域边界的二元分类:合并或不合并。这个二元标签直接集成到布局输出序列中,允许在最终Markdown渲染期间重新组装截断段落,而不影响下游识别任务。
为了为此能力构建训练数据,研究团队在现有布局标准答案之上标注合并决定。对每对相邻文本或列表项区域,首先应用基于规则的过滤,使用句子长度、前导编号模式和终端标点符号消除明显的非合并情况。对剩余候选,在页面图像上用红色和绿色高亮两个区域,查询Gemini 3 Flash,提供带标注图像和每个区域文本内容,要求基于布局上下文和文本连贯性判断合并是否适当。为了降低API成本,长段落只提供首末句。
跨页表格合并处理表格跨页分割的情况,MinerU2.5-Pro自动检测并合并片段。系统首先应用基于规则的启发式识别候选对:如果页面上的最后一个表格和下一页上的第一个表格共享兼容的列数和结构模式,它们被标记为合并。对标记的对,模型接收上表最后几行和下表前几个数据行作为结构化文本提示,输出每列二元决定列表,指示每列应该直接连接还是语义合并。直接连接适用于单元格内容在页边界处干净分割的情况,而语义合并保留两行作为不同数据。这种细粒度的逐列策略处理某些列需要连接而其他列不需要的常见情况。
表内图像检测处理真实世界文档中的表格经常包含嵌入图像的情况。MinerU2.5-Pro通过三步过程检测这些:检测阶段,布局检测识别空间落在表格边界框内的图像区域,每个检测到的表内图像在表格裁剪中用特殊占位符token替换,有效遮罩图像区域;识别阶段,遮罩的表格图像馈送到表格识别,生成带有标记遮罩图像位置的占位符token的序列;恢复阶段,在最终输出中,占位符token解析回对原始图像区域的引用,产生包含带有链接到提取图像内容块的唯一标识符的图像标签的HTML表格单元格。这种方法允许表格结构和文本内容在不受嵌入图像干扰的情况下被识别,同时保留图像与其包含单元格在最终输出中的空间对应关系。
七、局限性反思与未来展望
尽管MinerU2.5-Pro取得了显著成果,研究团队也坦诚地讨论了当前方法的局限性和未来发展方向。
在评估方面的根本挑战依然存在。虽然OmniDocBench v1.6通过修正匹配策略提高了评分公平性,但元素匹配范式本身存在内在局限性。模糊性是双重的:在格式层面,相同内容可以用多种等价记号表示(例如表格的HTML vs Markdown,公式的不同LaTeX命令);在结构层面,相同视觉布局可以用不同元素类型合理表示,例如对齐的中英文词汇列表既可以表示为逐行文本对,也可以表示为两列表格,即使人类标注者也可能对哪种表示"正确"存在分歧。开发考虑格式和结构模糊性的语义等价感知评估方法仍是开放问题。
评估覆盖度和领域适应性的限制也很明显。OmniDocBench v1.6旨在覆盖主流应用场景;对精度要求更高的垂直领域(金融、法律、医疗),构建领域特定评估集是必要补充。此外,随着模型能力接近人类水平性能,确保评估集标注本身的精度变成日益紧迫的挑战。
技术发展方向上,当前工作专注于文档解析中的内容准确性。然而对下游应用,文档内结构关系同样关键,如标题与正文间的层次关系、图表与引用文本间的语义绑定、跨页内容连续性等,对文档检索和下游语义理解至关重要。推进解析从"内容提取"向"结构化语义理解"演进代表了文档解析研究的自然下一步。
数据引擎的进一步优化空间也很大。当前的跨模型一致性验证依赖于现有模型的能力边界,随着模型能力整体提升,难度分层的标准也需要相应调整。判断与精炼流水线虽然有效,但在极端复杂场景下仍可能失效,需要更多人工介入。此外,针对不同文档类型和应用场景,数据引擎的参数设置可能需要个性化调优。
图像分析能力目前还有很大提升空间。虽然MinerU2.5-Pro引入了图像感知解析,但研究团队承认还没有对图像分析数据应用数据引擎优化,这为未来改进留下了显著空间。随着图表、流程图、技术示意图在现代文档中的重要性日益凸显,增强图像内容的结构化提取能力将是重要发展方向。
值得注意的是,这项研究本身就体现了科研方向的重要转变。在当前AI研究的"军备竞赛"背景下,大多数团队都在追求更大、更复杂的模型架构。MinerU2.5-Pro的成功证明,在模型架构日趋成熟的背景下,系统性的数据工程可能提供一条更可持续、更高效的性能提升路径。
这种方法论的转变对整个AI研究领域具有深远意义。它提醒研究者,在追求架构创新的同时,不应忽视数据质量这一基础要素。就像建筑师不仅要设计精美的图纸,也要确保使用优质的建材一样,AI研究需要在模型设计和数据工程之间找到平衡。
说到底,MinerU2.5-Pro的成功故事告诉我们,有时候最大的突破并不来自最复杂的技术,而来自对问题本质的深刻理解和对细节的极致追求。这项研究不仅推动了文档解析技术的发展,更为AI研究提供了一个重要启示:在技术发展的每个阶段,都要审视什么是真正的瓶颈,然后用最合适的方法去突破它。
Q&A
Q1:MinerU2.5-Pro的数据引擎是如何工作的?
A:数据引擎包含四个核心组件:多样性与难度感知采样负责从海量文档中筛选出既多样化又有挑战性的训练样本;跨模型一致性验证通过多个模型的输出一致性来判断样本难度;判断与精炼流水线通过渲染验证机制提升困难样本的标注质量;目标专家标注则对最困难的样本进行人工精标。整个系统将训练数据从不到1000万页扩展到6550万页。
Q2:为什么MinerU2.5-Pro不增加参数就能提升性能?
A:研究团队发现当前文档解析的性能瓶颈主要在于训练数据的质量问题,而不是模型架构。通过分析多个顶级模型,他们发现这些模型在相同困难样本上表现出相似的失败模式,说明问题出在共同的数据短板上。因此通过系统性的数据工程优化,在保持1.2B参数架构不变的情况下,就能实现显著的性能提升。
Q3:OmniDocBench v1.6相比v1.5有哪些改进?
A:v1.6主要有两大改进:首先是多粒度自适应匹配机制,解决了v1.5中因输出分割粒度不同而导致的评分偏差问题,让评估对不同系统更加公平;其次是增加了困难样本子集,建立了基础/困难/完整三层评估体系,更好地区分顶级模型间的性能差异。这些改进让评估结果更加准确和有判别力。
- {loop type="catelog" row=10}{$vo.title}