PP-OCR论文翻译
更新时间:2026-03-26 14:57:27
-
-
taptap官方最新客户端2026
- 类型:生活服务
- 大小:28.8m
- 语言:简体中文
- 评分:
- 查看详情
PP-OCR论文翻译
PP-OCR是一款功能强大的超轻量级OCR解决方案,能够高效准确地处理汉字和字母数字符号,仅需和的模型文件空间。该系统涵盖了文本检测、检测框校正及文本识别三大核心模块,并通过多种优化策略增强了其识别能力或缩小了模型体积。此外,PP-OCR还提供了多语言预训练模型供用户选择,极大地丰富了应用场景。这款开源软件支持GitHub访问,适用于各类需要快速解析文本的场景。
PP-OCR: 一个实用的超轻量OCR系统
摘要
光学字符识别系统在各种应用场景中的广泛应用光学字符识别(Optical Character Recognition, OCR)系统已经广泛应用于办公自动化、工厂自动化、在线教育以及地图制作等多种场景,极大地提高了数据处理和信息提取的效率。然而,文本呈现形式的多样性及其对计算效率的要求使得OCR仍然是一项具有挑战性的任务。 提出超轻量OCR系统 PP-OCR在本文中,我们提出了一款实用的超轻量OCR系统PP-OCR(PaddlePaddle Optical Character Recognition)。通过引入一系列策略,旨在提高模型的能力或减小模型尺寸。这些策略包括但不限于: 数据增强:利用随机变换和噪声生成等方法增加训练样本,有助于提高模型对各种文本表现形式的适应能力。 轻量化网络结构:采用更简单的卷积神经网络(CNN)架构,如ResNet、DenseNet或EfficientNet等,以减少模型参数量。 预训练和迁移学习:基于现有的大量公共标注数据进行预训练,然后通过微调实现目标任务的快速收敛。 模型结果及模型发布我们引入了多种策略来提升模型的能力或减小其尺寸。并给出了相应的消融实验结果。同时发布了几个预先训练好的中英文识别模型,包括: 文本检测器:使用张图像进行预训练。 方向分类器:利用张图像进行预训练。 文本识别器:在训练集上使用了张图像。此外,在法语、韩语、日语和德语等其他语言的OCR任务中,PP-OCR也显示出良好的性能。所有这些模型都是开源的,并且代码可以在GitHub仓库中获得,即 https://github.com/PaddlePaddle/PaddleOCR。 结论本文提出的PP-OCR系统通过结合多项策略实现了高效的OCR处理能力,并提供了一个轻量级和易于使用的选择,为各种应用场景提供了强有力的支撑。
1 简介
随着信息数字化趋势的增强,图像处理技术如光学字符识别(OCR)已成为提升文档管理和身份验证等多个领域的重要工具。图 展示了一种用于自动识别图像中文本的技术OCR,它在电子化文档、身份认证和数字金融系统等广泛的应用场景中发挥了重要作用。OCR不仅为生产过程中的产品信息提取提供了便利,还促进了学生在线作业或试卷的电子化处理,使得教师与学生的沟通更为高效。此外,OCR在标记街景图像的兴趣点(POI)方面也展现出显著的优势,从而加快了地图制作的速度和质量提升。然而,OCR技术的应用也带来了诸多挑战:首先,由于不同语言、字体格式多样,需要复杂的算法来正确识别并处理;其次,OCR系统的准确性依赖于输入的清晰度和背景环境。此外,数据隐私和安全问题也不容忽视,特别是在使用OCR技术进行身份验证时。尽管存在这些挑战,OCR技术凭借其在各种应用场景中的广泛应用,持续释放着巨大的商业价值。随着人工智能技术的发展和深度学习算法的不断进步,OCR有望在未来进一步提升图像识别的准确性和效率。

图1:所提出PPOCR系统的一些识别结果图1:所提出PPOCR系统的一些识别结果
多种文本外观图像中的文本一般分为两大类:场景文本和文档文本。场景文本指的是自然场景中的文本,如图示,通常会因透视、缩放、弯曲、杂乱、字体、多语言、模糊、光照等因素而发生剧烈变化;相比之下,图示的文档文本在实际应用中更为常见。由字符密集性(high density)和长文本引起的不同难题需要解决。此外,文档图像文本识别往往需要构造结果,这就引入了一项新的困难任务。

图3:一些包含场景文本的图像图3:一些包含场景文本的图像

图4:一些包含文档文本的图像图4:一些包含文档文本的图像
计算效率在实际应用中,需要处理的图像通常是非常庞大的数据集,这要求设计高效的OCR(光学字符识别)系统成为关键之一。从成本效益的角度考虑,CPU比GPU更适合进行这一任务。由于OCR系统的广泛用途,尤其是在嵌入式设备如移动电话上,性能和模型大小同样重要。我们提出了一种新的实用型超轻量级OCR系统,名为PP-OCR(图示)。该系统主要由文本检测、框校正和识别三个部分组成。为了实现高效的计算效率,我们的设计策略包括: 高效文本检测:通过深度学习模型自动提取图像中的文本区域。 精确的框校正:利用神经网络对文本区域进行校准,确保准确识别边界。 优化的文本识别算法:结合最新的OCR技术和硬件加速能力,显著提高识别速度和准确性。此外,我们特别强调了在嵌入式设备上的运行性能。通过对模型大小的精细控制与优化,我们在保持高识别精度的同时,大幅降低了系统所需的计算资源,从而实现了理想的平衡。通过这些创新的设计和策略,PP-OCR不仅在处理大量图像时表现出色,在能耗效率上也比现有解决方案更胜一筹,为不同场景下的数据处理提供了强大的支持。

图所提出的PPOCR框架。该框架专门设计用于处理中英文字符识别任务,显著提升了图像到文本的转换效率。其核心结构包含了一系列高效特征提取和分类模块,有效提高了准确率和速度比传统方法有明显优势。此外,还特别注重模型对异域数据的适应性,以应对不同语言环境中的挑战。
数字符号识别,文本识别的模型大小仅为0.9M。其余部分都是同样的尺寸。数字符号识别,文本识别的模型大小仅为0.9M。其余部分都是同样的尺寸。
文本检测的主要目标是在图像中定位和识别文本区域。在PP-OCR框架下,我们采用可微二值化(DB)作为基于简单分割网络的文本检测器。这种技术简化了DB处理,从而提高了其效率。为了进一步提升性能与效率,我们提出了六项策略:轻主干、轻头部、去除SE模块、学习率衰减、预热学习率以及FPGM裁剪。最终的结果是文本检测模型尺寸缩减至。
在识别检测到的文本之前,需要将文本框转换为水平矩形框以进行后续的文本识别。由于检测帧由四个点组成,可以通过几何变换轻松实现。然而,矫正框可能会反转(reverse),因此需要一个分类器来确定文本的方向。如果文本框被反转,则需要进一步翻转(flip)。训练文本方向分类器是一项简单的图像分类任务。我们采用了以下四种策略来提高模型的能力和减小模型的尺寸: 轻主干:减少模型的深度,以减轻过拟合问题。 数据增强:通过旋转、缩放等方式增加训练样本,增加模型的泛化能力。 调整输入分辨率:改变图像的像素大小,使其适应不同的设备和计算资源。 PACT量化:减少模型参数的数量,从而减小了存储需求。最终,我们获得了一个文本方向分类器的模型尺寸为B。
文本识别在PP-OCR中的应用在图像处理领域中,文本识别(Text Recognition)是一项重要的技术。在PP-OCR系统中,我们采用了CRNN (Shi, Bai and Yao 作为其核心的文本识别器。CRNN结合了特征提取和序列建模,它有效地解决了文本识别中的问题。为了提升文本识别器的表现力并减少模型体积,本文提出以下策略:轻主干、数据增强、学习率衰减、调整特征图分辨率、正则化参数、预热学习率、轻头部、预训练模型和PACT量化。这些策略使得用于中英文识别的文本识别器模型大小仅为B,而用于字母数字符号识别的大小更是只有B。通过以上方法的应用,PP-OCR系统不仅在性能上得到了显著提升,同时在效率和可扩展性方面也具有显著优势。
为了创建一个有效的OCR(光学字符识别)系统,我们设计了一个大型的中英文识别数据集作为例子。具体而言,文本检测集包含图像,方向分类集有图像,而文本识别集则达到幅图像。为了快速评估不同方法的效果,并展示它们的具体影响,我们仅使用少量数据进行消融实验,在图进行了详细的测试和分析。此外,我们也验证了所提出的PP-OCR系统在多种语言中的识别能力,包括字母、数字字符、法语、韩语、日语和德语等。
本文其余部分结构如下:- 第介绍了一系列增强或瘦身策略。 - 第分析实验结果。 - 第总结结论。
2 增强或瘦身策略
2.1 文本检测
本章深入探讨提高文本识别器效能和压缩其体积的六项技术。图示了DB文本识别器的设计框架。

图5:文本检测器DB的架构。这个数据来源于DB论文(Liaoetal.2020)。图5:文本检测器DB的架构。这个数据来源于DB论文(Liaoetal.2020)。
在这段文字中,两组红色和灰色矩形展示了文本检测器的结构特点,包括其核心部分为主干、次要部分为头部。这种表达方式强调了识别文本的关键步骤和技术细节。
在构建轻量级文本检测器时,主干网络的大小至关重要。因此,在设计超轻量化模型时,应选择小巧的骨干网。随着图像分类技术的发展,MobileNetVMobileNetVMobileNetVShuffleNetV列已成为常用的轻量级主干网络。每个系列都有各自的特点:MobileNetV模较小且效率高;MobileNetV留了更多传统结构的特征学习能力,并在精度上有所提升;而MobileNetVShuffleNetV通过深度可分离卷积提升了模型的性能。PaddleClas提供了详细的CPU推理时间和超过主干网络的准确率数据,揭示了当预测时间相同时,MobileNetV以达到更高的精度。根据经验来看,我们建议采用规模为MobileNet Vlarge_x网络来平衡精度和效率。此外,PaddleClas还提供多达系列的图像分类网络结构、训练配置以及模型的预训练权重及其评价指标,涵盖ResNet、ResNet-vd、SEResNeXt、Reset、Reset_vd、DPN、DenseNet、EfficientNet、Xception、HRNet等经典深度学习模型。

图6:ImageNet1000分类的一些轻主干的性能,包括MobileNetV1,MobileNetV2图6:ImageNet1000分类的一些轻主干的性能,包括MobileNetV1,MobileNetV2
在骁龙,使用批大小为设置进行MobileNetVShuffleNetV列模型的推理性能测试,结果令人满意。
轻头部文本检测器的头部与目标检测中的FPN架构类似,通过融合不同尺度的特征图,提高小文本区域检测的效果。为了方便地合并不同分辨率的特征图,通常使用x 积来将特征图减少到相同数量的通道(我们简称为inner_channels)。
新的概率图和阈值图通过卷积融合的特征图生成,并与内核通道数(inner_channels)紧密相关。降低内核通道数(由少至从万减小到了万,但精度仅轻微下降。
移除SE模块SE是压缩-激励方法(squeeze-and-excitation)的缩写。如图示,SE明确地对通道之间的相互依赖进行建模,并自适应地重新校准通道上的特征响应。由于SE块可以显著提高视觉任务的准确率,MobileNetV搜索空间中包含了它们,并且在MobileNetV构中有许多SE模块。然而,当输入分辨率较大时,例如很难用SE块估计通道上的特征响应,精度提高有限,但时间成本高。移除SE模块后,模型大小从减小到,准确率没有受到影响。

图7:SE模块架构。这张图片来自论文(Hu,Shen,andSun2018)。图7:SE模块架构。这张图片来自论文(Hu,Shen,andSun2018)。
余弦学习率衰减是一种用于控制模型学习速度的超参数策略。通过调整学习率的衰减速率曲线,我们可以有效地控制训练过程中的损失值变化速度。学习率越低意味着损失值的变化更加缓慢,有助于确保我们不会错过任何潜在的局部最小值,从而提高模型的泛化能力。然而,这也可能导致收敛速度显著变慢。在训练初期,由于权值随机初始化状态,我们通常需要较高的学习率来加速收敛过程。而在模型训练后期,随着权值逐渐接近最优解,学习率应相应地降低以确保精确收敛,避免过早或过度收敛。余弦学习速率衰减策略因其能够在整个训练过程中保持较大且平稳的学习速率而成为提升模型准确率的首选方法。通过这种方式,它可以有效平衡收敛速度与最终精度之间的关系:在早期阶段,较高的学习率有助于快速收敛;而在后期,降低的学习率则能确保达到最佳性能。图 给出了不同学习速率衰减策略的比较分析。

图8:不同学习率衰减方法的比较图8:不同学习率衰减方法的比较
学习率预热(Learning Rate Warmup)是基于一系列研究发现而提出的一种有效策略。在图像分类任务中,采用学习率预热可以显著提升模型的准确度。具体而言,在训练初期,通过较小的学习率启动来避免数值不稳定问题,随后逐渐增加至初始值以稳定地继续训练,这种方法已被证明同样适用于文本检测等其他计算机视觉任务。
FPGM(Filter Pruning for Model Compression)是一种有效的神经网络模型优化技术,它通过删除或减弱不重要的子网络来提高模型推理速度和效率。为了确保不重要子网络的裁剪不会削弱模型性能,我们利用FPGM方法在原始模型中寻找这些关键节点。FPGM使用几何中值作为判别标准,将卷积层中的滤波器视为欧几里得空间中的点,并通过计算这些点的几何中值来筛选相似的滤波器。每一层的压缩比对于模型裁剪的重要性同样重要。均匀地修剪每一层通常会导致显著的性能下降。在PP-OCR系统中,我们依据(Li等人的方法确定各层的裁剪敏感性,并以此评估冗余度。通过这种方法,我们可以在不牺牲模型准确性的前提下,有效地压缩和加速该系统。

图9:FPGM裁剪插图。这张图像来自论文(He等人2019b)。图9:FPGM裁剪插图。这张图像来自论文(He等人2019b)。
2.2 方向分类
在本节中,我们将详细介绍四种提高方向分类器模型能力或减小模型尺寸的策略。
在轻量级主干方面,我们同样采用与文本检测器相同的MobileNetV以适应简单的方向分类任务。通过经验,我们选择了MobileNetVsmall_x为主干以兼顾准确性和效率。对于较大的骨干,准确性不会进一步提升。
数据增强:从文本识别到方向分类在研究图像处理操作对文本识别的影响时,Yu等人(展示了多种图像处理方法来训练文本识别器,包括旋转、透视失真、运动模糊以及高斯噪声等。这些操作统称为BDA(基础数据增强)。这些过程随机地添加到训练图像中,从而提高了模型的鲁棒性和表现。除了这些基础操作外,最近的研究还提出了几种新的数据增强技术来提升图像分类效果。其中包括自动增强(Cubuk等人 、随机增强(Cubuk等人 、剪贴(DeVries and Taylor 、随机擦除(Zhong等人 、捉迷藏(Singh和Lee 、网格遮挡(Chen 、混合(Mixup)(Zhang等人 和最小切(Cutmix)(Yun等人 。虽然这些技术在图像分类方面显示出一定的效果,但实验表明它们并不适用于方向分类器的训练。特别是随机增强表现最佳。最后,在方向分类的训练图像中加入BDA和随机增强的效果显著提升。这表明数据增强不仅可以提高文本识别的效果,还可以更好地应用于其他类型的图像处理任务,如方向分类。总结来说,虽然现有的方法对提高图像分类效果非常有效,但新的数据增强技术仍然存在局限性。在未来的研究中,可能需要结合多种数据增强策略来进一步优化图像分类器的性能。
输入分辨率通常会随着图像的标准化而提升,这能够增强精度表现。方向分类器的架构设计使得主干部分相对简单,因此增加分辨率不会显著延长计算时间。相较于之前的研究方法,PP-OCR中对图像进行了调整,使其宽度和高度分别增加到素,以优化方向分类器的效果。
PACT量化量化使神经网络模型具有较低的时延、更小的体积和更低的计算功耗。目前量化主要分为两大类:离线量化和在线量化。离线量化是一种定点量化方法,它使用诸如KL散度和移动平均等方法来确定量化参数,并且不需要再训练。在线量化是在训练过程中确定量化参数,其量化损失比离线量化方式要小。
PACT(PArameterized Clipping acTivation)(Choi 等人 是一种新颖的在线量化技术,旨在提前从激活中剔除异常值。在此基础上,该模型能更精准地学习量化尺度,用于处理PACT预加工后的激活:

将普通PACT的激活值进行预处理时,主要是基于ReLU函数的。对于大于某个阈值的激活值,会进行截断处理。然而,在MobileNetV,除了ReLU之外,还采用了硬平滑(hard swish)这种新的激活函数。使用普通的PACT量化策略会导致较高的量化损失。因此,我们将激活预处理公式进行了调整,以降低量化误差。

我们改进PACT方法,通过添加L则化(系数为来量化方向分类器模型。这增强了其在不同数据集上的鲁棒性。
上述FPGM裁剪和PACT量化的实现基于PaddleSlim。PaddleSlim是专门用于模型压缩的工具包,其中包括多种压缩策略,如裁剪、不动点量化、知识蒸馏、超参数搜索、神经结构搜索等。
2.3 文本识别
本节详述提升文本识别模型效能或优化其结构的九种方法,图示了基于卷积神经网络(CRNN)的文本识别器的架构。
我们采用MobileNetV为文本识别器的主干,与文本检测类似。为了在保持高精度的同时提升效率,经验表明选择MobileNetVsmall_x能是一个折中的方案。如果你对模型大小不敏感,MobileNetVsmall_x是一个值得尝试的选择。结果表明,这一变更不仅不会增加过多的体积,还能显著提高识别准确率。

图示了由作者Shi、Bai和Yao在提出的卷积-递归神经网络(CRNN)文本识别系统的架构。在这张图像中,红色矩形部分代表了模型的主要结构,而灰色矩形则显示了模型的头部组件。该系统采用了复杂的处理流程,包括特征提取、字符级编码和最终的文字输出。
新的数据增强不仅限于常见的BDA(Textual Data Augmentation)和TIA(Luo等人提出),还有其他有效的方法可以提高识别性能。例如,如图示,在文本识别过程中,我们同样可以在训练图像中添加这两种方法以实现更好的效果。通过在图像上初始化一组基准点并用几何变换随机移动这些点生成新的图像,我们可以有效地增强数据集的多样性和复杂性,从而提升识别精度。这种方法结合了BDA和TIA的优势,为文本识别任务提供了更强大的解决方案。

图11:数据增强图例,TIA。这张图像来自论文(Luo等人2020)。图11:数据增强图例,TIA。这张图像来自论文(Luo等人2020)。
余弦学习率衰减在文本识别领域起到了关键作用。它如同在其他技术应用中所见的一样,被证明是有效降低学习率的一种选择。实验结果展示了这种策略显著提升了模型的整体性能和效率。
为了适应多语言识别,特别是中文识别,在PP-OCR中CRNN输入的高宽分别被设定为然而,原始MobileNetV步幅并不适合文本识别,特别是在细节保留方面表现不佳。如图示,我们调整了特征图的步幅,以更好地适应文本识别需求。首先,我们将除第一个下降采样特征图以外的所有特征图的步幅从(修改为(,从而有效地保持了更多的水平信息。紧接着,为了保留更多的垂直信息,我们将第二个下采样特征图的步幅从(调整至(。这样处理后的特征图,特别是第二个下采样特征图s其步长将显著影响整体特征图的分辨率和文本识别器的精度。在PP-OCR中,为了获得较好的性能,s设定为(,这表明这个调整是值得的。综上所述,通过适当的修改特征图的步幅,我们能够在保持较高信息量的同时提升文本识别的效果。

图12:特征图分辨率修改说明。表来自论文(Howardetal.2019)图12:特征图分辨率修改说明。表来自论文(Howardetal.2019)
正则话参数过拟合是机器学习中的一个常见术语。简单来说,模型在训练数据上表现很好,但在测试数据上却不理想。为了避免这种情况,人们使用了各种正则化方法。其中,权重衰减是一种常用的方法。它在最后的损失函数中添加L则化(Ldecay),帮助网络选择较小的参数值,并最终使整个网络的参数趋向于从而提高了模型的泛化性能。对于文本识别来说,Ldecay对识别准确率有很大的影响。
学习率预热与文本检测类似,学习率预热也有助于文本识别。实验表明,使用该策略对文本识别也是有效的。
采用全连接层可以将序列特征编码为普通预测字符,这在轻头部模型中非常有效。然而,需要注意的是,虽然增加维度通常会导致更好的识别性能,但并不是维数越高越好,而是需要在一定程度上权衡它对模型大小的影响。例如,在PP-OCR系统中,通过经验法则将序列特征的维度定为就显得非常合适。
预训练模型的强大之处在于其在大规模数据集上的表现。然而,当面对较小的训练数据量时,通过微调已经在大数据集上进行了良好训练的网络,可以迅速收敛并提升准确率。这一策略在图像分类和目标检测领域中展示出了显著的效果,特别是在使用了数千万个样本训练的模型的情况下。虽然实际文本识别的数据可能相对有限,但采用上述预训练模型则能有效提高精度。实验结果验证了该策略的有效性,不仅展示了其在大规模数据集上的优越性能,也表明即使对合成数据进行微调,也能带来显著提升,这对于许多图像相关任务特别有用。
我们的Quantization方法专注于跳过LSTM层,并使用相似方向的分类量化策略以减小文本识别器的模型规模。尽管当前LSTM层的量化尚未实现,我们已经成功实现了这一目标。
3 实验
3.1 实验装置
数据集见表为构建一个有效OCR系统,我们开发了大规模中文英文识别的数据集。

表1:中英文识别数据集统计表1:中英文识别数据集统计
对于文本检测任务,我们使用了训练图像和验证图像。这些图像包括真实的场景图片,来源自多个公开数据集,例如LSVT (Sun等人 、RCTW-Shi等人 、MTWI He和Yang 、CASIA-(He等人 、SROIE(Huang等人 、MLT Nayef等人 及BDI(Karatzas等人 、MSRA-TD(Yao等人 和CCPD Xu等人 。从百度图像搜索来的训练图片大多是文档文本图像,剩下的合成图像主要是针对长文本、多方向文本和表格文本场景的。所有验证图像都取自真实场景。
对于方向分类任务,我们使用了训练图像和验证图像。其中,真实场景图像来自于公共数据集:LSVT、RCTW-MTWI 这些图像通过校正和裁剪处理后的标注水平文本组成。剩余的合成图像则专注于翻转文本,并通过垂直字体合成后进行水平旋转。所有验证图像均来自真实的场景环境。
文本识别:训练与验证数据集对于文本识别任务,我们采用了的训练图像和的验证图像。在这些图像中:- 训练图像包含幅真实场景图像。 - 验证图像则涵盖了来自公共数据集LSVT、RCTW-MTWI 及CCPD 真实场景图像。此外,我们还合成了的图像数据来模拟不同条件下的文本识别挑战。这些合成图像特别关注于背景变化、平移、旋转、透视变换、线干扰和噪声情况,还包括垂直文字等复杂场景。合成图像的数据来源于真实场景图片,确保了其语料库的高质量。所有的验证图像均来自真实的应用场景。这样设计的数据集不仅为文本识别任务提供了丰富的训练素材,也为后续模型的准确度提升奠定了坚实的基础。
为了高效执行消融实验,我们采用实际场景的图像数据集作为输入,同时选择了高分辨率的图片和大量的图像用于文本检测与识别测试,从而确保实验结果的准确性和可靠性。
此外,我们还收集了针对不同实际应用场景的图像来评估整个OCR系统,包括合同样本、车牌、铭牌、火车票、工作表(test sheets)、表格、证书、街景图片、名片和数字仪表等。图图示了测试集的一些图像。
此外,为了验证所提出的PP-OCR在其他语言中的应用,我们还收集了一些用于字母数字符号识别、法语识别、韩语识别、日语识别和德语识别的语料库,并合成文本行图像进行文本识别。一些用于字母数字符号识别的图像来自公共数据集ST(Gupta, Vedaldi 和 Zisserman 和SRN(Yu 等人 。表示了统计数据。自包含多语言的文本检测以来,中英文识别文本检测器也支持多语言文本检测。由于数据有限,我们还没有找到合适的数据来训练多语言的方向分类器。

表2:多语言识别数据集统计表2:多语言识别数据集统计
在文本检测和文本识别中使用的数据合成工具是根据text_render(Sansterl 2018)改进的。
我们采用了Adam优化器对所有模型进行了测试,并采用余弦学习率衰减作为学习率策略(schedule)。表示了不同任务下的初始学习率、批次大小和迭代次数。将这些模型用作预训练,可以使用FPGM裁剪和PACT量化技术进一步缩小模型尺寸。与之前的训练流程类似,FPGM裁剪和PACT量化的训练过程也进行了优化。

表4:模型训练实现细节表4:模型训练实现细节
在推理阶段,HMean用于评估文本检测器的性能。准确率通常用来衡量方向分类器或文本识别器的表现。F-score则常用于评价OCR系统的效能。为了计算F-score,需要准确地定位并内容一致的文本。我们对单个TGPU进行了GPU推理时间测试,在Intel(R) Xeon(R) Gold 执行了CPU推理时间测试,并使用骁龙SD 来评估量化模型的推理速度。
3.2 文本检测
表示了不同文本检测骨干网络的性能对比,其H-mean、模型尺寸以及MobileNetV同规模的推理时间差距显著(change)巨大。在PP-OCR中,我们采用了MobileNetVlarge_x兼顾准确率与效率。

表5:比较文本检测不同主干的性能表5:比较文本检测不同主干的性能
表 提供了针对文本检测的头部内通道、SE、学习率衰减以及预热的学习方法消融研究。首先,将模型头部内通道从少到,从而使得模型大小减少了,推理时间也大幅缩短至原值的约。与此同时,HMean指标下降了轻微。因此,在文本检测领域中,这种方法是“瘦身”(lighten)的有效策略。当移除检测器主体部分的SE块时,模型整体尺寸显著减小达,而推理时间提高了。此外,该方法对HMean没有产生负面影响,表明SE块在文本检测任务中的提升效果有限但代价巨大。最后,研究发现使用余弦学习率衰减替代固定学习率或预热学习法是显著提高模型性能的有效策略。这不仅不会改变模型的总体大小和推理时间,同时也能明显改善HMean的准确度。因此,在文本检测中采用了这种策略,可以实现更高的准确度而不增加任何额外的成本。总结来说,本文探讨了在文本检测任务中多种影响因素的优化方案,并通过表观展示了不同方法下性能和资源使用的变化情况,为实际应用中的模型调优提供了一定的参考。

表文本检测在头部、SE、余弦学习率衰减和学习率预热下的inner_channel消融研究在文本检测任务中,深入探讨了头像特征提取、SE技术、余弦学习率衰减以及学习率预热对inner_channel的影响。通过对比实验,分析了这些因素的具体作用效果,并提出了一种新的框架来优化这四个方面的表现。该研究成果为提升图像识别性能提供了新的思路和方向。
表 显示了在 FPGM 裁剪的消融研究中,文本检测模型尺寸减小了,且推理时间缩短了,HMean略有下降。因此,FPGM裁剪确实在文本检测任务上有效修剪了模型。

表6:文本检测的FPGM裁剪消融研究表6:文本检测的FPGM裁剪消融研究
3.3 方向分类
表较了用于方向分类的不同主干的性能。MobileNetV不同规模( 上的精度相近。相比之下,MobileNetVsmall_x模型大小和推理时间显著降低。此外,在之前的几项工作中,ShuffleNetV被用作方向分类器进行训练,但从表格中可以看出,其性能并不优于其他方法。

表7:方向分类不同主干的性能比较表7:方向分类不同主干的性能比较
表 显示了用于方向分类的数据增强消融研究结果。在没有数据增强的情况下,文本导向器分类的基线准确率为。引入了 BDA 后,其准确性提升了。此外,我们验证了随机擦除和随机增强对文本方向分类的有效性。因此,在PP-OCR系统中,我们采用了BDA和随机增强来训练一个方向分类器。

表9:方向分类数据增强消融实验表9:方向分类数据增强消融实验
表 显示了用于方向分类的输入分辨率和PACT量化消融研究的结果。当输入分辨率从整到,分类精度有所提升,但预测速度保持不变。此外,我们验证了量化策略在提高文本方向分类器的预测速度方面是有效的。模型尺寸减少了,推理时间提高了。准确性也略有上升。

表8:方向分类的输入分辨率和PACT量化消融实验表8:方向分类的输入分辨率和PACT量化消融实验
3.4 文本识别
表示了不同预训练模型在文本识别任务上的性能对比。尽管MobileNetV有较高的精度、较小的模型尺寸和更快的推理时间(change)。然而,在PP-OCR中,我们选择了MobileNetVsmall_x优化精度与效率的平衡。

表10:不同主干在文本识别上的性能比较。头部的通道数量被设为256表10:不同主干在文本识别上的性能比较。头部的通道数量被设为256
表示了用于文本识别的CRNN头部的通道数量差异。将通道从少至,不仅使模型大小缩减为原来的四分之一(从B减到B),还显著提升了推理时间。尽管如此,该方法不牺牲准确性。因此,在设计轻量级文本识别器时,头部的通道数量至关重要。

表示了当仅采用BDA作为数据增强手段时,在文本识别任务中头部通道数量对模型性能的影响。
表示了对比实验,包括数据增强、基于角点的学习速率衰减、调整第二个下采样特征图的步长、正则化参数(L^)_decay以及用于文本识别的学习率预热的研究结果。

表12:多种策略在文本识别上的消融实验。表12:多种策略在文本识别上的消融实验。
主干为MobieNetV3_small_x0.5。头部通道数为48。主干为MobieNetV3_small_x0.5。头部通道数为48。
为了验证每种策略的优势,我将基本实验命名为策略S使用BDA时,准确率提升了。此外,数据增强对文本识别极为必要。在我们进一步采用余弦学习率衰减后,准确率增加了。余弦学习速率证明是一种有效的策略。接下来,当我们增加特征图的分辨率,并将第二幅下采样特征图的步幅从( 调整为( ,准确率提高了。然后,我们进一步将正则化参数Ldecay从整到-准确率提高了。特征图分辨率和Ldecay对性能产生了显著影响。最后,我们采用学习率热身将准确率提高了,而这项技术也广泛应用于文本识别领域。此外,使用TIA数据增强提升了准确率达到,同时学习率预热同样是一种有效策略。
表示了用于文本识别的PACT量化消融研究结果。当我们采用PACT量化时,模型的大小减少了,推理时间缩短了。尽管没有对LSTM进行量化,加速效果不明显。然而,准确性显著提升,因此,采用PACT量化是一种有效的方法来减小文本识别器的模型规模。

表多种策略在文本识别上的消融实验。采用MobilenetVmallx为骨干网络,头部通道数设定为
最后,我们将说明预训练模型的效果。我们利用的图像数据集进行学习,从而建立了一个文本识别器。接着,用这个预训练模型作为基础,微调以探究样本的研究。当我们使用这种预训练模型时,准确率显著提升,达到了。
3.5 系统性能
表示了OCR系统的裁剪和量化的消融研究。当采用“瘦身”方法时,模型尺寸缩小了,推理时间缩短了。尽管F-score保持不变,但推理时间的减小意味着更高效的数据处理。因此,FPGM裁剪和PACT量化是有效减少模型体积的方法。

表14:裁剪或量化在OCR系统中的消融实验表14:裁剪或量化在OCR系统中的消融实验
为了评估所开发的超轻量级与大规模OCR系统间的性能差异,我们还训练了一个大规模 OCR 系统,该系统采用 Resvd 作为文本检测器的基础,Resvd 作为文本识别器的基础。如表 所示,在 F-socre 上,大规模 OCR 系统的表现优于超轻量级系统,但模型尺寸和推理时间方面,超轻量级系统的性能显著优越于后者。

表15:超轻量OCR系统和某大规模系统比较表15:超轻量OCR系统和某大规模系统比较
图 和图 展示了本文所述用于中文和英文识别的 PP-OCR 系统的部分图像结果;而图 则展示了使用该多语言识别方法的 PP-OCR 系统的效果。

图13:基于PPOCR得到的一些中英文识别结果图13:基于PPOCR得到的一些中英文识别结果

图14:基于PPOCR得到的一些中英文识别结果图14:基于PPOCR得到的一些中英文识别结果

图15:基于PPOCR得到的一些多语言识别结果图15:基于PPOCR得到的一些多语言识别结果
以上就是PP-OCR论文翻译的详细内容,更多请关注其它相关文章!
