百度网盘AI大赛:手写文字擦除(赛题二)Baseline
时间:2025-08-09
百度网盘AI大赛:手写文字擦除(赛题二)Baseline
在AI新时代,百度网盘携手百度飞桨AI Studio,共同探索科技创新的无限可能。凭借其强大的个人云存储生态,双方合作旨在通过比赛机制促进前沿技术的应用与发展。选手们将利用飞桨框架开发出具有竞争力的图像处理和计算机视觉模型方案,为社会带来更高效、智能的服务体验。这个合作不仅推动了技术创新的步伐,也为更多人提供了学习与应用AI技术的机会。

1.大赛背景
百度网盘AI大赛:一场计算机视觉领域的创新挑战在AI时代,百度网盘携手百度飞桨AI Studio发起了一场名为“图像处理挑战赛”的比赛。这是百度网盘开放平台为AI开发者和爱好者提供的一项重要活动,旨在推动计算机视觉技术的发展与应用。本次比赛的主题是将当前的前沿计算机视觉技术和图像处理技术应用于模型设计、搭建、训练优化等方面,以飞桨框架为基础,生产出开源的模型方案。通过这样的方式,百度网盘希望为中国开源生态建设做出贡献,为AI开发者提供一个展示自己技能的平台,同时推动整个行业的创新与发展。比赛将帮助参赛者在实际项目中更好地理解和应用计算机视觉技术,提升他们的技能和实战经验。无论是来自学术界还是工业界的专家,都可以在这个平台上找到灵感和挑战自己的机会,共同促进计算机视觉技术的进步。
本次图像处理挑战赛采用线上竞赛模式,参赛选手需在限定时间内进行模型设计方案制定、训练优化,并将生成结果提交至指定平台。最终得分靠前并经代码核查通过者,方可荣获丰厚奖励。
百度网盘开放平台致力于为全球AI开发者和爱好者打造专业的AI学习与开发环境,通过挖掘并培养AI人才,推动技术产业生态的发展。诚邀每一位怀抱梦想的开发者加入我们的行列,共同用科技改变世界!
2.数据集简介
比赛数据集
在这个更新的信息中,我们注意到一个新的事件一个新的图像处理任务的发布。这个任务由真实场景采集的数据生成,并通过技术手段进行处理,最终形成一个可供使用的脱敏数据集。这次比赛的重点在于将所有的图像数据转换为一种可操作的形式。这意味着源和目标数据都需要以图片形式提供。每个选手可以基于最新发布的训练数据快速融入比赛,从而优化他们的算法效果。同时,本次比赛还鼓励使用额外的训练数据来进一步完善模型。对于测试数据集,我们强调了保密性不会公开GT(Ground Truth,即正确的答案)。这应该鼓励选手们更加专注于训练和评估自己的算法性能,而不仅仅是对外部标准进行比较。至于隐私问题,这是一个需要特别关注的问题。百度网盘已经声明他们不收集或提供任何用户存储在百度网盘中的文件数据。这表明他们的立场是明确的保护用户的隐私权,维护信息的安全性。这样的信息发布应该使所有参与者都能更好地准备自己的工作,同时也能确保比赛过程中的透明度和公平竞争。
数据集构成
|- root |- images |- gts登录后复制
本次比赛最新发布的数据集包含了三个部分:训练集、A榜测试集和B榜测试集,共样本。其中,训练集中包含带手写文字的源图像数据(images),即带有手写数字或字母的手写体图片;无手写文字的数据集(gts)中则含有与images完全对应的无手写文字的真值数据(只有在训练集中提供gts ,而在A榜测试集和B榜测试集中均不提供此信息)。因此,images 和 gts 中的每张图片都能一一对应。
数据集下载
本赛事将使用带有手写文本的图片作为训练数据。包括用于训练,分别构成A榜和B榜的测试样本。
官网提供了训练集和测试集的链接,但训练集仅包含原始图像和标注文件。在这一过程中,作者制作了一张简单的掩码图,以便更好地适应模型的训练过程。从下载地址获取相关信息。
3.Baseline模型EraseNet介绍
Introduction
文字擦除的意义
隐私保护 有助于文字编辑
挑战
定位文字内容 合理填充前景 背景保持原样
示例

Architecture
G network架构包含粗细两阶段网络,作者创新地引入了段落分割头以生成文本遮罩。采用局部-全局SN-Patch-GAN方法优化GAN训练,显著提升模型稳定性。

Coarse-Erasure Sub-Network
该结构与UNet FCN类似,通过图中的侧向连接(concatenations),确保concat过程中feature map的非线性程度,从而提升分类效果。

Refinement Sub-Network
该部分为粗网络输出,因缺乏监督信号,导致图像中仍保留有少量文字信息;为此,作者增设了细化生成图像的环节。
Segmentation Head
Segmentation Head作为辅助路径能够更好的为Coarse阶段隐式的定位文本位置。
Global and local discriminator
该结构通过全局和局部鉴别,保证了整体的一致性和局部的敏感性。

4.训练及测试
4.1 准备数据集
In []
%cd /home/aistudio/data/ !unzip /home/aistudio/data/data121581/dehw_testA_dataset.zip!unzip /home/aistudio/data/data121581/dehw_train_dataset.zip!unzip /home/aistudio/data/data122013/mask.zip%mv mask/ dehw_train_dataset/登录后复制
解压数据集之后,数据集目录如下:
| dehw_testA_dataset/ -images| dehw_train_dataset/ -gts -images -mask登录后复制
其中mask 分支为手写文字的掩码,通过滤波算法生成的。
4.2 启动训练命令
In []
%cd /home/aistudio/work/ !python train.py --dataset_root ../data/dehw_train_dataset/ --max_epochs 100 --batch_size 3 --sample_interval 100 --log_iters 100登录后复制
4.3 启动测试命令
运行结束后,结果文件保存在train_result/model文件夹中,通过--pretrained选择训练模型的路径进行预测 In []
!python test.py --dataset_root ../data/dehw_testA_dataset/ --pretrained model.pdparams登录后复制
保存的文件在test_result路径中,进入该路径创建readme.txt文件,输入要求的内容:
训练框架:PaddlePaddle,代码运行环境为V使用了GPU加速。单张图片耗时仅为,模型体积小巧(B),且无额外说明。此算法基于EraseNet设计,具有高度实用性。
然后压缩所有文件 In []
%cd test_result/ !zip -D result.zip ./*登录后复制
以上就是百度网盘AI大赛:手写文字擦除(赛题二)Baseline的详细内容,更多请关注其它相关文章!