R-Drop论文复现

更新时间：2026-03-26 15:14:44

taptap官方最新客户端2026

类型：生活服务
大小：28.8m
语言：简体中文
评分：

查看详情

R-Drop论文复现

R-Drop是一种改进的正则化方法，基于Dropout技术来减少过拟合。它让每个样本在经过带Dropout的同一模型两次后保持一致，并通过使用Kullback-Leibler散度约束两次输出一致，使总损失包括交叉熵和KL散度之和。这种设计使得R-Drop能够有效地提升模型的正确率和准确度。

R-Drop: Regularized Dropout for Neural Networks

深度神经网络的过拟合问题深度学习在图像识别、语音处理等领域取得了显著进展，但同时也面临一个关键挑战：即深度神经网络（Deep Neural Networks, DNNs）容易过拟合。这主要是因为它们通过大量参数和复杂的架构来捕捉训练数据中的细微特征，而这些训练数据本身可能包含噪声或偏差。 Dropout 方法的提出为了解决这一问题，研究者提出了 Dropout 方法，即在每个网络层中随机丢弃部分神经元（nodes），每次训练时有不同比例的神经元被随机选中并设为“失效”。这种方法通过让模型在学习过程中变得更加鲁棒和泛化能力更强。由于每次随机丢弃的结果完全不同，从而避免了过拟合的风险。 R-Drop 的创新为了进一步优化模型性能，研究者提出了 R-Drop（Random Dropout）方法。它利用多次 dropout 策略来对网络的输出进行正则约束，确保模型在训练过程中的稳健性更强。通过引入随机性的多步 Dropout 算法，研究员们找到了一种有效的方法来限制模型的学习路径，并防止局部极小值问题。 R-Drop 的实验验证研究者通过对大量数据集（如 ImageNet）进行实验，发现即使结构相对简单，R-Drop 也能显著提升模型的泛化能力和准确率。通过引入额外的正则化手段，这种改进方法不仅减少了训练时间，而且在保持性能的同时大大降低了参数的数量。模型结构图中展示了典型的 R-Drop 结构模型：首先进行多次 dropout 策略处理（论文中使用了两次），然后采用新的损失函数来优化网络的输出预测。整个过程使得最终得到的模型不仅具有较高的准确率，而且在面对新数据时表现出色。总结通过巧妙地结合 Dropout 和 R-Drop 的策略，研究者成功地克服了深度神经网络过拟合的问题，并且进一步提高了模型在复杂任务中的表现能力。这是一个关于复杂问题简单化和解决方法创新的典范案例，展示了人工智能领域持续进化的重要推动力。

论文贡献

由于深度神经网络容易过拟合，因此 Dropout 方法采用了随机丢弃每层的部分神经元的方式，以此来防止在训练过程中出现过度拟合的问题。每次随机丢弃部分神经元导致生成的不同子模型，从而使得训练后的模型由多个子模型组成。基于这种特殊的随机性，研究员们提出了 R-Drop 算法，进一步对网络的输出进行了正则约束。

实现思路

与传统方法不同，如神经元（Dropout）或参数（DropConnect），R-Drop通过作用于模型的输出层来解决不一致性问题。简单来说，在每个mini-batch中，每个数据样本两次过同一个带有Dropout的模型，并使用KL散度约束两次输出的一致性。这样不仅弥补了Dropout在训练与测试中的不一致现象，还进一步确保了由于Dropout带来的随机子模型之间的输出一致性和稳定性。

论文公式

模型的训练目标包含两个部分，一个是两次输出之间的KL散度，如下：

另一个是模型自有的损失函数交叉熵，如下：

总损失函数为：

代码实现

相比于传统训练方法，R-Drop仅新增一个KL-Divergence损失项而无其它改动。其PaddlePaddle实现示例如下：损失计算公式和参数调参。

交叉熵=熵+相对熵(KL散度) 其与交叉熵的关系如下：

代码实现示意

import paddle.nn.functional as F # define your task model, which outputs the classifier logits model = TaskModel()def compute_kl_loss(self, p, q, pad_mask=None): p_loss = F.kl_div(F.log_softmax(p, axis=-1), F.softmax(q, axis=-1), reduction='none') q_loss = F.kl_div(F.log_softmax(q, axis=-1), F.softmax(p, axis=-1), reduction='none') # pad_mask is for seq-level tasks if pad_mask is not None: p_loss.masked_fill_(pad_mask, 0.) q_loss.masked_fill_(pad_mask, 0.) # You can choose whether to use function "sum" and "mean" depending on your task p_loss = p_loss.sum() q_loss = q_loss.sum() loss = (p_loss + q_loss) / 2 return loss # keep dropout and forward twice logits = model(x) logits2 = model(x) # cross entropy loss for classifier ce_loss = 0.5 * (cross_entropy_loss(logits, label) + cross_entropy_loss(logits2, label)) kl_loss = compute_kl_loss(logits, logits2)# 论文中对于CV任务的超参数 α = 0.6# carefully choose hyper-parameters loss = ce_loss + α * kl_loss登录后复制

代码实现实战

项目说明

这次实验以白菜生长的四个阶段为对象，进行了详细的生长状态分析。我们使用了来自科大讯飞比赛的数据，详细展示了发芽期、幼苗期、莲座期和结球期的变化情况。

In []

!cd 'data/data107306' && unzip -q img.zip!cd 'data/data106868' && unzip -q pdweights.zip登录后复制 In []

# 导入所需要的库from sklearn.utils import shuffleimport osimport pandas as pdimport numpy as npfrom PIL import Imageimport paddleimport paddle.nn as nnfrom paddle.io import Datasetimport paddle.vision.transforms as Timport paddle.nn.functional as Ffrom paddle.metric import Accuracyimport warnings warnings.filterwarnings("ignore")# 读取数据train_images = pd.read_csv('data/data107306/img/df_all.csv') train_images = shuffle(train_images)# 划分训练集和校验集all_size = len(train_images)# print(all_size)train_size = int(all_size * 0.9) train_image_list = train_images[:train_size] val_image_list = train_images[train_size:] train_image_path_list = train_image_list['image'].values label_list = train_image_list['label'].values train_label_list = paddle.to_tensor(label_list, dtype='int64') val_image_path_list = val_image_list['image'].values val_label_list1 = val_image_list['label'].values val_label_list = paddle.to_tensor(val_label_list1, dtype='int64')# 定义数据预处理data_transforms = T.Compose([ T.Resize(size=(256, 256)), T.Transpose(), # HWC -> CHW T.Normalize( mean = [0, 0, 0], std = [255, 255, 255], to_rgb=True) ])# 构建Datasetclass MyDataset(paddle.io.Dataset): """ 步骤一：继承paddle.io.Dataset类 """ def __init__(self, train_img_list, val_img_list,train_label_list,val_label_list, mode='train'): """ 步骤二：实现构造函数，定义数据读取方式，划分训练和测试数据集 """ super(MyDataset, self).__init__() self.img = [] self.label = [] self.valimg = [] self.vallabel = [] # 借助pandas读csv的库 self.train_images = train_img_list self.test_images = val_img_list self.train_label = train_label_list self.test_label = val_label_list # self.mode = mode if mode == 'train': # 读train_images的数据 for img,la in zip(self.train_images, self.train_label): self.img.append('data/data107306/img/imgV/'+img) self.label.append(la) else : # 读test_images的数据 for img,la in zip(self.test_images, self.test_label): self.img.append('data/data107306/img/imgV/'+img) self.label.append(la) def load_img(self, image_path): # 实际使用时使用Pillow相关库进行图片读取即可，这里我们对数据先做个模拟 image = Image.open(image_path).convert('RGB') image = np.array(image).astype('float32') return image def __getitem__(self, index): """ 步骤三：实现__getitem__方法，定义指定index时如何获取数据，并返回单条数据（训练数据，对应的标签） """ image = self.load_img(self.img[index]) label = self.label[index] return data_transforms(image), label def __len__(self): """ 步骤四：实现__len__方法，返回数据集总数目 """ return len(self.img)登录后复制 In []

#train_loadertrain_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='train') train_loader = paddle.io.DataLoader(train_dataset, places=paddle.CPUPlace(), batch_size=8, shuffle=True, num_workers=0)#val_loaderval_dataset = MyDataset(train_img_list=train_image_path_list, val_img_list=val_image_path_list, train_label_list=train_label_list, val_label_list=val_label_list, mode='test') val_loader = paddle.io.DataLoader(val_dataset, places=paddle.CPUPlace(), batch_size=8, shuffle=True, num_workers=0)登录后复制 In []

from work.senet154 import SE_ResNeXt50_vd_32x4dfrom work.res2net import Res2Net50_vd_26w_4sfrom work.se_resnet import SE_ResNet50_vd# 模型封装# model_re2 = SE_ResNeXt50_vd_32x4d(class_num=4)model_re2 = Res2Net50_vd_26w_4s(class_dim=4) model_ss = SE_ResNet50_vd(class_num=4) model_ss.train() model_re2.train() epochs = 2optim1 = paddle.optimizer.Adam(learning_rate=3e-4, parameters=model_re2.parameters()) optim2 = paddle.optimizer.Adam(learning_rate=3e-4, parameters=model_ss.parameters())登录后复制 In []

import paddle.nn.functional as Fdef compute_kl_loss(p, q, pad_mask=None): p_loss = F.kl_div(F.log_softmax(p, axis=-1), F.softmax(q, axis=-1), reduction='none') q_loss = F.kl_div(F.log_softmax(q, axis=-1), F.softmax(p, axis=-1), reduction='none') # pad_mask is for seq-level tasks if pad_mask is not None: p_loss.masked_fill_(pad_mask, 0.) q_loss.masked_fill_(pad_mask, 0.) # You can choose whether to use function "sum" and "mean" depending on your task p_loss = p_loss.sum() q_loss = q_loss.sum() loss = (p_loss + q_loss) / 2 return loss登录后复制 In [7]

# 用Adam作为优化函数for epoch in range(epochs): for batch_id, data in enumerate(train_loader()): x_data = data[0] y_data = data[1] predicts1 = model_re2(x_data) predicts2 = model_ss(x_data) loss1 = F.cross_entropy(predicts1, y_data, soft_label=False) loss2 = F.cross_entropy(predicts2, y_data, soft_label=False) # cross entropy loss for classifier ce_loss = 0.5 * (loss1 + loss2) kl_loss = compute_kl_loss(predicts1, predicts2) # 论文中对于CV任务的超参数 α = 0.6 # carefully choose hyper-parameters loss = ce_loss + α * kl_loss # 计算损失 acc1 = paddle.metric.accuracy(predicts1, y_data) acc2 = paddle.metric.accuracy(predicts2, y_data) loss.backward() if batch_id % 50 == 0: print("epoch: {}, batch_id: {}, loss1 is: {}".format(epoch, batch_id, loss.numpy())) optim1.step() optim1.clear_grad() optim2.step() optim2.clear_grad()登录后复制

以上就是R-Drop论文复现的详细内容，更多请关注其它相关文章！