深度炼丹如同炖排骨一般,需要先大火全局加热,紧接着中火炖出营养,最后转小火收汁。
本文给出炼丹中的 “火候控制器”-- 学习率的几种调节方法,框架基于 pytorch
1. 自定义根据 epoch 改变学习率。
这种方法在开源代码中常见,此处引用 pytorch 官方实例中的代码 adjust_lr
def adjust_learning_rate(optimizer, epoch):
"""Sets the learning rate to the initial LR decayed by 10 every 30 epochs"""
lr = args.lr * (0.1 ** (epoch // 30))
for param_group in optimizer.param_groups:
param_group['lr'] = lr
注释:在调用此函数时需要输入所用的 optimizer 以及对应的 epoch ,并且 args.lr 作为初始化的学习率也需要给出。
使用代码示例:
optimizer = torch.optim.SGD(model.parameters(),lr = args.lr,momentum = 0.9)
for epoch in range(10):
adjust_learning_rate(optimizer,epoch)
train(...)
validate(...)
2. 针对模型的不同层设置不同的学习率
当我们在使用预训练的模型时,需要对分类层进行单独修改并进行初始化,其他层的参数采用预训练的模型参数进行初始化,这个时候我们希望在进行训练过程中,除分类层以外的层只进行微调,不需要过多改变参数,因此需要设置较小的学习率。而改正后的分类层则需要以较大的步子去收敛,学习率往往要设置大一点以 resnet101 为例,分层设置学习率。
model = torchvision.models.resnet101(pretrained=True)
large_lr_layers = list(map(id,model.fc.parameters()))
small_lr_layers = filter(lambda p:id(p) not in large_lr_layers,model.parameters())
optimizer = torch.optim.SGD([
{"params":large_lr_layers},
{"params":small_lr_layers,"lr":1e-4}
],lr = 1e-2,momenum=0.9)
注:large_lr_layers 学习率为 1e-2,small_lr_layers 学习率为 1e-4,两部分参数共用一个 momenum
3. 根据具体需要改变 lr
以前使用 keras 的时候比较喜欢 ReduceLROnPlateau 可以根据 损失或者 准确度的变化来改变 lr。最近发现 pytorch 也实现了这一个功能。
class torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)
以 acc 为例,当 mode 设置为 “max” 时,如果 acc 在给定 patience 内没有提升,则以 factor 的倍率降低 lr。
使用方法示例:
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
scheduler = ReduceLROnPlateau(optimizer, 'max',verbose=1,patience=3)
for epoch in range(10):
train(...)
val_acc = validate(...)
# 降低学习率需要在给出 val_acc 之后
scheduler.step(val_acc)
4. 手动设置 lr 衰减区间
使用方法示例
def adjust_learning_rate(optimizer, lr):
for param_group in optimizer.param_groups:
param_group['lr'] = lr
for epoch in range(60):
lr = 30e-5
if epoch > 25:
lr = 15e-5
if epoch > 30:
lr = 7.5e-5
if epoch > 35:
lr = 3e-5
if epoch > 40:
lr = 1e-5
adjust_learning_rate(optimizer, lr)
5. 余弦退火
论文: SGDR: Stochastic Gradient Descent with Warm Restarts
使用方法示例
epochs = 60
optimizer = optim.SGD(model.parameters(),lr = config.lr,momentum=0.9,weight_decay=1e-4)
scheduler = lr_scheduler.CosineAnnealingLR(optimizer,T_max = (epochs // 9) + 1)
for epoch in range(epochs):
scheduler.step(epoch)
目前最常用的也就这么多了,当然也有很多其他类别,详情见 how-to-adjust-learning-rate
相关推荐
例如,Adam通常被认为在很多情况下表现良好,因为它结合了动量和自适应学习率调整。 通过这个压缩包的学习,初学者不仅可以掌握PyTorch的基本用法,还能了解深度学习模型的构建和训练流程。从Tensor的创建到模型的...
你将了解梯度下降的工作原理,包括学习率的调整和损失函数的概念,这些对于训练模型至关重要。 在Lecture 04_ Back-propagation and Autograd中,重点是反向传播和自动求导机制。PyTorch的Autograd模块使得自动计算...
6. **优化器**:PyTorch提供了多种优化器,如SGD(随机梯度下降)、Adam等,用于调整学习率和控制梯度更新,以找到最优的模型参数。 7. **源数据格式**:从数据片段看,数据集包含`user_id`和`movie_id`两列,以及...
在训练过程中,我们要注意模型的收敛情况,通过调整学习率、批次大小和训练轮数来优化模型性能。此外,还可以引入权重初始化、批量归一化、残差连接等技巧,帮助模型更快地收敛并减少过拟合。 测试阶段,我们可以将...
可能需要调整学习率策略、正则化方法和批量大小以达到最佳性能。 **9. 结果评估** 通过准确率、召回率、F1分数等指标评估模型的预测性能。此外,可能需要进行敏感性和特异性分析,了解模型在不同疾病严重程度上的...
learning_rate = 0.0003 # 学习率 model_name = 'lstm' # 模型名称 save_path = './{}.pth'.format(model_name) # 最优模型保存路径 ``` 这些参数设置是模型训练的基础,例如`hidden_size`定义了LSTM单元内部...
5. 微调模型:在顶层参数基本适应新任务后,有时我们会选择解冻部分底层网络参数,并使用较低的学习率进行微调。这一步可以通过进一步训练来提升模型在新数据集上的性能。 6. 评估模型:使用测试集评估训练好的模型...
优化器如`torch.optim.Adam`可以被用来自动调整学习率。 6. **验证与评估**: 为了防止过拟合,通常会划分训练集和验证集。在训练过程中,模型会在验证集上定期评估性能,如计算预测与真实值之间的误差。此外,还...
4. **配置文件**:`config`目录包含了各种配置文件,用于设置模型参数、学习率策略、损失函数等,这些配置文件可以灵活调整以适应不同的应用场景和硬件环境。 5. **损失函数**:在`loss`目录下,定义了用于训练的...
3. 模型优化:调整模型参数,如学习率、损失函数等,以提高检测和识别的准确性。 4. 推理模块:将训练好的模型部署到实际应用中,对新输入的图像进行实时检测和识别。 5. 后处理:对检测结果进行校验和优化,如去除...
- **模型优化**:调整学习率、优化器参数等,以找到最佳的训练策略。 - **硬件资源**:由于FaceNet需要大量的计算资源,因此在GPU上进行训练会更有效率。 - **模型量化和部署**:为了在移动端或低功耗设备上使用,...
在神经网络中,有许多超参数需要调整,如学习率、批次大小、隐藏层大小等。贝叶斯优化通过构建概率模型来预测不同超参数组合的效果,并选择最有潜力的组合进行评估,从而高效地探索参数空间。 在这个项目中,我们...
Pytorch是Facebook开源的一个深度学习平台,以其动态计算图和易用性而受到广大开发者喜爱。使用Pytorch,我们可以方便地构建、训练和优化神经网络模型。在这个项目中,可能使用的模型结构包括卷积神经网络(CNN)和...
6. **训练策略**:探讨训练GAN时的技巧,如逐步训练、权重初始化、学习率调整和对抗训练策略。 7. **模型评估**:学习如何评估GAN生成的样本质量,可能包括主观视觉检查、Inception Score、FID Score等指标。 8. *...
此外,学习率的调整对于模型收敛速度和最终性能有显著影响。 在训练结束后,我们通过分析模型在训练集和验证集上的表现,来评估模型的性能。通常我们会记录下每个epoch训练和验证的损失值和准确率,并绘制成折线图...
根据评估结果,可以调整模型参数、学习率或超参数以优化性能。 10. **结果提交**: 最后,参赛者将在测试集上运行经过优化的模型,并按照比赛规定提交预测结果,以参与最终的排名。 总的来说,这个项目涵盖了NLP的...
内容概要:本文详细介绍了使用深度神经网络(DNN)预测美国各州COVID-19新确诊病例率的任务。实验数据来自CMU的Delphi小组,数据包括过去三天的调查结果,涵盖状态编码、症状、行为指标、心理健康指标等多个特征。...
5. 模型构建与训练:`OS_ELM.py`是OS-ELM的Python实现,可能包含了定义网络结构、设置学习率、训练过程等代码。理解这个脚本如何将输入数据映射到输出结果,并在新样本到来时进行更新,是学习的重点。 6. 评估与...
8. **超参数调优**:学习如何调整学习率、探索率、批量大小等超参数以优化模型性能。 9. **最新进展**:了解强化学习的最新研究,如Model-Based Reinforcement Learning、Attention机制在RL中的应用等。 10. **...
这个项目可能还包括日志记录、可视化工具(如 TensorBoard)的使用,以及可能的超参数调整,例如学习率调度。通过理解和实践这些知识点,你可以深入了解和掌握使用 PyTorch 进行图像分类的基本流程。