智能保存 · 快速恢复 · 稳定训练
Checkpoint 工具是一种用于在机器学习或深度学习训练过程中定期保存模型状态(包括权重、优化器状态、当前轮次等)的实用程序。 它允许你在训练中断后从中断点继续训练,避免从头开始,节省大量时间和计算资源。
按指定步数或周期自动保存模型快照。
训练意外中断后可无缝恢复,不丢失进度。
支持保留多个历史版本,便于回溯与对比。
低开销设计,不影响训练性能。
以下是一个使用 PyTorch 的简单 checkpoint 保存与加载示例:
// 保存 checkpoint
torch.save({
'epoch': epoch,
'model_state_dict': model.state_dict(),
'optimizer_state_dict': optimizer.state_dict(),
'loss': loss,
}, 'checkpoint.pth')
// 加载 checkpoint
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']