Skip to content

模型训练用户帮助手册

一、简介

模型训练是AI开发的核心环节,通过算法从数据中学习规律,生成可预测或分类的模型。SCNet平台模型训练支持多机多卡的分布式训练,可自定义设置每个实例中加速卡数量,实现更自由的分布式训练。本手册将详细指导您如何利用平台功能,从创建训练任务到监控训练过程,再到查看训练结果,全面掌握模型训练的各项操作。

旧版模型训练暂时未下线,您可参考旧版模型训练进行任务提交。

二、模型训练流程

登录SCNet控制台,在左侧导航栏中选择“人工智能服务”下的“模型训练”,进入“模型训练”列表页面。在此页面,您可以查看所有历史训练任务,并创建新的训练任务。

1. 创建训练任务

点击“创建训练任务”按钮,进入训练任务配置页面。此页面允许您详细定义训练任务的各项参数,以满足不同的模型训练需求。

1.1 基础配置

  • 名称:为您的训练任务命名,建议使用具有描述性的名称,以便后续识别和管理。
  • 加速卡型号及加速卡:在此部分,您需要根据模型训练的需求选择合适的计算资源。平台支持多种加速卡型号和数量配置,以优化训练效率。
参数名称说明
加速卡型号选择用于模型训练的加速卡类型,例如:V100、A100等。不同型号的加速卡提供不同的计算能力。
每实例加速卡数量选择本次训练任务使用的加速卡数量。增加加速卡数量可以加速训练过程,但也会增加资源消耗。
实例数启动几个相同的实例
  • 系统盘:平台提供50GB/实例免费系统盘容量,超过部分将被清理。

  • 自动容错:开启"自动容错"功能可提高任务运行稳定性,提高训练成功率。

    (1)节点故障导致作业异常:

    • 系统将自动修复异常或隔离节点,并重启训练作业;
    • 开启此功能前请确认代码已适配断点续训,具体请参考文档《设置断点续训》

    (2)代码等用户原因导致作业异常:

    • 对异常任务不做任何处理,直接将任务标记为失败。
  • 训练镜像:选择平台提供的“基础镜像”或自定义的“我的镜像”。基础镜像包含了模型训练所需的操作系统、深度学习框架、驱动等环境。

  • 启动命令:输入启动训练任务的命令,可按需参考如下步骤:

    (1)进入训练脚本所在目录,例如:cd/public/home/...

    (2)模型训练框架对应启动脚本,例如:torchrun...

    启动脚本在容器启动后生效,如果需要使用实例别名,可以查看常见问题-1.如何使用实例别名

1.2 高级配置

  • 运行时限:任务运行一段时间后,自动停止任务。注意:根据实际需求打开改功能,避免训练任务未完成,被系统强制停止。

  • 环境变量:在模型训练中,环境变量常用于传递敏感信息(如API密钥)或调整训练配置(如超参数、数据路径),提升灵活性和安全性。平台已预置分布式训练任务的多个环境变量,便于您在代码中直接使用,详情查看环境变量列表

  • 自定义挂载:根据实际需求,挂载文件管理E-File中的文件。文件在容器内的挂载路径为了防止系统冲突,请避免使用如:/root,/bin,/etc,/usr,/root/private_data,/root/group_data,/root/public_data等关键系统目录作为挂载路径。

仔细核对所有配置信息无误后,点击“创建”按钮。系统将开始为您调度资源,并启动训练任务。训练任务的状态将显示为“部署中”或“运行中”。

2. 查看训练任务列表

在“模型训练”列表页面,您可以查看到所有训练任务的概览信息,包括:

  • 名称:训练任务的唯一标识。
  • 状态:显示训练任务的当前状态,例如:运行中、已完成、失败、已停止等。
  • 配置:显示训练任务所使用的主要配置信息,如加速卡型号、数量等。
  • 创建时间:任务创建的具体时间。
  • 操作:提供对训练任务进行管理的操作入口,如查看详情、停止、删除等。

3. 查看训练任务详情

点击训练任务列表中的任务名称,可以进入该任务的详情页面。详情页面提供了更详细的训练信息和监控数据,包括:

  • 基础信息:显示任务的基本信息、资源使用情况。

  • 高级配置:显示创建页中高级配置中所填信息。

  • 实例列表:显示任务所产生的实例信息,包括状态、开始时间、结束时间、操作、日志(容器日志)。

  • 调度事件:查看该任务在系统调度时产生的日志。

  • 监控详情:查看CPU、内存、加速卡、Network速率等使用情况的实时监控图表,帮助您掌握资源消耗情况。

  • 容错事件:开启容错后,可查看容错事件详细信息。

三、模型训练功能管理

1.SSH

对于正在“运行中”的任务,可以通过点击SSH,使用平台Web--shell进入容器中。

2.停止

在训练任务列表页面,找到需要停止的任务,点击“操作”列下的“停止”按钮。系统将停止该训练任务的运行,并释放占用的计算资源。

多选运行中的任务时,点击“停止”按钮,即可批量停止训练任务。

3. 删除

在训练任务列表页面,找到需要删除的任务,点击“操作”列下的“删除”按钮。请注意,删除任务将同时删除任务的所有相关记录和输出文件,请谨慎操作。

多选非“运行中”的任务时,点击“删除”按钮,即可批量删除所选任务。

4. 克隆

对于已完成或失败的训练任务,您可以选择重新运行。在任务详情页面或列表页的操作中,点击“重新运行”按钮。系统将使用相同的配置重新启动一个新的训练任务。

四、常见问题

  • 训练任务长时间处于“排队中”状态?
    • 可能是资源不足,请检查当前可用资源或稍后重试。
    • 检查您的训练镜像是否正确,或是否存在网络问题导致镜像拉取失败。
  • 训练任务失败,如何排查?
    • 查看任务详情页的“日志”部分,通常会包含详细的错误信息。
    • 检查您的训练代码是否存在bug,或启动命令是否正确。
    • 确认输入数据路径和输出路径是否可访问且权限正确。
  • 如何优化训练速度?
    • 尝试增加加速卡数量或选择更高性能的加速卡型号。
    • 优化您的训练代码,例如使用更高效的数据加载方式、调整批处理大小等。
    • 检查数据集大小和模型复杂度,合理分配资源。