人工智能服务
>
模型训练
模型训练是AI开发的核心环节,通过算法从数据中学习规律,生成可预测或分类的模型。SCNet平台模型训练支持多机多卡的分布式训练,可自定义设置每个实例中加速卡数量,实现更自由的分布式训练。本手册将详细指导您如何利用平台功能,从创建训练任务到监控训练过程,再到查看训练结果,全面掌握模型训练的各项操作。
旧版模型训练暂时未下线,您可参考旧版模型训练进行任务提交。
登录SCNet控制台,在左侧导航栏中选择“人工智能服务”下的“模型训练”,进入“模型训练”列表页面。在此页面,您可以查看所有历史训练任务,并创建新的训练任务。
点击“创建训练任务”按钮,进入训练任务配置页面。此页面允许您详细定义训练任务的各项参数,以满足不同的模型训练需求。
1.1 基础配置
参数名称 | 说明 |
---|---|
加速卡型号 | 选择用于模型训练的加速卡类型,例如:V100、A100等。不同型号的加速卡提供不同的计算能力。 |
每实例加速卡数量 | 选择本次训练任务使用的加速卡数量。增加加速卡数量可以加速训练过程,但也会增加资源消耗。 |
实例数 | 启动几个相同的实例 |
系统盘:平台提供50GB/实例免费系统盘容量,超过部分将被清理。
自动容错:开启"自动容错"功能可提高任务运行稳定性,提高训练成功率。
(1)节点故障导致作业异常:
(2)代码等用户原因导致作业异常:
训练镜像:选择平台提供的“基础镜像”或自定义的“我的镜像”。基础镜像包含了模型训练所需的操作系统、深度学习框架、驱动等环境。
启动命令:输入启动训练任务的命令,可按需参考如下步骤:
(1)进入训练脚本所在目录,例如:cd/public/home/...
(2)模型训练框架对应启动脚本,例如:torchrun...
启动脚本在容器启动后生效,如果需要使用实例别名,可以查看常见问题-1.如何使用实例别名
1.2 高级配置
运行时限:任务运行一段时间后,自动停止任务。注意:根据实际需求打开改功能,避免训练任务未完成,被系统强制停止。
环境变量:在模型训练中,环境变量常用于传递敏感信息(如API密钥)或调整训练配置(如超参数、数据路径),提升灵活性和安全性。平台已预置分布式训练任务的多个环境变量,便于您在代码中直接使用,详情查看环境变量列表。
自定义挂载:根据实际需求,挂载文件管理E-File中的文件。文件在容器内的挂载路径为了防止系统冲突,请避免使用如:/root,/bin,/etc,/usr,/root/private_data,/root/group_data,/root/public_data等关键系统目录作为挂载路径。
仔细核对所有配置信息无误后,点击“创建”按钮。系统将开始为您调度资源,并启动训练任务。训练任务的状态将显示为“部署中”或“运行中”。
在“模型训练”列表页面,您可以查看到所有训练任务的概览信息,包括:
点击训练任务列表中的任务名称,可以进入该任务的详情页面。详情页面提供了更详细的训练信息和监控数据,包括:
基础信息:显示任务的基本信息、资源使用情况。
高级配置:显示创建页中高级配置中所填信息。
实例列表:显示任务所产生的实例信息,包括状态、开始时间、结束时间、操作、日志(容器日志)。
调度事件:查看该任务在系统调度时产生的日志。
监控详情:查看CPU、内存、加速卡、Network速率等使用情况的实时监控图表,帮助您掌握资源消耗情况。
容错事件:开启容错后,可查看容错事件详细信息。
对于正在“运行中”的任务,可以通过点击SSH,使用平台Web--shell进入容器中。
在训练任务列表页面,找到需要停止的任务,点击“操作”列下的“停止”按钮。系统将停止该训练任务的运行,并释放占用的计算资源。
多选运行中的任务时,点击“停止”按钮,即可批量停止训练任务。
在训练任务列表页面,找到需要删除的任务,点击“操作”列下的“删除”按钮。请注意,删除任务将同时删除任务的所有相关记录和输出文件,请谨慎操作。
多选非“运行中”的任务时,点击“删除”按钮,即可批量删除所选任务。
对于已完成或失败的训练任务,您可以选择重新运行。在任务详情页面或列表页的操作中,点击“重新运行”按钮。系统将使用相同的配置重新启动一个新的训练任务。