模型训练用户帮助手册

一、简介

模型训练是AI开发的核心环节，通过算法从数据中学习规律，生成可预测或分类的模型。SCNet平台模型训练支持多机多卡的分布式训练，可自定义设置每个实例中加速卡数量，实现更自由的分布式训练。本手册将详细指导您如何利用平台功能，从创建训练任务到监控训练过程，再到查看训练结果，全面掌握模型训练的各项操作。

旧版模型训练暂时未下线，您可参考旧版模型训练进行任务提交。

二、模型训练流程

登录SCNet控制台，在左侧导航栏中选择“人工智能服务”下的“模型训练”，进入“模型训练”列表页面。在此页面，您可以查看所有历史训练任务，并创建新的训练任务。

1. 创建训练任务

点击“创建训练任务”按钮，进入训练任务配置页面。此页面允许您详细定义训练任务的各项参数，以满足不同的模型训练需求。

1.1 基础配置

名称：为您的训练任务命名，建议使用具有描述性的名称，以便后续识别和管理。
加速卡型号及加速卡：在此部分，您需要根据模型训练的需求选择合适的计算资源。平台支持多种加速卡型号和数量配置，以优化训练效率。

参数名称	说明
加速卡型号	选择用于模型训练的加速卡类型，例如：V100、A100等。不同型号的加速卡提供不同的计算能力。
每实例加速卡数量	选择本次训练任务使用的加速卡数量。增加加速卡数量可以加速训练过程，但也会增加资源消耗。
实例数	启动几个相同的实例

系统盘：平台提供50GB/实例免费系统盘容量,超过部分将被清理。
自动容错：开启"自动容错"功能可提高任务运行稳定性,提高训练成功率。
（1）节点故障导致作业异常:
- 系统将自动修复异常或隔离节点,并重启训练作业;
- 开启此功能前请确认代码已适配断点续训,具体请参考文档《设置断点续训》；
（2）代码等用户原因导致作业异常:
- 对异常任务不做任何处理,直接将任务标记为失败。
训练镜像：选择平台提供的“基础镜像”或自定义的“我的镜像”。基础镜像包含了模型训练所需的操作系统、深度学习框架、驱动等环境。
启动命令：输入启动训练任务的命令，可按需参考如下步骤:
（1）进入训练脚本所在目录,例如:cd/public/home/...
（2）模型训练框架对应启动脚本,例如:torchrun...
启动脚本在容器启动后生效，如果需要使用实例别名，可以查看常见问题-1.如何使用实例别名

1.2 高级配置

运行时限：任务运行一段时间后，自动停止任务。注意：根据实际需求打开改功能，避免训练任务未完成，被系统强制停止。
环境变量：在模型训练中，环境变量常用于传递敏感信息（如API密钥）或调整训练配置（如超参数、数据路径），提升灵活性和安全性。平台已预置分布式训练任务的多个环境变量，便于您在代码中直接使用，详情查看环境变量列表。
自定义挂载：根据实际需求，挂载文件管理E-File中的文件。文件在容器内的挂载路径为了防止系统冲突，请避免使用如：/root，/bin，/etc，/usr，/root/private_data，/root/group_data，/root/public_data等关键系统目录作为挂载路径。

仔细核对所有配置信息无误后，点击“创建”按钮。系统将开始为您调度资源，并启动训练任务。训练任务的状态将显示为“部署中”或“运行中”。

2. 查看训练任务列表

在“模型训练”列表页面，您可以查看到所有训练任务的概览信息，包括：

名称：训练任务的唯一标识。
状态：显示训练任务的当前状态，例如：运行中、已完成、失败、已停止等。
配置：显示训练任务所使用的主要配置信息，如加速卡型号、数量等。
创建时间：任务创建的具体时间。
操作：提供对训练任务进行管理的操作入口，如查看详情、停止、删除等。

3. 查看训练任务详情

点击训练任务列表中的任务名称，可以进入该任务的详情页面。详情页面提供了更详细的训练信息和监控数据，包括：

基础信息：显示任务的基本信息、资源使用情况。
高级配置：显示创建页中高级配置中所填信息。
实例列表：显示任务所产生的实例信息，包括状态、开始时间、结束时间、操作、日志（容器日志）。
调度事件：查看该任务在系统调度时产生的日志。
监控详情：查看CPU、内存、加速卡、Network速率等使用情况的实时监控图表，帮助您掌握资源消耗情况。
容错事件：开启容错后，可查看容错事件详细信息。

三、模型训练功能管理

1.SSH

对于正在“运行中”的任务，可以通过点击SSH，使用平台Web--shell进入容器中。

2.停止

在训练任务列表页面，找到需要停止的任务，点击“操作”列下的“停止”按钮。系统将停止该训练任务的运行，并释放占用的计算资源。

多选运行中的任务时，点击“停止”按钮，即可批量停止训练任务。

3. 删除

在训练任务列表页面，找到需要删除的任务，点击“操作”列下的“删除”按钮。请注意，删除任务将同时删除任务的所有相关记录和输出文件，请谨慎操作。

多选非“运行中”的任务时，点击“删除”按钮，即可批量删除所选任务。

4. 克隆

对于已完成或失败的训练任务，您可以选择重新运行。在任务详情页面或列表页的操作中，点击“重新运行”按钮。系统将使用相同的配置重新启动一个新的训练任务。

四、常见问题

训练任务长时间处于“排队中”状态？
- 可能是资源不足，请检查当前可用资源或稍后重试。
- 检查您的训练镜像是否正确，或是否存在网络问题导致镜像拉取失败。
训练任务失败，如何排查？
- 查看任务详情页的“日志”部分，通常会包含详细的错误信息。
- 检查您的训练代码是否存在bug，或启动命令是否正确。
- 确认输入数据路径和输出路径是否可访问且权限正确。
如何优化训练速度？
- 尝试增加加速卡数量或选择更高性能的加速卡型号。
- 优化您的训练代码，例如使用更高效的数据加载方式、调整批处理大小等。
- 检查数据集大小和模型复杂度，合理分配资源。

新手指南

提交作业

进阶指南

命令行专区

软件专区

使用指导

CAE仿真

科学计算

最佳实践

名词解释

Notebook

Notebook快速使用

Notebook功能介绍

模型训练

最佳实践

附录

商品使用

购买商品

商家手册

商品发布操作指导

模型库

数据集

应用空间

用户协议

费用管理

模型训练用户帮助手册

一、简介

二、模型训练流程

1. 创建训练任务

2. 查看训练任务列表

3. 查看训练任务详情

三、模型训练功能管理

1.SSH

2.停止

3. 删除

4. 克隆

四、常见问题

提交作业

使用指导

CAE仿真

科学计算

最佳实践

Notebook快速使用

Notebook功能介绍

购买商品

模型训练用户帮助手册 ​

一、简介 ​

二、模型训练流程 ​

1. 创建训练任务 ​

2. 查看训练任务列表 ​

3. 查看训练任务详情 ​

三、模型训练功能管理 ​

1.SSH ​

2.停止 ​

3. 删除 ​

4. 克隆 ​

四、常见问题 ​

模型训练用户帮助手册

一、简介

二、模型训练流程

1. 创建训练任务

2. 查看训练任务列表

3. 查看训练任务详情

三、模型训练功能管理

1.SSH

2.停止

3. 删除

4. 克隆

四、常见问题