模块划分
项目管理
我的项目
新建项目
步骤1、点击新建项目,根据新建项目弹窗进行信息填写名称、描述、选择任务类型、选着工作路径后创建。
步骤2、创建后选择数据集,这里的数据选项在数据集管理/我的数据集模块中创建,选择完成后即点击下一步,该处提供了对数据集的预览按钮,点击查看即可。
步骤3、进行参数配置,参数配置完成后即可点击启动训练。
该处其他参数可根据解释进行配置,其中注意**批大小(batch size)**需要根据宿主机实际硬件条件进行配置,此前测试出现过参数值太大但硬件条件不够导致训练失败的情况。
启动训练后该界面会对训练进度的各项参数和日志进行监测。
而且paddleX集成了VisualDL,可对训练过程数据进行图形化渲染展示。
步骤4、模型评估
- 对刚才的模型训练的各项参数进行图像化、表格化的评估。
- 进行测试,此处可使用数据集之外的数据进行对模型的测试,检验该模型的可靠性。
可根据下方截图看到:选择一张照片输入刚才训练的模型,得出的判断是该照片类别属于hy(合影),此处也是对图片分类所使用的数据集进行的类别划分,具体定义可以看下一章数据集管理
步骤5、模型发布
发布后即可在模型管理/已发布模型中进行查看。
全部项目
该界面展示的是所有项目数据,每条数据栏下有查看和删除两个按钮
查看:查看该项目详情。
删除:删除该项目
项目详情
项目详情展示的是该项目下所执行的任务,并对这些任务可以进行查看、删除、打开目录等操作。
查看:对该任务进行详情查看,查看该任务使用的数据源、模型、设置的各项参数、训练情况、训练结果等等。
删除:删除该任务
打开目录:打开存储该任务的磁盘路径。
新建任务
点击新建任务按钮可以在沿用该项目原有数据集及配置,可做修改的创建新的任务,然后开始训练。
下载样例项目
飞桨提供了样例项目下载,其中包含项目数据,数据集数据等整套可直接使用的项目样例。
位置在右上角设置/下载样例工程
我的任务
该处展示的所有项目下的所有任务信息。
数据集管理
我的数据集
新建数据集
步骤1:新建数据集
和新建项目第一步雷同,填写相关信息,选择数据集类型即可。
步骤2、数据集导入
- 数据集数据的四种格式在界面右侧的数据集导入规则说明都写的很详细,按要求准备数据即可。
- 数据集来源,当前测试案例是在网上下载的资源包,然后进行手动分类。目前暂时未找到即下即用的资源包。
- 按数据集导入规则创建资源文件夹完毕后选择该路径,点击导入。
步骤3、资源校对通过后,即进入该界面对资源进行预览。
步骤4、看上图数据分析模块下提示到:先进行数据切分,未切分无法进行训练。、
切分后将资源分为三部分:训练集、测试集、验证集。
故名思意,这三部分数据分别用作模型训练、模型测试、模型验证三个环境,而且训练集一定是占比最多的。
为什么要切分而不是用同一数据集呢,粗暴来讲:防止paddlex骗人,防止他只是记住了分类,而不是学会了分类。
步骤5、那么此时,该数据集即可在新建项目时进行使用。
数据集导入规则
数据结构
数据集的数据结构必须符合导入规则
- 图像分类
这个是最简单的划分,不需要任何标注,简单来讲,创建一个文件夹,然后在该文件夹下创建不同类别的文件夹,分别存放不同类别的图片文件。
比如我们测试程序中的数据集类别是hy(合影)和yd(运动)
那么就分别在两个文件夹中存放合影和运动相关的照片,组成数据集然后去训练模型。当进行测试模型的时候就输入一张照片,让模型告诉你这张照片属于是合影呢还是运动的。
标注
标注是什么呢?为什么图像分类就不需要标注?
拿目标检测举例,对一张图片进行目标检测,交给模型训练学习,那么你得告诉模型这张图片的目标是谁,所以就需要对图片进行标注,所以这也就是为什么每一张图片都要和标注文件一一对应。
但图片分类不需要,他是对图片整体的划分,不是对图片上某个目标进行划分。
- 目标检测
- 语义分割
- 实例分割
数据集详情
该处展示的是所有数据集的数据,显示状态、校验未通过的数据集可以继续导入、通过的数据集可以进行查看、删除按钮。
模型管理
已发布模型
该处显示,在新建项目过程中完成训练并发布的模型数据。
提供了详情、打开文件夹、删除的功能。
模型详情
展示该模型在训练过程中的各项表现数据和基础信息等。
预训练模型
该处显示,在新建项目中进行了模型训练评估,并保存了预训练模型的模型数据
提供了详情、打开文件夹、删除的功能。展示内容和已发布模型雷同。