简体中文 | English
目录
- 简介
- 最新消息
- 技术交流
- 3D智能标注EISeg-Med3D
- MedicalSeg模型性能
- 快速在肺部数据上开始
- 完整教程
- 在自己的数据上训练
- 代码结构
- TODO
- License
- 致谢
医疗图像分割是对医疗成像生成的图像进行逐像素/体素的分类工作,进而区分不同器官/组织,在医疗诊断和治疗规划中具有广泛应用需求。
通常而言,医疗图像分割可以分为2D医疗图像分割和3D医疗图像分割。对于2D医疗图像分割,大家可以直接使用PaddleSeg提供的通用语义分割能力,示例请参考眼底数据分割。对于3D医疗图像分割,我们提供 MedicalSeg 方案进行专门支持。
MedicalSeg 是一个简易、强大、全流程的 3D 医学图像分割方案,支持从数据处理、模型训练、模型评估和模型部署的全套流程。
MedicalSeg 全景图如下,其主要特性包括:
- 包含了从数据标注、训练、部署的全流程医疗影像分割流程调用接口。
- 涵盖医疗影像3D职能标注平台EISeg-Med3D,实现标注的高效、准确、好用。
- 支持六大前沿模型nnUNet、nnFormer、SwinUNet、TransUNet、UNETR、VNet,七大数据集,以及对应的高精度预训练模型。
MedicalSeg 模型预测可视化效果如下。
- [2022-11] 发布3D医疗影像分割方案MedicalSegV2
- 新增3D医疗影像交互式标注工具 EISeg-Med3D,方便快捷地实现精准3D医疗图像标注。
- 新增3个前沿3D医疗图像分割模型,nnFormer, TransUNet, SwinUNet,实现更精准的分割效果,而且支持全流程部署应用。
- 新增高精度分割方案nnUNet-D,涵盖数据分析、超参优化、模型构建、模型训练、模型融合等模块,而且新增模型部署的能力。
- [2022-4] 发布3D医疗影像分割方案MedicalSegV1
- 提供了3D医疗图像分割中的数据预处理到到训练部署全流程,包含了对五个数据集的原生支持,以及椎骨和肺部上的高精度预训练模型。
- 如果大家有使用问题和功能建议, 可以通过GitHub Issues提issue。
- 欢迎加入PaddleSeg的微信用户群👫(扫码填写简单问卷即可入群),大家可以领取30G重磅学习大礼包🎁,也可以和值班同学、各界大佬直接进行交流。
- 🔥 获取深度学习视频教程、图像分割论文合集
- 🔥 获取PaddleSeg的历次直播视频,最新发版信息和直播动态
- 🔥 获取PaddleSeg自建的人像分割数据集,整理的开源数据集
- 🔥 获取PaddleSeg在垂类场景的预训练模型和应用合集,涵盖人像分割、交互式分割等等
- 🔥 获取PaddleSeg的全流程产业实操范例,包括质检缺陷分割、抠图Matting、道路分割等等
为了解决3D医疗手工标注效率低下的问题,并从数据标注开始真正全流程用AI赋能医疗,我们基于医疗软件 Slicer 搭建了EISeg-Med3D。
EISeg-Med3D是一个专注用户友好、高效、智能的3D医疗图像标注平台,通过在标注过程中融入3D交互式分割模型实现3D医疗数据标注的智能化高效化,其主要特性如下:
-
高效:每个类别只需数次点击直接生成3d分割结果,从此告别费时费力的手工标注。
-
准确:点击 3 点 mIOU 即可达到0.85,配合搭载机器学习算法和手动标注的标注编辑器,精度 100% 不是梦。
-
便捷:三步轻松安装;标注结果、进度自动保存;标注结果透明度调整提升标注准确度;用户友好的界面交互,让你标注省心不麻烦。
EISeg-Med3D详细的使用文档,请参考链接。
MedicalSeg支持nnUNet、nnFormer、SwinUNet、TransUNet等前沿3D医疗图像分割模型,并均在分割精度上不同程度上超越了原论文,其中复现的TransUNet精度超越原论文3.6%,在多器官数据集Synapse上达到了81.8%的mDice分割精度。
下面我们以表格的形式展示了我们已有的模型、预训练模型参数和精度,欢迎下载日志以查看结果或加载预训练模型用于相关数据集上的训练效果提升:)。
模型 | 分割对象 | 数据集 | mDice | 说明文档 | 链接 |
---|---|---|---|---|---|
nnFormer | 心脏 | ACDC | 91.8% | README | model | log| vdl |
Vnet | 肺部 | COVID-19 CT scans | 97.0% | README | model | log | vdl |
nnUNet | 肺肿瘤 | MSD-Lung | 67.9% | README | model | log |
Vnet | 椎骨 | MRISpineSeg | 74.7% | README | model | log | vdl |
UNETR | 脑肿瘤 | MSD-brain | 71.8% | README | model | log | vdl |
SwinUNet | 多器官 | Synapse | 82.1% | README | model | log | vdl |
TransUNet | 多器官 | Synapse | 81.1% | README | model | log | vdl |
我们使用 CuPy 在数据预处理中添加 GPU 加速。与 CPU 上的预处理数据相比,加速使我们在数据预处理中使用的时间减少了大约 40%。下面显示了加速前后,我们花在处理 COVID-19 CT scans 数据集预处理上的时间。
设备 | 时间(s) |
---|---|
CPU | 50.7 |
GPU | 31.4( ↓ 38%) |
这一部部分我们展示了一个快速在 COVID-19 CT scans 数据集上训练的例子,这个例子同样可以在我们的Aistudio 项目中找到。详细的训练部署,以及在自己数据集上训练的步骤可以参考这个教程。
-
下载仓库:
git clone https://github.com/PaddlePaddle/PaddleSeg.git cd contrib/MedicalSeg/
-
安装需要的库:
pip install -r requirements.txt
-
(可选) 如果需要GPU加速,则可以参考教程 安装 CuPY。
-
一键数据预处理。如果不是准备肺部数据,可以在这个目录下,替换你需要的其他数据:
- 如果你安装了CuPY并且想要 GPU 加速,修改这里的 use_gpu 配置为 True。
python tools/prepare_lung_coronavirus.py
-
基于脚本进行训练、评估、部署: (参考教程来了解详细的脚本内容。)
sh run-vnet.sh
这一部分,我们将会介绍参数配置、训练、评估、部署部分的完整内容。
配置文件的结构如下所示:
├── _base_ # 一级基础配置,后面所有的二级配置都需要继承它,你可以在这里设置自定义的数据路径,确保它有足够的空间来存储数据。
│ └── global_configs.yml
├── lung_coronavirus # 每个数据集/器官有个独立的文件夹,这里是 COVID-19 CT scans 数据集的路径。
│ ├── lung_coronavirus.yml # 二级配置,继承一级配置,关于损失、数据、优化器等配置在这里。
│ ├── README.md
│ └── vnet_lung_coronavirus_128_128_128_15k.yml # 三级配置,关于模型的配置,不同的模型可以轻松拥有相同的二级配置。
└── schedulers # 用于规划两阶段的配置,暂时还没有使用它。
└── two_stage_coarseseg_fineseg.yml
我们使用数据准备脚本来进行一键自动化的数据下载、预处理变换、和数据集切分。只需要运行下面的脚本就可以一键准备好数据:
python tools/prepare_lung_coronavirus.py # 以 CONVID-19 CT scans 为例。
准备好配置之后,只需要一键运行 run-vnet.sh 就可以进行训练和评估。
run-vnet.sh脚本具体内容如下。该示例使用VNet模型进行演示,也支持修改并使用上述模型库中的其他模型进行训练和评估。
# 设置使用的单卡 GPU id
export CUDA_VISIBLE_DEVICES=0
# 设置配置文件名称和保存路径
yml=vnet_lung_coronavirus_128_128_128_15k
save_dir=saved_model/${yml}
mkdir save_dir
# 训练模型
python3 train.py --config configs/lung_coronavirus/${yml}.yml \
--save_dir $save_dir \
--save_interval 500 --log_iters 100 \
--num_workers 6 --do_eval --use_vdl \
--keep_checkpoint_max 5 --seed 0 >> $save_dir/train.log
# 评估模型
python3 val.py --config configs/lung_coronavirus/${yml}.yml \
--save_dir $save_dir/best_model --model_path $save_dir/best_model/model.pdparams
得到训练好的模型之后,我们可以将它导出为静态图来进行推理加速,下面的步骤就可以进行导出和部署,详细的python教程则可以参部署考这里, c++部署教程可以参考这里:
cd MedicalSeg/
# 用训练好的模型进行静态图导出
python export.py --config configs/lung_coronavirus/vnet_lung_coronavirus_128_128_128_15k.yml --model_path /path/to/your/trained/model
# 使用 Paddle Inference 进行推理
python deploy/python/infer.py \
--config /path/to/model/deploy.yaml \
--image_path /path/to/image/path/or/dir/
--benchmark True # 在安装了 AutoLog 之后,打开benchmark可以看到推理速度等信息,安装方法可以见 ../deploy/python/README.md
如果有“Finish” 输出,说明导出成功,并且可以进行推理加速。
如果你想要定制化地针对自己的数据进行训练,你需要增加一个数据集代码, 一个 数据预处理代码, 一个和这个数据集相关的配置目录, 一份 训练脚本。这些修改只需要依照已有代码进行依葫芦画瓢即可,下面我们分步骤来看这些部分都需要增加什么:
首先,我们如下图所示,增加一个和你的数据集相关的配置目录:
├── _base_
│ └── global_configs.yml
├── lung_coronavirus
│ ├── lung_coronavirus.yml
│ ├── README.md
│ └── vnet_lung_coronavirus_128_128_128_15k.yml
所有数据需要经过预处理转换成 numpy 数据并进行数据集划分,参考这个数据预处理代码:
├── lung_coronavirus_phase0 # 预处理后的文件路径
│ ├── images
│ │ ├── imagexx.npy
│ │ ├── ...
│ ├── labels
│ │ ├── labelxx.npy
│ │ ├── ...
│ ├── train_list.txt # 训练数据,格式: /path/to/img_name_xxx.npy /path/to/label_names_xxx.npy
│ └── val_list.txt # 评估数据,格式: img_name_xxx.npy label_names_xxx.npy
所有的数据集都继承了 MedicalDataset 基类,并通过上一步生成的 train_list.txt 和 val_list.txt 来获取数据。代码示例在这里。
训练脚本能自动化训练推理过程,我们提供了一个训练脚本示例 用于参考,只需要复制,并按照需要修改就可以进行一键训练推理:
# 设置使用的单卡 GPU id
export CUDA_VISIBLE_DEVICES=3
# 设置配置文件名称和保存路径
config_name=vnet_lung_coronavirus_128_128_128_15k
yml=lung_coronavirus/${config_name}
save_dir_all=saved_model
save_dir=saved_model/${config_name}
mkdir -p $save_dir
# 模型训练
python3 train.py --config configs/${yml}.yml \
--save_dir $save_dir \
--save_interval 500 --log_iters 100 \
--num_workers 6 --do_eval --use_vdl \
--keep_checkpoint_max 5 --seed 0 >> $save_dir/train.log
# 模型评估
python3 val.py --config configs/${yml}.yml \
--save_dir $save_dir/best_model --model_path $save_dir/best_model/model.pdparams \
# 模型导出
python export.py --config configs/${yml}.yml \
--model_path $save_dir/best_model/model.pdparams
# 模型预测
python deploy/python/infer.py --config output/deploy.yaml --image_path data/lung_coronavirus/lung_coronavirus_phase0/images/coronacases_org_007.npy --benchmark True
这部分介绍了我们仓库的整体结构,这个结构决定了我们的不同的功能模块都是十分方便拓展的。我们的文件树如图所示:
├── configs # 关于训练的配置,每个数据集的配置在一个文件夹中。基于数据和模型的配置都可以在这里修改
├── data # 存储预处理前后的数据
├── deploy # 部署相关的文档和脚本
├── medicalseg
│ ├── core # 训练和评估的代码
│ ├── datasets
│ ├── models
│ ├── transforms # 在线变换的模块化代码
│ └── utils
├── export.py
├── run-unet.sh # 包含从训练到部署的脚本
├── tools # 数据预处理文件夹,包含数据获取,预处理,以及数据集切分
├── train.py
├── val.py
└── visualize.ipynb # 用于进行 3D 可视化
未来,我们想在这几个方面来发展 MedicalSeg,欢迎加入我们的开发者小组。
- [✔️] 增加带有预训练加速,自动化参数配置的高精度 PP-nnunet 模型。
- [✔️] 增加 3D 智能标注平台。
- 增加在多个数据上训练的预训练模型。
MedicalSeg 的 License 为 Apache 2.0 license.
- 非常感谢 Lin Han, Lang Du, onecatcn 对我们仓库的贡献。
- 非常感谢 itkwidgets 强大的3D可视化功能。
- 非常感谢 Idea icons created by Vectors Market - Flaticon 给我们提供了好看的图标