paddleocr 训练卡死 #4

shiyutang · 2023-08-21T08:14:22Z

您好，paddleocr 算法工程师们，在aisudio 上测试paddleocr 使用100张jpg 使用ocr v3 模型，配置是v100 16GB 使用单卡训练开始出现卡死，我尝试修改batch 为1。num_work 1 则还是出现卡死，尝试使用gpu 训练也是出现卡死情况，使用gpu 查看 gpu 占用1k 显存，内存无反应，cpu 查看占用2k，

我们提供了AceIssueSolver来帮助你解答问题，你是否想要它来解答(请填写yes/no)?/We provide AceIssueSolver to solve issues, do you want it? (Please write yes/no): yes

aceissuesolver · 2023-08-21T08:17:28Z

Issue Response

✨ Introduction: Thanks for opening this issue, I am the AceIssueSolver that will help you with your questoins!
🎯 First round response: The answer to your question is:

根据您的描述，您在使用paddleocr进行训练时遇到了卡死的情况。您尝试了修改batch size为1，将num workers设置为1，以及使用GPU训练，但问题仍然存在。您还提到GPU占用1k显存，内存没有反应，CPU占用2k。

针对这个问题，有几个可能的解决方案：

检查显存和内存是否足够。如果显存不足，可以尝试减小batch size；如果内存不足，可以尝试释放一些内存或增加机器的内存。
检查是否有残留进程。如果有残留进程，可以尝试结束这些进程。
检查环境配置。可以参考安装文档，确保环境配置正确。
检查数据集的大小。如果数据集太小，可以尝试增加一个epoch中的训练step数量，或者将参数print_batch_step设置为1，以便在每个step打印log信息。
如果使用私有数据集训练，可以先使用PaddleOCR提供的数据集进行训练，以排除私有数据集的问题。

另外，根据您的描述，您可以尝试将batch size设置为1，并将num workers设置为1，以减小训练的负载。如果问题仍然存在，可能需要进一步排查其他可能的原因。

希望以上解决方案对您有帮助。如果问题仍然存在，请提供更多详细信息，以便我们能够更好地帮助您解决问题。.

How to use

To invoke the AceIssueSolver, add a comment using one of the following commands:
@Ace-issue-solver <QUESTION>: Pose more questions on AceIssueSolver.

shiyutang · 2023-08-21T08:39:34Z

@Ace-issue-solver 请问我是否大概率是dataloader获取时卡死呢？

aceissuesolver · 2023-08-21T08:44:35Z

Thanks for mentioning me! 可能是由于dataloader获取时卡死导致的问题。可以尝试以下解决方法：

检查数据集的数据量是否太小，可调小batch size从而增加一个epoch中的训练step数量。
在训练配置文件中，将参数print_batch_step改为1，即每一个step打印一次log信息，以便查看训练过程中的具体情况。
如果使用私有数据集训练，可先使用PaddleOCR提供/推荐的数据集进行训练，以排除私有数据集可能存在的问题。

Ligoml · 2023-08-30T12:41:07Z

@Ace-issue-solver 可是batchsize已经是1了，还怎么调小

aceissuesolver · 2023-09-07T09:58:30Z

Thanks for mentioning me!

根据您的描述，您在使用paddleocr进行训练时遇到了卡死的情况。您尝试了修改batch size为1，将num workers设置为1，以及使用GPU训练，但问题仍然存在。您还提到GPU占用1k显存，内存没有反应，CPU占用2k。

针对这个问题，有几个可能的解决方案：

检查显存和内存是否足够。如果显存不足，可以尝试减小batch size；如果内存不足，可以尝试释放一些内存或增加机器的内存。
检查是否有残留进程。如果有残留进程，可以尝试结束这些进程。
检查环境配置。可以参考安装文档，确保环境配置正确。
检查数据集的大小。如果数据集太小，可以尝试增加一个epoch中的训练step数量，或者将参数print_batch_step设置为1，以便在每个step打印log信息。
如果使用私有数据集训练，可以先使用PaddleOCR提供的数据集进行训练，以排除私有数据集的问题。

另外，根据您的描述，您可以尝试将batch size设置为1，并将num workers设置为1，以减小训练的负载。如果问题仍然存在，可能需要进一步排查其他可能的原因。

希望以上解决方案对您有帮助。如果问题仍然存在，请提供更多详细信息，以便我们能够更好地帮助您解决问题。

Related Sources

Repository owner deleted a comment from aceissuesolver bot Aug 23, 2023

shiyutang added the testbot label Aug 28, 2023

Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

paddleocr 训练卡死 #4

paddleocr 训练卡死 #4

shiyutang commented Aug 21, 2023 •

edited

Loading

aceissuesolver bot commented Aug 21, 2023 •

edited by shiyutang

Loading

shiyutang commented Aug 21, 2023

aceissuesolver bot commented Aug 21, 2023

Ligoml commented Aug 30, 2023 •

edited by shiyutang

Loading

aceissuesolver bot commented Sep 7, 2023

paddleocr 训练卡死 #4

paddleocr 训练卡死 #4

Comments

shiyutang commented Aug 21, 2023 • edited Loading

aceissuesolver bot commented Aug 21, 2023 • edited by shiyutang Loading

Issue Response

How to use

shiyutang commented Aug 21, 2023

aceissuesolver bot commented Aug 21, 2023

Ligoml commented Aug 30, 2023 • edited by shiyutang Loading

aceissuesolver bot commented Sep 7, 2023

Related Sources

shiyutang commented Aug 21, 2023 •

edited

Loading

aceissuesolver bot commented Aug 21, 2023 •

edited by shiyutang

Loading

Ligoml commented Aug 30, 2023 •

edited by shiyutang

Loading