Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

paddleocr 训练卡死 #4

Open
shiyutang opened this issue Aug 21, 2023 · 5 comments
Open

paddleocr 训练卡死 #4

shiyutang opened this issue Aug 21, 2023 · 5 comments
Labels

Comments

@shiyutang
Copy link
Owner

shiyutang commented Aug 21, 2023

您好,paddleocr 算法工程师们,在aisudio 上测试paddleocr 使用100张jpg 使用ocr v3 模型,配置是v100 16GB 使用单卡训练 开始出现卡死,我尝试修改batch 为1。num_work 1 则还是出现卡死,尝试使用gpu 训练 也是出现卡死情况,使用gpu 查看 gpu 占用1k 显存,内存无反应,cpu 查看 占用2k,

我们提供了AceIssueSolver来帮助你解答问题,你是否想要它来解答(请填写yes/no)?/We provide AceIssueSolver to solve issues, do you want it? (Please write yes/no): yes

@aceissuesolver
Copy link

aceissuesolver bot commented Aug 21, 2023

Issue Response

  • Introduction: Thanks for opening this issue, I am the AceIssueSolver that will help you with your questoins!
  • 🎯 First round response: The answer to your question is:

根据您的描述,您在使用paddleocr进行训练时遇到了卡死的情况。您尝试了修改batch size为1,将num workers设置为1,以及使用GPU训练,但问题仍然存在。您还提到GPU占用1k显存,内存没有反应,CPU占用2k。

针对这个问题,有几个可能的解决方案:

  1. 检查显存和内存是否足够。如果显存不足,可以尝试减小batch size;如果内存不足,可以尝试释放一些内存或增加机器的内存。
  2. 检查是否有残留进程。如果有残留进程,可以尝试结束这些进程。
  3. 检查环境配置。可以参考安装文档,确保环境配置正确。
  4. 检查数据集的大小。如果数据集太小,可以尝试增加一个epoch中的训练step数量,或者将参数print_batch_step设置为1,以便在每个step打印log信息。
  5. 如果使用私有数据集训练,可以先使用PaddleOCR提供的数据集进行训练,以排除私有数据集的问题。

另外,根据您的描述,您可以尝试将batch size设置为1,并将num workers设置为1,以减小训练的负载。如果问题仍然存在,可能需要进一步排查其他可能的原因。

希望以上解决方案对您有帮助。如果问题仍然存在,请提供更多详细信息,以便我们能够更好地帮助您解决问题。.

How to use

To invoke the AceIssueSolver, add a comment using one of the following commands:
@Ace-issue-solver <QUESTION>: Pose more questions on AceIssueSolver.

@shiyutang
Copy link
Owner Author

@Ace-issue-solver 请问我是否大概率是dataloader获取时卡死呢?

@aceissuesolver
Copy link

Thanks for mentioning me! 可能是由于dataloader获取时卡死导致的问题。可以尝试以下解决方法:

  1. 检查数据集的数据量是否太小,可调小batch size从而增加一个epoch中的训练step数量。
  2. 在训练配置文件中,将参数print_batch_step改为1,即每一个step打印一次log信息,以便查看训练过程中的具体情况。
  3. 如果使用私有数据集训练,可先使用PaddleOCR提供/推荐的数据集进行训练,以排除私有数据集可能存在的问题。

Repository owner deleted a comment from aceissuesolver bot Aug 23, 2023
@Ligoml
Copy link

Ligoml commented Aug 30, 2023

@Ace-issue-solver 可是batchsize已经是1了,还怎么调小

Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
Repository owner deleted a comment from aceissuesolver bot Sep 7, 2023
@aceissuesolver
Copy link

aceissuesolver bot commented Sep 7, 2023

Thanks for mentioning me!

根据您的描述,您在使用paddleocr进行训练时遇到了卡死的情况。您尝试了修改batch size为1,将num workers设置为1,以及使用GPU训练,但问题仍然存在。您还提到GPU占用1k显存,内存没有反应,CPU占用2k。

针对这个问题,有几个可能的解决方案:

  1. 检查显存和内存是否足够。如果显存不足,可以尝试减小batch size;如果内存不足,可以尝试释放一些内存或增加机器的内存。
  2. 检查是否有残留进程。如果有残留进程,可以尝试结束这些进程。
  3. 检查环境配置。可以参考安装文档,确保环境配置正确。
  4. 检查数据集的大小。如果数据集太小,可以尝试增加一个epoch中的训练step数量,或者将参数print_batch_step设置为1,以便在每个step打印log信息。
  5. 如果使用私有数据集训练,可以先使用PaddleOCR提供的数据集进行训练,以排除私有数据集的问题。

另外,根据您的描述,您可以尝试将batch size设置为1,并将num workers设置为1,以减小训练的负载。如果问题仍然存在,可能需要进一步排查其他可能的原因。

希望以上解决方案对您有帮助。如果问题仍然存在,请提供更多详细信息,以便我们能够更好地帮助您解决问题。

Related Sources

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants