关于finetune阶段的问题 #10

Qudaokuan · 2024-10-12T09:00:49Z

您好，在模型的finetune 阶段中，函数train_ddim()中这个x并没有经过vae的decode就输入到OCR识别模型中去计算loss，正常情况下不应该是经过vae的decode之后送入到OCR模型中算损失么

761qgmpgz943 · 2024-10-12T13:02:37Z

还有进行微调之后，效果提升多吗 @dailenson

dailenson · 2024-10-12T14:30:47Z

是否需要经过vae deocder取决于识别器预训练过程是在latent code上还是在vae decoder后的原图上。实验过程中发现让识别器在latet code上直接预训练是work的。在原图上反而会显著加大内存。至于效果的话，微调之后可以显著提升生成字符的内容准确度。

Provide feedback