LibFewShot学习使用过程中的一些困惑。 #55

MasterWinston · 2022-10-07T11:59:21Z

MasterWinston
Oct 7, 2022

### 1.关于train、val、test set的困惑。

Libfewshot中把数据集分为train、val和test，比如，miniImagenet数据集有100个class，被分成train set、val set、test set；
但我看到在fewshot领域其他人对数据集处理时，似乎只分成了train set 和test set，也就是说100个class只需要分成不交叉的background 和evaluation（比如76：24），而且就我对libfewshot代码中所理解的val on val set、test on test set部分，好像只是在train完后进行的两次重复性的test。
按照我从网上找到的对train、val和test的介绍，如下：
train是训练集，val是训练过程中的测试集，是为了让你在边训练边看到训练的结果，及时判断学习状态。test就是训练模型结束后，用于评价模型结果的测试集。
按我的理解，libfewshot在train阶段，val on val set、test on test set部分都是在边训练边看到训练的结果。是我的理解出了差错吗？

### 2.关于meta learning的一些疑惑。

据我了解，meta learning是在taskA、taskB、……上进行训练，然后在new task上进行少量的训练即可得到较好的结果。在miniImagenet上训练时的确也是按照这个思路来的，分成了train class和test class。现在假设我已经用miniImagenet训好了一个模型（5-way 5-shot）
然后如果我现在用自己的新的数据集，我是否可以直接使用libfewshot中的run_trainer_resume.py来进行训练呢？（假设之前的模型epoch：100，我想在训好的模型基础上训我自己的数据集10epoch，因此我在run_trainer_resume.py将epoch参数设为110，这个方法是否可行）。
另外，当这个数据集只有4 class且每个class的数据量只有4个时，我怎么在已经训好的模型（5-way 5-shot）上进行继续训练，还是说此时我无法使用这个训好的模型，只能先使用数据集，比如miniImagenet来重新训个4-way k（<4）-shot的模型呢？

Answered by wZuck

Oct 9, 2022

val集仍然是用来挑选最优模型，参考

LibFewShot/core/trainer.py

Lines 102 to 110 in f002bf3

     if self.rank == 0:  
   if ((epoch_idx + 1) % self.val_per_epoch) == 0:  
   if val_acc > self.best_val_acc:  
   self.best_val_acc = val_acc  
   self.best_test_acc = test_acc  
   self._save_model(epoch_idx, SaveType.BEST)  
    
   if epoch_idx != 0 and epoch_idx % self.config["save_interval"] == 0:  
   self._save_model(epoch_idx, SaveType.NORMAL)  

 

，训练阶段的text on test set只是用来更直观地感受模型训练过程，给分析调优提供信息。在现在的数据集分割中，train/val/test都不相交，你说的76:24的数据集分割策略有具体的论文可以参考吗，可以拿来再讨论。

理论上是可以的，你其实想做的是在新数据集上迁移模型并微调，一般我们会在配置文件中填写预训练好的backbone权重来微调，而不是以resume的方式来继续训练，因为这可能带来一些例如学习率、学习率调度器上的问题。当你的微调任务和预训练任务的way不同时，如果你使用的…

View full answer

wZuck · 2022-10-09T12:56:57Z

wZuck
Oct 9, 2022
Maintainer

val集仍然是用来挑选最优模型，参考

LibFewShot/core/trainer.py

Lines 102 to 110 in f002bf3

    
           if self.rank == 0: 
        
               if ((epoch_idx + 1) % self.val_per_epoch) == 0: 
        
                   if val_acc > self.best_val_acc: 
        
                       self.best_val_acc = val_acc 
        
                       self.best_test_acc = test_acc 
        
                       self._save_model(epoch_idx, SaveType.BEST) 
        
                   if epoch_idx != 0 and epoch_idx % self.config["save_interval"] == 0: 
        
                       self._save_model(epoch_idx, SaveType.NORMAL)

，训练阶段的text on test set只是用来更直观地感受模型训练过程，给分析调优提供信息。在现在的数据集分割中，train/val/test都不相交，你说的76:24的数据集分割策略有具体的论文可以参考吗，可以拿来再讨论。

理论上是可以的，你其实想做的是在新数据集上迁移模型并微调，一般我们会在配置文件中填写预训练好的backbone权重来微调，而不是以resume的方式来继续训练，因为这可能带来一些例如学习率、学习率调度器上的问题。当你的微调任务和预训练任务的way不同时，如果你使用的是ProtoNet这种模型，是可以的，因为他和way无关，也没有额外参数；但是如果用的是和way相关的分类头，那么就不能沿用原来模型的分类头，在微调时需要对新分类头适当调整学习率。

5 replies

MasterWinston Oct 10, 2022
Author

非常感谢回复！76：24的数据集分割策略并没有具体论文参考，只是我印象中的比例。
question 1我已经理解，但question 2中的回答关于“在配置文件中填写预训练好的backbone权重来微调”我不是很理解，请问已有的代码里有实例吗？或者你可以给个demo吗（我python并不是很会，现在还并不能自己写.py代码来在新数据集上迁移模型微调）？非常感谢！

另外，我在用maml训练MiniImagenet（4-way 4-shot）后，训练时的best_acc分别是65.33(val set)、66.19(test set)，然后我用resume的方式在我自己的数据集上训练了少数epoch，训练时的best_acc分别是96.18（val set）、80.07（test set），测试后的aver_acc是79.56，我的数据集是只有4 class，因此在train、val、test set中均包含4class，但它们的具体样本图形并不重复。我有个困惑：为什么在训练阶段，val、test set上的准确率会相差这么大呢？

wZuck Oct 10, 2022
Maintainer

请参考

LibFewShot/core/trainer.py

Lines 428 to 438 in f002bf3

    
           if self.config["pretrain_path"] is not None: 
        
               print( 
        
                   "load pretraining emb_func from {}".format(self.config["pretrain_path"]) 
        
               ) 
        
               state_dict = torch.load(self.config["pretrain_path"], map_location="cpu") 
        
               msg = model.emb_func.load_state_dict(state_dict, strict=False) 
        
               if len(msg.missing_keys) != 0: 
        
                   print("Missing keys:{}".format(msg.missing_keys), level="warning") 
        
               if len(msg.unexpected_keys) != 0: 
        
                   print("Unexpected keys:{}".format(msg.unexpected_keys), level="warning")

以及

LibFewShot/config/headers/model.yaml

Line 7 in f002bf3

pretrain_path: ~

一个模型训练完之后，对应的checkpoint文件夹会存有emb_func_best.pth，代表模型的特征提取器参数，可以将配置中的pretrain_path设置为该权重路径，做迁移学习。假设已经有了A数据集上的emb_func_best.pth，你只需要在你的配置文件中设置好该预训练权重路径，然后调整一些例如way_num的参数，并且减小学习率做少量微调即可。

样本数太少时精度指标可能并不可靠。

MasterWinston Oct 10, 2022
Author

好的👌十分感谢！

MasterWinston Oct 10, 2022
Author

又打扰你了（：
我在你们给的checkpoints权重文件里面发现有的方法里面并没有emb_func.py相关文件，比如baseline、REnet。
PS：我之前并没有了解这些方法。

wZuck Oct 10, 2022
Maintainer

上传的时候可能误删了，不过emb_func_best.pth可以从model_best.pth中提取出来。

大概的代码如下，你可以试一下

model_best = torch.load('model_best.pth')
emb_func_best = {'.'.join(k.split('.')[1:]):v for k,v in model_best['model'] if 'emb_func' in k}

muki77 · 2022-10-11T09:23:07Z

muki77
Oct 11, 2022

打扰各位了，这个邮件一直抄送给我，N久了，为防泄密，能否取消抄送我呀，麻烦了~ 王梦琪采购专员曙光信息产业股份有限公司南京市江宁区诚信大道519号芳园中路 211100 电话:- 传真:025-84721630-808 手机:13255265831 股票代码：603019 发件人： MasterWinston 发送时间： 2022-10-10 19:27 收件人： RL-VIG/LibFewShot 抄送： Subscribed 主题： Re: [RL-VIG/LibFewShot] LibFewShot学习使用过程中的一些困惑。 (Discussion #55) 好的十分感谢！ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

0 replies

MasterWinston · 2022-10-13T07:11:47Z

MasterWinston
Oct 13, 2022
Author

你好，你的reply 2.中关于“分类头和way有关不能沿用原来分类头”我有一些困惑，希望能够得到你的帮助。我在使用Libfewshot中提供的reproduce权重（renet 5-way-5shot backbone:resnet12）在自己的4class数据集上微调时依旧沿用原来的renet分类头，在训练时报错，具体信息见附件err_log2_renet.txt。部分错误信息如下： File "E:\wansongbo\LibFewShot\core\data\collates\collate_functions.py", line 160, in method     -1, self.way_num, self.shot_num + self.query_num RuntimeError: shape '[-1, 4, 14]' is invalid for input of size 64 我简单的将分类头中的num_classs从64改为4后报错信息不变。然后我又将query_num改为12后，出现了新的报错，详细信息见err_log1_renet.txt。部分错误信息如下： File "E:\wansongbo\LibFewShot\core\model\finetuning\renet.py", line 384, in set_forward   ep_images, _ = batch ValueError: too many values to unpack (expected 2) 我想知道要如何设置新的分类头来适配 Libfewshot中提供的reproduce权重（renet 5-way-5shot backbone:resnet12）呢？如果我的数据集有>=5class时能否沿用原来分类头呢？ PS：在上面的两个报错log信息中，都是在epoch0训练100个episode（train_episode：1000）后直接结束——train on train set——，这个原因我也不知道是为啥。

…

------------------ 原始邮件 ------------------ 发件人: "RL-VIG/LibFewShot" ***@***.***>; 发送时间: 2022年10月9日(星期天) 晚上8:57 ***@***.***>; ***@***.******@***.***>; 主题: Re: [RL-VIG/LibFewShot] LibFewShot学习使用过程中的一些困惑。 (Discussion #55) val集仍然是用来挑选最优模型，参考https://github.com/RL-VIG/LibFewShot/blob/f002bf351f46ff68664906c4903916983abc2f02/core/trainer.py#L102-L110 ，训练阶段的text on test set只是用来更直观地感受模型训练过程，给分析调优提供信息。在现在的数据集分割中，train/val/test都不相交，你说的76:24的数据集分割策略有具体的论文可以参考吗，可以拿来再讨论。理论上是可以的，你其实想做的是在新数据集上迁移模型并微调，一般我们会在配置文件中填写预训练好的backbone权重来微调，而不是以resume的方式来继续训练，因为这可能带来一些例如学习率、学习率调度器上的问题。当你的微调任务和预训练任务的way不同时，如果你使用的是ProtoNet这种模型，是可以的，因为他和way无关，也没有额外参数；但是如果用的是和way相关的分类头，那么就不能沿用原来模型的分类头，在微调时需要对新分类头适当调整学习率。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

2 replies

wZuck Oct 13, 2022
Maintainer

你好，看不到附件。

yangcedrus Oct 13, 2022
Maintainer

我们排查后，建议回退下你的修改，并修改下面的代码

LibFewShot/core/data/dataloader.py

Line 83 in f002bf3

if config["dataloader_num"] == 1 or mode == "test":

改成

if config["dataloader_num"] == 1 or mode in ["val", "test"]:

这部分由于疏忽没有考虑到ReNet方法的验证过程，后续会进行修改。

另外，100episode问题：应该是数据集和配置不一致的问题，RENet训练时需要保证训练集样本数/batch_size = train_episode，否则会出现一个batch dataloader已经读完却还要再读取的情况，你的数据集应该很小，与配置的train_episode:1000 batch_size:64有冲突。

MasterWinston · 2022-10-13T07:37:02Z

MasterWinston
Oct 13, 2022
Author

附件好像并不会上传到github上。我附件直接发送到你的个人邮箱可以吗

…

------------------ 原始邮件 ------------------ 发件人: "RL-VIG/LibFewShot" ***@***.***>; 发送时间: 2022年10月13日(星期四) 下午3:22 ***@***.***>; ***@***.******@***.***>; 主题: Re: [RL-VIG/LibFewShot] LibFewShot学习使用过程中的一些困惑。 (Discussion #55) 你好，看不到附件。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

1 reply

wZuck Oct 13, 2022
Maintainer

好的，或者使用gist也可以

MasterWinston · 2022-10-13T07:54:06Z

MasterWinston
Oct 13, 2022
Author

附件发你个人邮箱了另外这是我刚create的gist，链接是：https://gist.github.com/MasterWinston/d4b5ba578c90fca610383c20705dede7

…

------------------ 原始邮件 ------------------ 发件人: "RL-VIG/LibFewShot" ***@***.***>; 发送时间: 2022年10月13日(星期四) 下午3:38 ***@***.***>; ***@***.******@***.***>; 主题: Re: [RL-VIG/LibFewShot] LibFewShot学习使用过程中的一些困惑。 (Discussion #55) 好的，或者使用gist也可以 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

0 replies

MasterWinston · 2022-10-13T09:12:27Z

MasterWinston
Oct 13, 2022
Author

感谢，修改后训练已正常。

…

------------------ 原始邮件 ------------------ 发件人: "RL-VIG/LibFewShot" ***@***.***>; 发送时间: 2022年10月13日(星期四) 下午4:15 ***@***.***>; ***@***.******@***.***>; 主题: Re: [RL-VIG/LibFewShot] LibFewShot学习使用过程中的一些困惑。 (Discussion #55) 我们排查后，建议回退下你的修改，并修改下面的代码 https://github.com/RL-VIG/LibFewShot/blob/f002bf351f46ff68664906c4903916983abc2f02/core/data/dataloader.py#L83 改成 if config["dataloader_num"] == 1 or mode in ["val", "test"]: 这部分由于疏忽没有考虑到ReNet方法的验证过程，后续会进行修改。另外，100episode问题：应该是数据集和配置不一致的问题，RENet训练时需要保证训练集样本数/batch_size = train_episode，否则会出现一个batch dataloader已经读完却还要再读取的情况，你的数据集应该很小，与配置的train_episode:1000 batch_size:64有冲突。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

0 replies

MasterWinston · 2022-10-17T13:35:07Z

MasterWinston
Oct 17, 2022
Author

你好，请问Libfewshot库中是不是没有maml_resnet12_miniImagenet训练的权重文件？我在采用以上方式从头训练出现了错误，大致是在epoch 0 train完成后在——val on val set——时报错CUDA out of memory。我已经把相关参数调到比较小的水平，但是我发现在训练过程中GPU占用率98%（总共24576M）。请问是什么原因导致的呢？训练过程的全部信息的gist链接如下： https://gist.github.com/MasterWinston/d4b5ba578c90fca610383c20705dede7 报错信息在最新的file中。

…

------------------ 原始邮件 ------------------ 发件人: "RL-VIG/LibFewShot" ***@***.***>; 发送时间: 2022年10月13日(星期四) 下午4:15 ***@***.***>; ***@***.******@***.***>; 主题: Re: [RL-VIG/LibFewShot] LibFewShot学习使用过程中的一些困惑。 (Discussion #55) 我们排查后，建议回退下你的修改，并修改下面的代码 https://github.com/RL-VIG/LibFewShot/blob/f002bf351f46ff68664906c4903916983abc2f02/core/data/dataloader.py#L83 改成 if config["dataloader_num"] == 1 or mode in ["val", "test"]: 这部分由于疏忽没有考虑到ReNet方法的验证过程，后续会进行修改。另外，100episode问题：应该是数据集和配置不一致的问题，RENet训练时需要保证训练集样本数/batch_size = train_episode，否则会出现一个batch dataloader已经读完却还要再读取的情况，你的数据集应该很小，与配置的train_episode:1000 batch_size:64有冲突。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

1 reply

wZuck Oct 17, 2022
Maintainer

是的，本仓库的MAML实现方案在Resnet12上会导致显卡OOM，因此我们只提供了Conv64F上的结果。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LibFewShot学习使用过程中的一些困惑。 #55

{{title}}

Replies: 7 comments 9 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

	if self.rank == 0:
	if ((epoch_idx + 1) % self.val_per_epoch) == 0:
	if val_acc > self.best_val_acc:
	self.best_val_acc = val_acc
	self.best_test_acc = test_acc
	self._save_model(epoch_idx, SaveType.BEST)

	if epoch_idx != 0 and epoch_idx % self.config["save_interval"] == 0:
	self._save_model(epoch_idx, SaveType.NORMAL)

LibFewShot学习使用过程中的一些困惑。 #55

MasterWinston Oct 7, 2022

Replies: 7 comments · 9 replies

wZuck Oct 9, 2022 Maintainer

MasterWinston Oct 10, 2022 Author

wZuck Oct 10, 2022 Maintainer

MasterWinston Oct 10, 2022 Author

MasterWinston Oct 10, 2022 Author

wZuck Oct 10, 2022 Maintainer

muki77 Oct 11, 2022

MasterWinston Oct 13, 2022 Author

wZuck Oct 13, 2022 Maintainer

yangcedrus Oct 13, 2022 Maintainer

MasterWinston Oct 13, 2022 Author

wZuck Oct 13, 2022 Maintainer

MasterWinston Oct 13, 2022 Author

MasterWinston Oct 13, 2022 Author

MasterWinston Oct 17, 2022 Author

wZuck Oct 17, 2022 Maintainer

MasterWinston
Oct 7, 2022

Replies: 7 comments 9 replies

wZuck
Oct 9, 2022
Maintainer

MasterWinston Oct 10, 2022
Author

wZuck Oct 10, 2022
Maintainer

MasterWinston Oct 10, 2022
Author

MasterWinston Oct 10, 2022
Author

wZuck Oct 10, 2022
Maintainer

muki77
Oct 11, 2022

MasterWinston
Oct 13, 2022
Author

wZuck Oct 13, 2022
Maintainer

yangcedrus Oct 13, 2022
Maintainer

MasterWinston
Oct 13, 2022
Author

wZuck Oct 13, 2022
Maintainer

MasterWinston
Oct 13, 2022
Author

MasterWinston
Oct 13, 2022
Author

MasterWinston
Oct 17, 2022
Author

wZuck Oct 17, 2022
Maintainer