Skip to content

Commit

Permalink
whatever
Browse files Browse the repository at this point in the history
  • Loading branch information
PommesPeter committed Sep 2, 2023
1 parent 94a05fe commit 98d0857
Show file tree
Hide file tree
Showing 5 changed files with 23 additions and 23 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -60,7 +60,7 @@ RTPB 在训练过程中为模型分配一个针对类别的阻力,其中每一

## Methods

![image-20220902225008558](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220902225008558.png)
![image-20220902225008558](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220902225008558.png)

主要是引入了两种方法,对于信息提取使用 Dual Transformer,对于关系之间的计算使用阻力偏置的方式训练偏置项,用偏置项来优化最后的关系分类结果。

Expand Down Expand Up @@ -179,15 +179,15 @@ $$

- Resistence Bias 的超参数

![image-20220903105545356](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105545356.png)
![image-20220903105545356](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105545356.png)

- Soft Resistence Bias

![image-20220903105604556](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105604556.png)
![image-20220903105604556](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105604556.png)

其他 cost-sensitive 方法:

![image-20220903105632704](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105632704.png)
![image-20220903105632704](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105632704.png)

## Conclusion

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -103,7 +103,7 @@ SGG 的目标是生成一个摘要图 $\mathcal G$,以高度一般化给定图

### Overall Framework

![image-20220905130446979](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220905130446979.png)
![image-20220905130446979](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220905130446979.png)

- Proposal Network

Expand Down Expand Up @@ -246,9 +246,9 @@ $$

表1和表2分别显示了在VG150和GQA200上进行的不同方法的性能。

![image-20220906175828193](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175828193.png)
![image-20220906175828193](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175828193.png)

![image-20220906175835499](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175835499.png)
![image-20220906175835499](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175835499.png)

我们有以下一些观察结果:

Expand All @@ -265,7 +265,7 @@ $$
- w/o CKD:为了评估 CKD 在 GCL 中的有效性,我们删除了CKD的损失,但保留了所有的分类器来计算PCO的损失。
- w/o CA或w/o SA:为了评估 SHA 的有效性,我们在每个 SHA 层中删除了交叉注意(CA)单元或自我注意(SA)单元。

![image-20220906175816281](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175816281.png)
![image-20220906175816281](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175816281.png)

表3为所有消融模型的结果。我们有以下几个观察结果:

Expand All @@ -274,13 +274,13 @@ $$
3. 与 w/o-CKD 相比,我们看到 SHA+GCL 有明显的性能提高。此外,我们还比较了w/o-CKD和SHA+GCL对VG150上每个谓词类的详细精度。如图 5b 所示,CKD 有效地阻止了模型在头部类上牺牲很多东西,并实现了与尾部预测相当的性能。结果表明,“强约束”,即知识转移范式,可以通过保留先前学习到的识别能力,有效地补偿头部类的欠拟合,从而有利于实现合理的权衡。
4. 从表 3 的最后三行中,我们可以看到,无论是在删除 CA 单元还是 SA 单元时,性能都出现了明显的下降。验证了结合两种注意可以有效缓解模态融合不足,从而得到更准确的预测。

![image-20220906175742694](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175742694.png)
![image-20220906175742694](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175742694.png)

### 参数分析

如前所述,阈值 $\mu$ 和组织策略会影响 GCL 的效果。如图 6 所示,对于前者,我们设置了 $\mu=3, 4, 5$,并分别得到了 6, 5 和 4 个组的划分。对于后者,我们提供了两种选择,即相邻策略和自上而下策略,它们的区别在于每个分类器是可以从其最近的前任(相邻)还是从所有的前任(自上向下)学习知识。表4给出了性能比较,其中 $\mu=4$ 和自上而下的策略是最好的组合。

![image-20220906175700599](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175700599.png)
![image-20220906175700599](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175700599.png)

## Conclusion

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -74,7 +74,7 @@ tags:

## Methodology

![image-20220907175030776](src/04.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220907175030776.png)
![image-20220907175030776](src/03.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220907175030776.png)

图 2 说明了我们的整体框架,其中的上半部分通常描述了约定的 SGG 模型,而下半部分显示了我们提出的组合策略。我们的策略可以分为两个阶段:

Expand Down Expand Up @@ -218,7 +218,7 @@ $$

在这三个任务上,类间和类内的组合对模型性能都有积极的贡献,但它们具有不同的任务特定效果。更具体地说,是关于 RR 的主要任务。类内组合优于类间关系,因为测试集中的大部分关系由共同关系组成,只有一小部分关系被训练模型看不到。因此,类内组成在 RR 任务中起着更重要的作用。对于 FR 的任务,由于所有的关系都只有很少的样本,类内策略可以组成许多额外的相同的关系,从而导致显著的改进。

![image-20220908204449065](src/04.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220908204449065.png)
![image-20220908204449065](src/03.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220908204449065.png)

最后,对于简单地评估不可见关系的ZR任务,类间组合精确地创建了新的关系样本,并显示出比类内组合更好的有效性。此外,当我们将相似度度量改为随机策略时,我们可以看到两种组合策略对这三个任务都无效,这证明了我们提出的相似度计算方法是有效的。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -46,7 +46,7 @@ tags:

为了实现这一目标,我们将 HOI 检测表示为集合预测的形式。在本节中,我们首先讨论将目标检测[2]的 triplet 预测结构直接扩展到 HOI 检测的问题。然后,我们提出了我们的架构 HOTR,它并行地预测了一组 object,并将交互中的人和对象关联起来,而 Transformer 中的自注意力则模拟了交互之间的关系。最后,我们给出了我们的模型的训练细节,包括匈牙利匹配的HOI检测和我们的损失函数。

![image-20221020165828724](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020165828724.png)
![image-20221020165828724](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020165828724.png)

### Architecture

Expand All @@ -72,7 +72,7 @@ HOTR的总体结构如图 2 所示。我们的架构的特点是一个 Transform

图 3 说明了 HO 指针如何将来自 instance 解码器和 interaction 解码器的并行预测关联起来的概念性概述。HO指针(即,Human Pointer 和 Object Pointer)包含交互中的人和 object 的相应实例表示的索引。

![image-20221020183721595](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020183721595.png)
![image-20221020183721595](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020183721595.png)

在 interaction decoder 转换 $K$ 个 interaction queries 成 $K$ 个 interaction 表征之后,interaction 表征 $z_i$ 传入到两个 FFN 中,分别表示为:$\text{FFN}_h:\mathbb{R}^d\rarr\mathbb{R}^d,\text{FFN}_o:\mathbb{R}^d\rarr\mathbb{R}^d$。为了得到向量 $v_i^h$ 和 $v_i^o$。也就是 $v_i^h=\text{FFN}_h(z_i)$ 和 $v_i^h=\text{FFN}_o(z_i)$。最后得到相似度得分最高的 instance 表征的索引 $\hat c_i^h$ 和 $\hat c_i^o$。
$$
Expand Down Expand Up @@ -187,14 +187,14 @@ HOTR的总体结构如图 2 所示。我们的架构的特点是一个 Transform

我们的 HOTR 在 V-COCO 和 HICO-DET 数据集上实现了一个新的最先进的性能,同时是最快的并行检测器。表 1 显示了我们在同时包含场景 1 和场景 2 的 V-COCO 数据集上的结果。HOTR 在场景 1 中优于最先进的并行 HOI 检测器[30],其边际为 4.2mAP。

![image-20221022142515623](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142515623.png)
![image-20221022142515623](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142515623.png)

表2显示了每个 Full/Rare/Non-Rare 的默认设置中的 HICO-DET 中的结果。由于 HICO-DET 数据集中的对象的噪声标记,对 HICO-DET 训练集上的预训练对象检测器进行微调提供了一个有利于整体性能[1]的先验。因此,我们评估我们的性能在 HICO-DET 数据集在两个条件下:

1. 使用预先训练的权重 MS-COCO 训练期间冻结(记为 COCO 探测器列)
2. 性能后微调预先训练探测器 HICO-DET 训练集(记为 HICO-DET 探测器列)。在这两种情况下,我们的模型分别比最先进的并行 HOI 检测器优越于 4.1mAP 和 4mAP。

![image-20221022142644323](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142644323.png)
![image-20221022142644323](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142644323.png)

下面,我们将对我们的性能进行更详细的分析。

Expand All @@ -216,7 +216,7 @@ HOTR的总体结构如图 2 所示。我们的架构的特点是一个 Transform

消融实验结果如下:

![image-20221022142821194](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142821194.png)
![image-20221022142821194](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142821194.png)

- 是否使用 HO Pointer

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -119,7 +119,7 @@ HOI 检测任务是要使得机器能够理解图像上的人类活动。在这

## Methods

![image-20221102222629967](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221102222629967.png)
![image-20221102222629967](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221102222629967.png)

### Guided Embedding Network

Expand Down Expand Up @@ -165,7 +165,7 @@ Interaction Decoder 可以在人和 object query 的指导下预测相应的 HOI

:::

![image-20221102230013820](src/07.GEN-VLKT-Simplify-Association-and-Enhance Interaction-Understanding-for-HOI-Detection/image-20221102230013820.png)
![image-20221102230013820](src/06.GEN-VLKT-Simplify-Association-and-Enhance Interaction-Understanding-for-HOI-Detection/image-20221102230013820.png)

通过从大规模的 visual-languistic 预训练模型进行知识迁移。主要分为两个步骤,先经过 CLIP 文本 embedding 来分类 interaction 和物体,然后再将 visual 知识从 CLIP 图像 embedding 迁移到 interaction decoder 中。

Expand Down Expand Up @@ -246,21 +246,21 @@ Interaction Decoder 可以在人和 object query 的指导下预测相应的 HOI

#### HICO-Det

![image-20221103170924427](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103170924427.png)
![image-20221103170924427](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103170924427.png)

#### V-COCO

![image-20221103171005656](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171005656.png)
![image-20221103171005656](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171005656.png)

#### Zero-shot

![image-20221103171018600](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171018600.png)
![image-20221103171018600](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171018600.png)

### Ablation Study

本文从三个层面来考虑消融实验:

![image-20221105162445723](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221105162445723.png)
![image-20221105162445723](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221105162445723.png)

- 网络结构设置

Expand Down

0 comments on commit 98d0857

Please sign in to comment.