whatever

PommesPeter · Sep 2, 2023 · 98d0857 · 98d0857
1 parent 94a05fe
commit 98d0857
Show file tree

Hide file tree

Showing 5 changed files with 23 additions and 23 deletions.
diff --git a/...1.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation.md b/...1.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation.md
@@ -60,7 +60,7 @@ RTPB 在训练过程中为模型分配一个针对类别的阻力，其中每一
 
 ## Methods
 
-![image-20220902225008558](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220902225008558.png)
+![image-20220902225008558](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220902225008558.png)
 
 主要是引入了两种方法，对于信息提取使用 Dual Transformer，对于关系之间的计算使用阻力偏置的方式训练偏置项，用偏置项来优化最后的关系分类结果。
 
@@ -179,15 +179,15 @@ $$
 
 - Resistence Bias 的超参数
 
-  ![image-20220903105545356](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105545356.png)
+  ![image-20220903105545356](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105545356.png)
 
 - Soft Resistence Bias
 
-  ![image-20220903105604556](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105604556.png)
+  ![image-20220903105604556](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105604556.png)
 
 其他 cost-sensitive 方法：
 
-![image-20220903105632704](src/02.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105632704.png)
+![image-20220903105632704](src/01.Resistance-Training-using-Prior-Bias-toward-Unbiase-Scene-Graph-Generation/image-20220903105632704.png)
 
 ## Conclusion
 

diff --git a/...tention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation.md b/...tention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation.md
@@ -103,7 +103,7 @@ SGG 的目标是生成一个摘要图 $\mathcal G$，以高度一般化给定图
 
 ### Overall Framework
 
-![image-20220905130446979](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220905130446979.png)
+![image-20220905130446979](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220905130446979.png)
 
 - Proposal Network
 
@@ -246,9 +246,9 @@ $$
 
 表1和表2分别显示了在VG150和GQA200上进行的不同方法的性能。
 
-![image-20220906175828193](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175828193.png)
+![image-20220906175828193](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175828193.png)
 
-![image-20220906175835499](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175835499.png)
+![image-20220906175835499](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175835499.png)
 
 我们有以下一些观察结果：
 
@@ -265,7 +265,7 @@ $$
 - w/o CKD：为了评估 CKD 在 GCL 中的有效性，我们删除了CKD的损失，但保留了所有的分类器来计算PCO的损失。
 - w/o CA或w/o SA：为了评估 SHA 的有效性，我们在每个 SHA 层中删除了交叉注意(CA)单元或自我注意(SA)单元。
 
-![image-20220906175816281](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175816281.png)
+![image-20220906175816281](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175816281.png)
 
 表3为所有消融模型的结果。我们有以下几个观察结果：
 
@@ -274,13 +274,13 @@ $$
 3. 与 w/o-CKD 相比，我们看到 SHA+GCL 有明显的性能提高。此外，我们还比较了w/o-CKD和SHA+GCL对VG150上每个谓词类的详细精度。如图 5b 所示，CKD 有效地阻止了模型在头部类上牺牲很多东西，并实现了与尾部预测相当的性能。结果表明，“强约束”，即知识转移范式，可以通过保留先前学习到的识别能力，有效地补偿头部类的欠拟合，从而有利于实现合理的权衡。
 4. 从表 3 的最后三行中，我们可以看到，无论是在删除 CA 单元还是 SA 单元时，性能都出现了明显的下降。验证了结合两种注意可以有效缓解模态融合不足，从而得到更准确的预测。
 
-![image-20220906175742694](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175742694.png)
+![image-20220906175742694](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175742694.png)
 
 ### 参数分析
 
 如前所述，阈值 $\mu$ 和组织策略会影响 GCL 的效果。如图 6 所示，对于前者，我们设置了 $\mu=3, 4, 5$，并分别得到了 6, 5 和 4 个组的划分。对于后者，我们提供了两种选择，即相邻策略和自上而下策略，它们的区别在于每个分类器是可以从其最近的前任（相邻）还是从所有的前任（自上向下）学习知识。表4给出了性能比较，其中 $\mu=4$ 和自上而下的策略是最好的组合。
 
-![image-20220906175700599](src/03.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175700599.png)
+![image-20220906175700599](src/02.Stacked-Hybrid-Attention-and-Group-Collaborative-Learning-for-Unbiased-Scene-Graph-Generation/image-20220906175700599.png)
 
 ## Conclusion
 

diff --git a/...场景图生成/03.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation.md b/...场景图生成/03.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation.md
@@ -74,7 +74,7 @@ tags:
 
 ## Methodology
 
-![image-20220907175030776](src/04.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220907175030776.png)
+![image-20220907175030776](src/03.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220907175030776.png)
 
 图 2 说明了我们的整体框架，其中的上半部分通常描述了约定的 SGG 模型，而下半部分显示了我们提出的组合策略。我们的策略可以分为两个阶段：
 
@@ -218,7 +218,7 @@ $$
 
 在这三个任务上，类间和类内的组合对模型性能都有积极的贡献，但它们具有不同的任务特定效果。更具体地说，是关于 RR 的主要任务。类内组合优于类间关系，因为测试集中的大部分关系由共同关系组成，只有一小部分关系被训练模型看不到。因此，类内组成在 RR 任务中起着更重要的作用。对于 FR 的任务，由于所有的关系都只有很少的样本，类内策略可以组成许多额外的相同的关系，从而导致显著的改进。
 
-![image-20220908204449065](src/04.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220908204449065.png)
+![image-20220908204449065](src/03.Semantic-Compositional-Learning-for-Low-shot-Scene-Graph-Generation/image-20220908204449065.png)
 
 最后，对于简单地评估不可见关系的ZR任务，类间组合精确地创建了新的关系样本，并显示出比类内组合更好的有效性。此外，当我们将相似度度量改为随机策略时，我们可以看到两种组合策略对这三个任务都无效，这证明了我们提出的相似度计算方法是有效的。
 

diff --git a/...景图生成/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers.md b/...景图生成/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers.md
@@ -46,7 +46,7 @@ tags:
 
 为了实现这一目标，我们将 HOI 检测表示为集合预测的形式。在本节中，我们首先讨论将目标检测[2]的 triplet 预测结构直接扩展到 HOI 检测的问题。然后，我们提出了我们的架构 HOTR，它并行地预测了一组 object，并将交互中的人和对象关联起来，而 Transformer 中的自注意力则模拟了交互之间的关系。最后，我们给出了我们的模型的训练细节，包括匈牙利匹配的HOI检测和我们的损失函数。
 
-![image-20221020165828724](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020165828724.png)
+![image-20221020165828724](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020165828724.png)
 
 ### Architecture
 
@@ -72,7 +72,7 @@ HOTR的总体结构如图 2 所示。我们的架构的特点是一个 Transform
 
   图 3 说明了 HO 指针如何将来自 instance 解码器和 interaction 解码器的并行预测关联起来的概念性概述。HO指针（即，Human Pointer 和 Object Pointer）包含交互中的人和 object 的相应实例表示的索引。
 
-  ![image-20221020183721595](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020183721595.png)
+  ![image-20221020183721595](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221020183721595.png)
 
   在 interaction decoder 转换 $K$ 个 interaction queries 成 $K$ 个 interaction 表征之后，interaction 表征 $z_i$ 传入到两个 FFN 中，分别表示为：$\text{FFN}_h:\mathbb{R}^d\rarr\mathbb{R}^d,\text{FFN}_o:\mathbb{R}^d\rarr\mathbb{R}^d$。为了得到向量 $v_i^h$ 和 $v_i^o$。也就是 $v_i^h=\text{FFN}_h(z_i)$ 和 $v_i^h=\text{FFN}_o(z_i)$。最后得到相似度得分最高的 instance 表征的索引 $\hat c_i^h$ 和 $\hat c_i^o$。
   $$
@@ -187,14 +187,14 @@ HOTR的总体结构如图 2 所示。我们的架构的特点是一个 Transform
 
 我们的 HOTR 在 V-COCO 和 HICO-DET 数据集上实现了一个新的最先进的性能，同时是最快的并行检测器。表 1 显示了我们在同时包含场景 1 和场景 2 的 V-COCO 数据集上的结果。HOTR 在场景 1 中优于最先进的并行 HOI 检测器[30]，其边际为 4.2mAP。
 
-![image-20221022142515623](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142515623.png)
+![image-20221022142515623](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142515623.png)
 
 表2显示了每个 Full/Rare/Non-Rare 的默认设置中的 HICO-DET 中的结果。由于 HICO-DET 数据集中的对象的噪声标记，对 HICO-DET 训练集上的预训练对象检测器进行微调提供了一个有利于整体性能[1]的先验。因此，我们评估我们的性能在 HICO-DET 数据集在两个条件下：
 
 1. 使用预先训练的权重 MS-COCO 训练期间冻结（记为 COCO 探测器列）
 2. 性能后微调预先训练探测器 HICO-DET 训练集（记为 HICO-DET 探测器列）。在这两种情况下，我们的模型分别比最先进的并行 HOI 检测器优越于 4.1mAP 和 4mAP。
 
-![image-20221022142644323](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142644323.png)
+![image-20221022142644323](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142644323.png)
 
 下面，我们将对我们的性能进行更详细的分析。
 
@@ -216,7 +216,7 @@ HOTR的总体结构如图 2 所示。我们的架构的特点是一个 Transform
 
 消融实验结果如下：
 
-![image-20221022142821194](src/06.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142821194.png)
+![image-20221022142821194](src/05.HOTR-End-to-End-Human-Object-Interaction-Detection-with-Transformers/image-20221022142821194.png)
 
 - 是否使用 HO Pointer
 

diff --git a/...Simplify-Association-and-Enhance Interaction-Understanding-for-HOI-Detection.md b/...Simplify-Association-and-Enhance Interaction-Understanding-for-HOI-Detection.md
@@ -119,7 +119,7 @@ HOI 检测任务是要使得机器能够理解图像上的人类活动。在这
 
 ## Methods
 
-![image-20221102222629967](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221102222629967.png)
+![image-20221102222629967](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221102222629967.png)
 
 ### Guided Embedding Network
 
@@ -165,7 +165,7 @@ Interaction Decoder 可以在人和 object query 的指导下预测相应的 HOI
 
 :::
 
-![image-20221102230013820](src/07.GEN-VLKT-Simplify-Association-and-Enhance Interaction-Understanding-for-HOI-Detection/image-20221102230013820.png)
+![image-20221102230013820](src/06.GEN-VLKT-Simplify-Association-and-Enhance Interaction-Understanding-for-HOI-Detection/image-20221102230013820.png)
 
 通过从大规模的 visual-languistic 预训练模型进行知识迁移。主要分为两个步骤，先经过 CLIP 文本 embedding 来分类 interaction 和物体，然后再将 visual 知识从 CLIP 图像 embedding 迁移到 interaction decoder 中。
 
@@ -246,21 +246,21 @@ Interaction Decoder 可以在人和 object query 的指导下预测相应的 HOI
 
 #### HICO-Det
 
-![image-20221103170924427](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103170924427.png)
+![image-20221103170924427](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103170924427.png)
 
 #### V-COCO
 
-![image-20221103171005656](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171005656.png)
+![image-20221103171005656](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171005656.png)
 
 #### Zero-shot
 
-![image-20221103171018600](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171018600.png)
+![image-20221103171018600](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221103171018600.png)
 
 ### Ablation Study
 
 本文从三个层面来考虑消融实验：
 
-![image-20221105162445723](src/07.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221105162445723.png)
+![image-20221105162445723](src/06.GEN-VLKT-Simplify-Association-and-Enhance-Interaction-Understanding-for-HOI-Detection/image-20221105162445723.png)
 
 - 网络结构设置