论文地址:MetaFormer is Actually What You Need for Vision
项目地址:https://aistudio.baidu.com/aistudio/projectdetail/4216419
Transformer已经证明在计算机视觉任务中有非常大的潜力,一种普遍的看法是基于attention的token mixer模块使transformer具有竞争力。但是将attention用spatial MLP替代后,模型仍然具有非常好的效果。那么是不是transformer的结构而不是attention使其有效呢?作者使用池化层代替transformer中的attention,构建了PoolFormer模型,取得了非常好的效果,ImageNet-1k准确率达到82.1%。证明了Transformer结构的有效性,而非attention。
本文提出MetaFormer:一种从Transformer中抽象出来的通用架构,没有指定token mixer,并提出PoolFormer基线在分类、检测和分割任务上进行验证。本次复现在分类任务上进行验证实验。各种模型的对比如下图:
PoolFormer的网络结构非常简单,只需要把Transformer的Attention模块换成Pooling就可以:
不同的Pooling模块可以有不同的配置:
针对PoolFormer的复现在AiStudio中已经存在,本复现针对MetaFormer,并完整复现不同大小网络的MetaFormer
链接:http://www.cs.toronto.edu/~kriz/cifar.html
CIFAR-10是一个更接近普适物体的彩色图像数据集。CIFAR-10 是由Hinton 的学生Alex Krizhevsky 和Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。一共包含10 个类别的RGB彩色图片:飞机(airplane)、汽车(automobile)、鸟类(bird)、猫(cat)、鹿(deer)、狗(dog)、蛙类(frog)、马(horse)、船(ship)和卡车(truck).
每个图片的尺寸为