Skip to content

Feng1909/MetaFormer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

MetaFormer

论文地址:MetaFormer is Actually What You Need for Vision
项目地址:https://aistudio.baidu.com/aistudio/projectdetail/4216419

简介

Transformer已经证明在计算机视觉任务中有非常大的潜力,一种普遍的看法是基于attention的token mixer模块使transformer具有竞争力。但是将attention用spatial MLP替代后,模型仍然具有非常好的效果。那么是不是transformer的结构而不是attention使其有效呢?作者使用池化层代替transformer中的attention,构建了PoolFormer模型,取得了非常好的效果,ImageNet-1k准确率达到82.1%。证明了Transformer结构的有效性,而非attention。

本文提出MetaFormer:一种从Transformer中抽象出来的通用架构,没有指定token mixer,并提出PoolFormer基线在分类、检测和分割任务上进行验证。本次复现在分类任务上进行验证实验。各种模型的对比如下图:

PoolFormer的网络结构非常简单,只需要把Transformer的Attention模块换成Pooling就可以:

不同的Pooling模块可以有不同的配置:

针对PoolFormer的复现在AiStudio中已经存在,本复现针对MetaFormer,并完整复现不同大小网络的MetaFormer

Cifar10数据集

链接:http://www.cs.toronto.edu/~kriz/cifar.html

CIFAR-10是一个更接近普适物体的彩色图像数据集。CIFAR-10 是由Hinton 的学生Alex Krizhevsky 和Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。一共包含10 个类别的RGB彩色图片:飞机(airplane)、汽车(automobile)、鸟类(bird)、(cat)、鹿(deer)、(dog)、蛙类(frog)、(horse)、(ship)和卡车(truck).

每个图片的尺寸为 $32\times 32$,每个类别有6000个图像,数据集中一共有50000张训练图片和10000张测试图片。

About

一种Transformer的通用架构复现

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published