Transformer

A collection of 7 posts
Pretrained Transformers as Universal Computation Engines
Papers Reading

Pretrained Transformers as Universal Computation Engines

2021 3월 9일에 나온 Pretrained Transformers as Universal Computation Engines에 대한 간략한 리뷰를 다룬다. Yannic Kilcher과 이진원님의 영상을 보고 리뷰를 적어본다. 소개 이 논문은 pretrained Transformer가 처음부터 훈련하는 transformer보다 더 나은 성능을 보이고 수렴이 빨랐다는 내용이다. 특히, pretrain task는 다른 task가 아니라 NLP가 효과적이었다는 내용이다. Frozen Pretrained Transformer가 Full Transformer보다
9 min read
Perceiver IO: A General Architecture for Structured Inputs & Outputs
Papers Reading

Perceiver IO: A General Architecture for Structured Inputs & Outputs

내가 이전에 올린 Perceiver [https://milkclouds.work/perceiver-general-perception-with-iterative-attention/] 에 대한 게시물을 참고하자. 솔직히 말하면 Perceiver에서 크게 달라진 게 있는지는 잘... 모르겠다. 그야 달라지긴 했는데 음.. 1. Introduction Perceiver IO의 선행모델인 Perceiver에서는 하나의 모델에 다양한 종류의 입력을 입력으로 받을 수 있는, modality-specific details 없이도 학습이 되는 모델을 구현했다. 그러나 Perceiver은 classification과
2 min read
Perceiver: General Perception with Iterative Attention
Papers Reading

Perceiver: General Perception with Iterative Attention

Abstract 생물학적 시스템에서는 시각, 청각, 촉각, 자기수용감각 등 다양한 양상의 고차원 입력을 받아 동시에 처리해 세계를 인지한다. 그러나 딥러닝의 인지 모델은 각각의 양상을 위해 디자인되었으며 vision model의 local grid structure과 같은 domain-specific assumptions에 자주 의존한다. 이러한 전제는 유용한 inductive bias를 만들어 내지만 각각의 모델들을 각각의 양상에 한정시킨다. 본 논문에서는 Transformer
10 min read
AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
Papers Reading

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

요약 하나의 단어를 $W$개의 스칼라를 가진 벡터로 나타낼 때, 하나의 문장은 이 벡터를 $N$ 개 가진 행렬로 나타낼 수 있다. 이미지는 patch로 나눈 후 $N*N$개의 특징벡터를 가진 "문장"으로 취급할 수 있다. 즉, NLP에서 Transformer의 analogy를 그대로 Image Processing에 적용할 수 있다. 이 아이디어를 이용해 Transformer의 구조를
7 min read
DETR: End-to-End Object Detection with Transformers(ECCV 2020)
Papers Reading

DETR: End-to-End Object Detection with Transformers(ECCV 2020)

요약 정해진 개수의 bounding box를 구하고, bipartite matching을 통해 ground truth box와 매칭시킨다. 이후 loss를 구한다. 이런 과정을 통해 NMS(Non-maximum Suppression) 등과 같은 작업 없이 End-to-End로 Object Detection을 수행할 수 있다. (정해진 개수보다 적은 bounding box가 이미지 내에 존재한다면 'no object' class에 적절히 대응시킨다.) 또한 Encoding, Decoding 과정에서 Transformer을
8 min read
Attention Is All You Need(NIPS 2017)
Papers Reading

Attention Is All You Need(NIPS 2017)

Google Research의 논문이다. 요약 무려 3만회나 인용된, 가히 혁신적이라고 할 수 있는 논문이다. Attention Mechanism만을 이용한 모델 Transformer을 처음으로 제안하였으며, NLP에 쓰이다 나중에 DETR, ViT, Point Transformer, Perceiver 등 Transformer을 이용한 논문이 수많은 영역에서 우후죽순 생겨나며 간혹 SOTA도 차지하고 있다. 1. Introduction RNN, LSTM, GRU가 language modeling, machine translation 같은
9 min read
Training data-efficient image transformers & distillation through attention
Papers Reading

Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention Recently, neural networks purely based on attention were shown to addressimage understanding tasks such as image classification. However, these visualtransformers are pre-trained with hundreds of millions of images using anexpensive infrastructure, thereby limiting their adoption. In this work,… arXiv.orgHugo Touvron [https://arxiv.
11 min read